نموذج ذكاء اصطناعي من مايكروسوفت يحول الصور إلى وجوه ناطقة

كشفت ورقة بحثية جديدة في مجال الذكاء الاصطناعي من مايكروسوفت عن مستقبل واعد يمكنك فيه رفع صورة وعينة من صوتك وإنشاء فيديو يتحدث اعتمادًا على وجهك، وتعتمد التقنية الجديدة التي تسمى VASA-1 على صورة شخصية واحدة وملف صوتي ثم تحولهم المنصة إلى فيديو يتحرك فيه الوجه بشكل واقعي تمامًا ويتكلم مع مزامنة الشفاه وملامح الوجه الواقعية وحركة الرأس.

ويعتبر النموذج حاليًا معاينة بحثية فقط وغير متاح لأي شخص خارج فريق بحث مايكروسوفت للتجربة، ولكن مقاطع الفيديو التوضيحية تبدو مثيرة للإعجاب، حيث تقدم تقنية مشابهة لمزامنة الشفاه وحركة الرأس بالفعل من الشركات إنفيديا و Runway ولكن يبدو أن هذه النسخة ذات جودة وواقعية أعلى بكثير، مما يقلل من عيوب حركة الفم.

المحتويات

كيف يعمل نموذج VASA-1؟

تقول مايكروسوفت أن النموذج الجديد لإنشاء وجوه تتكلم بشكل أقرب للواقع وخصوصًا لغرض تحريك الشخصيات الافتراضية، وجميع الأشخاص في الأمثلة الموضحة كانوا اصطناعيين، حيث تم إنشاؤهم باستخدام نموذج DALL-E ولكن إذا كان يمكنه تحريك صورة ذكاء اصطناعي واقعية، فيمكنه تحريك صورة حقيقية.

وفي العرض التوضيحي نرى الأشخاص يتحدثون كما لو كانوا مصورين بكاميرا عادية، مع حركة طبيعية تبدو مختلفة قليلًا ولكنها عمومًا تبدو طبيعية. والعجيب أن تزامن الشفاه مذهل للغاية، مع حركة طبيعية وعدم وجود عيوب حول أعلى وأسفل الفم كما هو مشاهد في أدوات أخرى، ومن أكثر الأشياء المثيرة للإعجاب في VASA-1 يبدو أنها الحقيقة التي لا يتطلب فيها صورة واضحة للوجه لجعلها تعمل.

ما هو الهدف من نموذج VASA-1؟

واحدة من حالات الاستخدام الأكثر وضوحًا لهذا هو في مزامنة الشفاه المتقدمة للألعاب، والقدرة على إنشاء مقاطع بالذكاء الاصطناعي مع حركة شفاه طبيعية يمكن أن تغير قواعد اللعبة للاندماج، ويمكن أيضًا استخدامه لإنشاء الشخصيات الافتراضية لمقاطع الفيديو على وسائل التواصل الاجتماعي، كما يظهر ذلك بالفعل من شركات مثل HeyGen و Synthesiaمجال آخر هو صناعة الأفلام القائمة على الذكاء الاصطناعي. يمكنك جعل فيديو موسيقي أكثر واقعية إذا كان لديك مطرب AI يبدو وكأنه يغني، ومع ذلك، يقول الفريق إن هذا مجرد عرض بحثي، ولا يوجد خطط لإصدار عام أو حتى توفيره للمطورين لاستخدامه في المنتجات.

كيف يعمل نموذج VASA-1 بشكل جيد؟

كانت قدرة VASA-1 على مزامنة الشفاه بشكل مثالي مع أغنية شيء مفاجئ للباحثين، وتتوافق الكلمات من لسان المغني دون مشاكل على الرغم من عدم استخدام الموسيقى في مجموعة بيانات التدريب. كما تعاملت مع أنماط صور مختلفة بما في ذلك لوحة الموناليزا، وينشىء النموذج صورًا بدقة 512x 512 بكسل بسرعة 45 إطارًا في الثانية ويمكنه فعل ذلك في حوالي 2 دقيقة باستخدام معالج الرسومات إنفيديا RTX 4090 الخاص بأجهزة الكمبيوتر المكتبية.

على الرغم من أنهم يقولون إن هذا فقط للأبحاث، سيكون من المؤسف إذا لم يتم نشر هذا في المجال العام، حتى لو كان فقط للمطورين لأنني أحب رؤيته في Runway أو Pika Labs. نظرًا لأن مايكروسوفت لديها مصلحة كبيرة في OpenAI ، يمكن أن يكون هذا حتى جزءًا من التكامل في المستقبل مع Copilot Sora.