تواجه جوجل انتقادات بين خبراء الذكاء الاصطناعي بسبب فيديو ترويجي مضلل لنموذج الذكاء الاصطناعي جيميناي والذي نشرته الشركة يوم الأربعاء، حيث يبدو أنه يُظهر قدرة نموذج الذكاء الاصطناعي الجديد على التعرف على الإشارات البصرية والتفاعل صوتيًا مع شخص في الوقت الحقيقي. لكن جوجل أقرت بأن هذا لم يكن الحال. بدلاً من ذلك، قام الباحثون بتغذية النموذج بصور ثابتة وقاموا بتجميع الاستجابات الناجحة معًا، مما يُمثل تضليلًا جزئيًا لقدرات النموذج.
في الفيديو المتنازع عليه بعنوان “Hands-on with Gemini: Interacting with multimodal AI”، نرى منظرًا لما يبدو أن النموذج الذكاء الاصطناعي يراه، مصحوبًا بردود فعل النموذج على الجانب الأيمن من الشاشة. يرسم الباحث خطوطًا متعرجة وبطًا ويسأل جيميني ما يمكن أن يراه، وخلال هذا العرض يسمع المشاهد صوتًا، يبدو أنه يعود لجيميني ألترا، يرد على الأسئلة.
“قمنا بإنشاء العرض التوضيحي عن طريق التقاط لقطات لاختبار قدرات جيميناي في مجموعة واسعة من التحديات”، هكذا قال متحدث باسم جوجل. ” ثم قمنا بتوجيه جيميناي باستخدام إطارات صور ثابتة من اللقطات والتوجيه عبر النص”، أضاف المتحدث باسم جوجل. فمثلًا: قامت جوجل بتصوير زوج من الأيدي البشرية تقوم بأنشطة، ثم عرضت صور ثابتة على جيميناي ألترا، واحدة تلو الأخرى. تفاعل الباحثون مع النموذج من خلال النص، وليس الصوت، ثم اختاروا أفضل التفاعلات وجمعوها معًا مع تركيب الصوت لإنشاء الفيديو.
لذلك فالفيديو جعل الأمر يبدو أنه بإلإمكان عرض أشياء مختلفة لجيميناي ألترا في الوقت الحقيقي وتتحدث إليه. لا يمكنك ذلك. أما الصوت المستخدم فتم إضافته لجميع المقتطفات الحقيقية من الأوامر الفعلية المستخدمة لإنتاج الإخراج الذي يليه لجيميناي.
حاليًا، يتطلب تشغيل الصور الثابتة والنص من خلال نماذج اللغة الكبيرة موارد حوسبية كبيرة، مما يجعل تفسير الفيديو في الوقت الحقيقي غير عملي إلى حد كبير. وكان هذا أحد الأدلة التي جعلت خبراء الذكاء الاصطناعي يعتقدون أن الفيديو مضلل.
لكن لا بد من التنويه أن قدرات جيميناي على التعرف على الصور ليست شيئًا يستهان به. تبدو تقريبًا على قدم المساواة مع قدرات نموذج الذكاء الاصطناعي GPT-4V متعدد الوسائط من OpenAI (GPT-4 مع الرؤية)، الذي يمكنه أيضًا التعرف على محتوى الصور الثابتة. ولكن عندما تم تجميعها بسلاسة لأغراض ترويجية، جعلت نموذج جيميني يبدو أكثر قدرة مما هو عليه، وهذا جعل الكثير من الناس متحمسين.