توصلت تحقيقات جديدة إلى أن بعض أكبر شركات التكنولوجيا في العالم قامت بتدريب نماذجها الذكية على مجموعة بيانات تتضمن نصوصاً من أكثر من 173,000 فيديو على يوتيوب دون الحصول على إذن. تم إنشاء هذه المجموعة البيانية من قبل شركة غير ربحية تدعى EleutherAI، وتحتوي على نصوص لفيديوهات من يوتيوب من أكثر من 48,000 قناة، وتم استخدامها من قبل شركات مثل أبل وإنفيديا وAnthropic بين أخريات.
وتسلط نتائج التحقيق الضوء على حقيقة غير مريحة للذكاء الاصطناعي وهي أن التكنولوجيا تم بناؤها بشكل كبير على أساس بيانات تم سحبها من المبدعين دون موافقتهم أو تعويضهم.
ولا تحتوي المجموعة البيانية على أي فيديوهات أو صور من يوتيوب، لكنها تحتوي على نصوص الفيديو من أكبر صناع المحتوى على المنصة من بينهم Marques Brownlee وMrBeast، بالإضافة إلى ناشرين كبار مثل The New York Times، وBBC، وABC News. وتتضمن البيانات أيضًا ترجمات لفيديوهات تابعة لموقع Engadget .
وأكد المتحدث باسم جوجل لـ Engadget أن تصريحات Neal Mohan، الرئيس التنفيذي ليوتيوب، السابقة حول أن الشركات التي تستخدم بيانات يوتيوب لتدريب نماذج الذكاء الاصطناعي ستنتهك شروط الخدمة لا تزال سارية.
اقرأ أيضًا >> يوتيوب تُتيح لك إزالة محتوى الذكاء الاصطناعي الذي يستخدم صورتك أو صوتك
حتى الآن، لم تكن شركات الذكاء الاصطناعي شفافة بشأن البيانات المستخدمة في تدريب نماذجها. في وقت سابق من هذا الشهر، انتقد فنانون ومصورون أبل لعدم الكشف عن مصدر بيانات التدريب لأبل إنتليجنس Intelligence، الإصدار الخاص بالذكاء الاصطناعي التوليدي الذي سيصل إلى ملايين أجهزة أبل هذا العام.
ويعتبر يوتيوب، أكبر مستودع في العالم للفيديوهات، مكمنًا ذهبيًا ليس فقط من النصوص بل أيضًا من الصوت والفيديو والصور، مما يجعله مجموعة بيانات جذابة لتدريب نماذج الذكاء الاصطناعي.
وفي وقت سابق من هذا العام، تجنبت Mira Murati، مدير التكنولوجيا الرئيسي في OpenAI، الإجابة على أسئلة من The Wall Street Journal حول ما إذا كانت الشركة استخدمت فيديوهات يوتيوب لتدريب Sora، أداة OpenAI القادمة لإنشاء الفيديوهات بالذكاء الاصطناعي، وقالت Murati في ذلك الوقت:
“لن أدخل في تفاصيل البيانات التي تم استخدامها، لكنها كانت متاحة علنًا أو بيانات مرخصة”.
وقد أشار الرئيس التنفيذي لشركة Alphabet، Sundar Pichai أيضًا إلى أن الشركات التي تستخدم بيانات من يوتيوب لتدريب نماذجها للذكاء الاصطناعي ستنتهك شروط خدمة المنصة.