طورت شركة OpenAI سلسلة جديدة من نماذج الذكاء الاصطناعي مصممة لتخصيص وقت أطول للتفكير قبل الرد، وهذه النماذج قادرة على التفكير في المهام المعقدة وحل المشكلات الأصعب من النماذج السابقة في مجالات العلوم، والبرمجة، والرياضيات.
وقد أطلقت الشركة بالفعل أول نموذج من هذه السلسلة في روبوت الدردشة ChatGPT وهو إصدار تجريبي ونتوقع تحديثات وتحسينات منتظمة، وبجانب هذا الإصدار، تقوم الشركة أيضاً بتضمين تقييمات للتحديث القادم الذي لا يزال قيد التطوير.
كيف يعمل النموذج الجديد؟
قامت OpenAI بتدريب هذه النماذج لتقضي وقتاً أطول في التفكير في المشكلات قبل أن ترد تماماً كما يفعل الإنسان، وذلك من خلال التدريب، وتتعلم هذه النماذج تحسين عملية التفكير الخاصة بها، وتجربة استراتيجيات مختلفة، والتعرف على أخطائها.
وخلال الاختبارات، أظهرت التحديثات القادمة للنموذج أداءً مماثلاً لطلاب الدكتوراه في المهام الصعبة في الفيزياء، والكيمياء، وعلم الأحياء، ووجدوا أيضاً أنه يتفوق في الرياضيات والبرمجة، وفي اختبار تأهيلي للأولمبياد الدولي في الرياضيات (IMO)، حل نموذج GPT-4o بشكل صحيح 13% فقط من المشكلات، بينما سجل نموذج التفكير 83%، وتم تقييم قدرات البرمجة في المسابقات وبلغت النسبة المئوية 89 في مسابقات .Codeforces
كنموذج مبكر، لا يحتوي بعد على العديد من الميزات التي تجعل ChatGPT مفيداً، مثل تصفح الويب للحصول على معلومات وتحميل الملفات والصور، وبالنسبة للعديد من الحالات الشائعة، سيكون GPT-4o أكثر قدرة في المدى القريب.
ولكن بالنسبة للمهام المعقدة المتعلقة بالتفكير، يُعتبر هذا تقدماً كبيراً ويمثل مستوى جديداً من قدرات الذكاء الاصطناعي، وبناءً على ذلك، قامت الشركة بإعادة تعيين العد التنازلي إلى 1 وأطلقت على هذه السلسلة اسم OpenAI o1.
ميزات السلامة الخاصة بالنموذج
كجزء من تطوير هذه النماذج الجديدة، توصلنا إلى نهج جديد لتدريبات السلامة وفيها يستفيد من قدرات التفكير في النماذج لجعلها تلتزم بإرشادات السلامة والمحاذاة، ومن خلال القدرة على التفكير بشأن قواعد السلامة لدينا في سياق معين، يمكنها تطبيقها بشكل أكثر فعالية.
وإحدى الطرق التي نقيس بها السلامة هي اختبار مدى استمرار النموذج في اتباع قواعد السلامة إذا حاول المستخدم تجاوزها (المعروفة باسم “اختراق السجن”). وفي إحدى أصعب اختبارات الاختراق، سجل نموذج GPT-4o درجة 22 (على مقياس من 0-100) بينما سجل نموذج o1-preview درجة 84.
لمواءمة القدرات الجديدة لهذه النماذج، قامت الشركة بتعزيز عمل السلامة، وإدارتها الداخلية، وتعاونها مع الحكومة الفيدرالية، ويشمل ذلك اختبارات دقيقة وتقييمات باستخدام إطار العمل Preparedness Framework، وأفضل فرق التقييم الأحمر، وعمليات المراجعة على مستوى المجلس، بما في ذلك من قبل لجنة السلامة والأمن لدى الشركة.
ولتعزيز التزامهم بسلامة الذكاء الاصطناعي، قامت الشركة مؤخراً بتوثيق اتفاقيات مع معاهد سلامة الذكاء الاصطناعي في الولايات المتحدة والمملكة المتحدة، ولقد بدأوا في تفعيل هذه الاتفاقيات، بما في ذلك منح المعاهد وصولاً مبكراً إلى نسخة بحثية من هذا النموذج. كانت هذه خطوة أولى مهمة في شراكتنا، حيث ساعدت في وضع عملية للبحث والتقييم واختبار النماذج المستقبلية قبل وبعد إصدارها للجمهور.
الفئة المناسبة لهذا النموذج
قد تكون هذه القدرات المحسنة في التفكير مفيدة بشكل خاص إذا كنت تتعامل مع مشاكل معقدة في العلوم، أو البرمجة، أو الرياضيات، أو مجالات مشابهة، وعلى سبيل المثال، يمكن استخدام o1 من قبل الباحثين في مجال الرعاية الصحية لتوضيح بيانات تسلسل الخلايا، من قبل الفيزيائيين لتوليد الصيغ الرياضية المعقدة اللازمة لبصريات الكم، ومن قبل المطورين في جميع المجالات لبناء وتنفيذ تدفقات العمل متعددة الخطوات.