مع تسارع تطور الذكاء الاصطناعي التوليدي، بدأ سباق عالمي للحصول على بيانات عالية الجودة لتدريب النماذج، في الوقت الذي تعتبر فيه القواعد القانونية والأخلاقية في هذا المجال لا تزال غير واضحة، مما يخلق تحديات جديدة لشركات الذكاء الاصطناعي.
استخدام مقاطع الفيديو في تدريب الذكاء الاصطناعي
في تقرير نشره موقع «بيزنس إنسايدر»، أثار تساؤلات حول كيف تجمع شركة أوبن إيه آي (OpenAI)، صانع تشات جي بي تي (ChatGPT)، البيانات لتدريب نماذج الذكاء الاصطناعي الخاصة بها بما في ذلك نموذج سورا (Sora) الجديد.
تتطلب «أوبن إيه آي» كميات هائلة من النصوص والصور والفيديو لتدريب نماذج الذكاء الاصطناعي الخاصة بها. وهذا يعني أن الشركة الناشئة يجب أن تكون قد قامت بطريقة أو بأخرى بتنزيل كميات ضخمة من محتوى يوتيوب، أو الوصول إلى هذه البيانات بطريقة تتغلب على قيود غوغل.
وفق التقرير، يعتقد العديد من الخبراء في مجتمع الذكاء الاصطناعي أن أوبن إيه آي (OpenAI) تستفيد من مقاطع فيديو يوتيوب لتدريب نماذج الذكاء الاصطناعي بما في ذلك نموذج سورا (Sora) الجديد، مما يتطلب تنزيل كميات ضخمة من الفيديوهات هذا يتعارض مع سياسات غوغل التي تحد من التنزيلات الكبيرة والآلية عبر برامج الروبوت لمحتوى يوتيوب، وتحظر الوصول التلقائي والتزيلات لأغراض تجارية.
الحظر هنا ليس العائق الوحيد، بل إن تنزيل بيانات فيديو يوتيوب بكميات كبيرة، سيخنق عملاق الإنترنت. لقد ظهرت شكاوى حول هذا الأمر في منتدى البرمجة غيت هوب (GitHub) وريديت (Reddit) لسنوات. قال المستخدمون إن محاولات تنزيل مقطع فيديو واحد على يوتيوب ستكون بطيئة جدًا بحيث تستغرق ساعات حتى تكتمل.
اقرأ أيضًا.. سباق الذكاء الاصطناعي.. هل توجه غوغل القاضية إلى ChatGPT باتفاق أبل؟
«حراسة مشددة» على طريقة تنزيل بيانات التدريب في «أوبن إيه آي»
وهنا يكمن اللغز في كيفية وصول «أوبن إيه آي» إلى ما يكفي من محتوى يوتيوب لإنجاز هذا العمل، إذ أن محتوى يوتيوب متاح مجانًا عبر الإنترنت، لذا فإن تنزيل كميات صغيرة منه لأغراض البحث يبدو أمرًا غير ضار. وقد يكون استغلال ملايين مقاطع الفيديو لإنشاء نماذج ذكاء اصطناعي جديدة وقوية أمرًا مختلفًا تمامًا.
من جهته، نقل موقع «بيزنس إنسايدر»، عن مصادر مطلعة، أن «أوبن إيه آي» استخدمت مقاطع فيديو على يوتيوب لتدريب نموذج يسمى وايسبير (Whisper).
شخص مطلع أيضًا على عمليات «أوبن إيه آي» إن الشركة «تكلف فريقًا يخضع لحراسة مشددة للحصول على بيانات التدريب، وأنه من المزعج داخليًا أن نسأل كيف حصلوا على هذه البيانات بالضبط».
وحين سأل الموقع مسؤولي «أوبن إيه آي» عما إذا كانت الشركة قد قامت بتنزيل مقاطع فيديو يوتيوب على نطاق واسع وما إذا كانت الشركة الناشئة تستخدم هذا المحتوى كبيانات للتدريب على نماذج الذكاء الاصطناعي، قال متحدث باسم الشركة: «تضمن تدريب Sora مواد من مصادر مرخصة بالإضافة إلى محتوى متاح للجمهور من الإنترنت». ورفض المتحدث الإجابة على الأسئلة المحددة الأخرى.
اقرأ أيضًا.. غوغل توقف إنشاء الصور بـGemini AI وتسرّح مسؤول الخوارزميات.. ما القصة؟
غياب التنظيم القانوني
من المحتمل ألا يكون الوصول إلى مقاطع فيديو يوتيوب بطرق قد تنتهك شروط خدمة غوغل أمرًا غير قانوني. لقد أثبتت سنوات عديدة من السوابق القضائية ومبدأ «الاستخدام العادل» الحق في استخدام المحتوى عبر الإنترنت بحرية بعدة طرق مختلفة.
تجادل «غوغل» و«أوبن إيه آي» وشركات التكنولوجيا الأخرى حاليًا بأن استخدام المحتوى المحمي بحقوق الطبع والنشر للتدريب على نماذج الذكاء الاصطناعي يعد أمرًا قانونيًا أيضًا. وهذا لم يتم تحديده بعد من قبل المنظمين أو في المحكمة.
هذا يترك شركات الذكاء الاصطناعي تسعى جاهدة لجمع بيانات تدريب عالية الجودة بأي طريقة ممكنة.
تجريف البيانات في عالم التجارة الإلكترونية
يُقارن وضع «أوبن إيه آي» مع يوتيوب بممارسات التجارة الإلكترونية حيث تُجمع البيانات من القوائم المنافسة عبر الإنترنت. هذه المقارنة تُظهر التحديات التي تعتري جزء آخرًا من عالم التكنولوجيا حيث قواعد اللعبة إما لم يتم تسويتها أو تجاهلها.
في التجارة الإلكترونية، أصبح من الشائع الآن أن تقوم الشركات بجمع بيانات أسعار المنتجات من القوائم المنافسة عبر الإنترنت. في حين أن هذا محظور تقنيًا في العديد من شروط الخدمة، فقد وصل جميع اللاعبين إلى نوع من الانفراج حيث سمحوا باستخلاص بياناتهم طالما أنهم يستطيعون استخراجها أيضًا.
مع اصطدام عالم الوسائط عبر الإنترنت بتطوير نموذج الذكاء الاصطناعي، تظل أسئلة تجريف البيانات دون إجابة.
اقرأ أيضًا.. ماذا يخبئ لنا الذكاء الاصطناعي في 2024؟.. هذه توقعات الخبراء
الشفافية والمنافسة
مع ازدياد المنافسة، تقل الشفافية حول مصادر بيانات التدريب. سبق أن كشفت شركة «أوبن إيه آي» ومطورو نماذج الذكاء الاصطناعي الآخرون عن مصادر بيانات التدريب في الأوراق البحثية المنشورة، لكن هذه الممارسة انتهت في الغالب مع اشتداد المنافسة.
سألت صحيفة وول ستريت جورنال مؤخرًا مديرة التكنولوجيا في «أوبن إيه آي»، ميرا موراتي، عما إذا كانت الشركة الناشئة قد استخدمت مقاطع فيديو على يوتيوب لتدريب نموذج الذكاء الاصطناعي «سورا» فقالت: «لست متأكدة في الواقع من ذلك». وعندما سئل مرة أخرى عن مصادر بيانات التدريب، أجاب موراتي: «لن أخوض في التفاصيل».