كشفت غوغل ديب مايند عن نموذج ذكاء اصطناعي جديد يُسمى V2A (فيديو إلى صوت) قادر على توليد صوت متزامن، بما في ذلك الموسيقى والمؤثرات الصوتية والحوار، يناسب الفيديو.
تهدف هذه التقنية إلى تعزيز واقعية مقاطع الفيديو التي تم إنشاؤها بواسطة الذكاء الاصطناعي من خلال إنشاء صوت مناسب للسياق مباشرةً، دون الحاجة إلى تدخل يدوي أو حتى كتابة أوصاف نصية.
اقرأ أيضًا.. الذكاء الاصطناعي يتيح لك صناعة ألعاب الفيديو بنفسك.. كيف؟
مميزات نموذج غوغل ديب مايند الجديد
يقوم V2A بتوليد صوت عالي الجودة، بما في ذلك الموسيقى والمؤثرات الصوتية والتعليقات الصوتية، بشكل متزامن مع المحتوى المرئي للفيديو. يتعلم النموذج ربط أحداث صوتية محددة بمشاهد مرئية مختلفة من خلال التدريب على مجموعات بيانات تحتوي على فيديو وصوت وتعليقات توضيحية تم إنشاؤها بواسطة الذكاء الاصطناعي ونصوص الحوار المنطوق.
يُمكن لـ V2A إنشاء عدد غير محدود من المقاطع الصوتية لأي فيديو، مع المرونة في توجيه الإخراج باستخدام تعليقات نصية إيجابية أو سلبية تحدد الأصوات المرغوبة أو غير المرغوب فيها.
يتميز V2A عن الحلول الحالية بقدرته على فهم سياق الفيديو دون الحاجة إلى تدخل بشري عن طريق اختيار الأصوات التي تناسب لعناصر المرئية.
اقرأ أيضًا.. رسميًا.. «OpenAI» تطلق برنامج الذكاء الاصطناعي «Sora» لتحويل النص إلى فيديو
علامة مائية على المحتوى
ويُضاف إلى ذلك مجموعة أدوات SynthID الخاصة بـ DeepMind لوضع علامة مائية على المحتوى الذي تم إنشاؤه بواسطة الذكاء الاصطناعي، مما يساعد على الحماية من سوء الاستخدام المحتمل.
يستخدم نموذج V2A من غوغل ديب مايند نهجًا قائمًا على تقنية الانتشار لتوليد صوت واقعي. يقوم النظام أيضًا بعملية تحسين الصوت وتنقيته بهدف تحسين تجربة المستخدم وفهم المحتوى المرئي.
تعتمد هذه العملية على المطالبات النصية الاختيارية، مما يؤدي إلى إنشاء صوت متزامن يتماشى بشكل وثيق مع المشاهد التي تظهر على الشاشة.
اقرأ أيضًا: كيف تستفيد من ChatGPT في 10 مجالات مختلفة؟
التدريب على نصوص الحوار
لتحسين جودة الصوت وتمكين توليد صوت محدد، دربت DeepMind النموذج على بيانات إضافية مثل التعليقات التوضيحية الصوتية ونصوص الحوار التي تم إنشاؤها بواسطة الذكاء الاصطناعي.
يُمكن لـ V2A الآن ربط الصوت بالمشاهد المرئية أثناء الاستجابة للتعليقات التوضيحية أو النصوص المقدمة.
يمكن دمج V2A بنماذج توليد الفيديو مثل DeepMind’s Veo لإنشاء تجارب سمعية وبصرية كاملة، مما يجعلها مناسبة لمختلف التطبيقات، بما في ذلك الترفيه والواقع الافتراضي وتعزيز اللقطات التقليدية مثل الأفلام الصامتة.
كما يوفر هذا التكامل حلاً متماسكًا لإنشاء محتوى سمعي بصري متزامن دون الحاجة إلى المحاذاة اليدوية أو التحرير في مرحلة ما بعد الإنتاج.
يتيح V2A إجراء تجارب سريعة مع مخرجات صوتية مختلفة لمقطع فيديو معين عن طريق إنشاء عدد غير محدود من المقاطع الصوتية إمكانية إحداث ثورة في سير عمل إنتاج الفيديو وفتح إبداعات جديدة.
اقرأ أيضا.. ChatGPT سيكون مفيدًا لـ3 وظائف.. فما هي؟
عيوب نموذج غوغل ديب مايند
على الرغم من كون نموذج V2A يمثل تقدمًا كبيرًا، إلا أنه لا تزال هناك قيود يجب معالجتها. تعتمد جودة الصوت على جودة إدخال الفيديو، حيث تؤدي العيوب أو التشوهات إلى انخفاض ملحوظ في دقة الصوت.
تحتاج مزامنة الشفاه لمقاطع الفيديو الكلامية أيضًا إلى التحسين، نظرًا لأن نموذج إنشاء الفيديو المقترن قد لا يطابق حركات الفم بدقة مع النص.
تركز DeepMind على معالجة هذه التحديات وجمع التعليقات من المبدعين وصانعي الأفلام لضمان إحداث تأثير إيجابي على المجتمع الإبداعي.
يتم التخطيط لإجراء تقييمات واختبارات صارمة للسلامة قبل النظر في الإصدار العام، حيث تظهر النتائج الأولية وعدًا بجلب الأفلام التي تم إنشاؤها بواسطة الذكاء الاصطناعي إلى الحياة.
تظل الشركة ملتزمة بتطوير الذكاء الاصطناعي المسؤول، ودمج العلامة المائية SynthID لتحديد المحتوى الذي تم إنشاؤه بواسطة الذكاء الاصطناعي والحماية من سوء الاستخدام.