في ساحة التنافس الشديد بين شركات التكنولوجيا، أعلنت غوغل عن تطويرها لتقنية VLOGGER، ردًا على إطلاق OpenAI لبرنامج SORA صانع الفيديوهات بالذكاء الاصطناعي. تقنية VLOGGER هي أداة ذكاء اصطناعي تحول الصور الثابتة إلى أفاتار متحرك يمكن التحكم به بالصوت، مما يفتح آفاقًا جديدة لمستقبل الفيديو، فماذا نعرف عنه؟
ما تقنية VLOGGER؟
وفق تقارير صحفية، فإن فريق البحث في شركة غوغل عمل على تطوير مجموعة من النماذج والأفكار المبتكرة. أحدث ابتكاراتهم هو تقنية تحول الصور الثابتة إلى أفاتار يمكن التحكم بها.
وتعتمد تقنية VLOGGER على نموذج ذكاء اصطناعي يستطيع تحويل صورة ثابتة إلى أفاتار متحرك، محافظًا على الشكل الواقعي للشخص في كل إطار من الفيديو.
VLOGGER is this cool new technology that can make photos come alive.
It's wild – The AI animates your face, complete with natural gestures & expressions. pic.twitter.com/C7wYp3BkWY
— Madni Aghadi (@hey_madni) April 1, 2024
يستخدم النموذج أيضًا ملفًا صوتيًا للشخص المتحدث وينسق حركات الجسم والشفاه لتتناسب مع الطريقة الطبيعية التي قد يتحرك بها الشخص أثناء الكلام.
هذا يشمل تحريك الرأس وتعبيرات الوجه وحركة العين والرمش، بالإضافة إلى إيماءات اليد وحركات الجزء العلوي من الجسم، دون الحاجة إلى معلومات إضافية عن الصورة أو الصوت.
اقرأ أيضًا.. سباق الذكاء الاصطناعي.. هل توجه غوغل القاضية إلى ChatGPT باتفاق أبل؟
هل تقنية VLOGGER متاحة حاليًا؟
تقنية VLOGGER ليس متاحًا بعد للاستخدام العام، ففي الوقت الحالي، تعد تقنية VLOGGER مشروعًا بحثيًا يضم مقاطع فيديو تجريبية مثيرة للاهتمام. إذا تم تطويره إلى منتج فعلي، قد يقدم طريقة جديدة للتفاعل عبر تيمز (Teams) أو سلاك (Slack).
هل هناك تقنيات مشابهة؟
هناك تقنيات مشابهة متاحة حاليًا مثل مزامنة الشفاه من بيكا لابز (Pika Labs)، وخدمات ترجمة الفيديو من هاي جين (Hey Gen)، وساينثيسيا (Synthesia)، لكن VLOGGER يبدو كخيار أكثر بساطة.
2. Video translation
Input video in one language, and audio in another, and it adjusts the speaker's mouth movements for the new language! pic.twitter.com/REkeWQw11l
— Madni Aghadi (@hey_madni) April 1, 2024
كيف تعمل تقنية Vlogger الجديدة في مجال الذكاء الاصطناعي؟
تعتمد تقنية VLOGGER على نموذج يحول النصوص إلى صور وفيديوهات وحتى نماذج ثلاثية الأبعاد، مشابهًا لتقنيات مثل ميدجورني (MidJourney)، ورون واي (Runway)، مع إضافة عناصر تحكم متقدمة.
اقرأ أيضًا.. غوغل توقف إنشاء الصور بـGemini AI وتسرّح مسؤول الخوارزميات.. ما القصة؟
تتضمن عملية تقنية VLOGGER عدة خطوات لإنتاج الصورة الرمزية. يبدأ بأخذ الصوت والصورة كمدخلات، يمررهما عبر مراحل لتوليد حركة ثلاثية الأبعاد، يستخدم بعدها نموذج الانتشار الزمني لتحديد التوقيت والحركة، وأخيرًا يتم تحسينها وتحويلها إلى الصيغة النهائية.
يقوم النموذج بإنشاء شبكة عصبية تتنبأ بحركات الوجه والجسم والوضعيات والنظرات والتعبيرات على مر الزمن، باستخدام الصورة الثابتة كإطار أساسي والصوت كمرشد.
3. Video Editing
This AI isn't just for basic edits. It can animate new facial expressions and movements, opening up a world of creative possibilities. pic.twitter.com/iL1Yntzege
— Madni Aghadi (@hey_madni) April 1, 2024
لتدريب النموذج، يتم استخدام مجموعة بيانات ضخمة تُعرف باسم مينتور (MENTOR)، تحتوي على 800000 مقطع فيديو لأشخاص مختلفين يتحدثون، مع توضيح دقيق لكل جزء من وجوههم وأجسامهم في كل لحظة.
ما هي التحديات التي تواجه تقنية VLOGGER؟
بينما تُظهر تقنية VLOGGER إمكانيات كبيرة، فإنها لا تزال في مرحلة البحث ولم تصبح منتجًا تجاريًا بعد. على الرغم من قدرتها على توليد حركات تبدو واقعية، قد تكون هناك أوقات لا تعكس فيها الحركات المولدة السلوك الحقيقي للشخص. نموذج الانتشار، الذي يشكل أساس تقنية VLOGGER، قد يُظهر أحيانًا تصرفات غير متوقعة.
The Results Are Both Cool & Creepy
Good stuff:
– Lip movements match the audio well
– Natural head tilts and posesUncanny Valley:
– Lip-syncing may be slightly off
– Facial expressions and gestures can seem robotic pic.twitter.com/lXCTKtVWAm— Madni Aghadi (@hey_madni) April 1, 2024
يواجه النموذج أيضًا صعوبات مع الحركات الواسعة والبيئات المعقدة. ويقتصر على التعامل مع مقاطع فيديو قصيرة الأمد.
ما هي استخدامات تقنية VLOGGER المحتملة؟
يشير الباحثون في غوغل إلى أن تقنية VLOGGER يمكن أن تستخدم بشكل أساسي في ترجمة الفيديوهات. على سبيل المثال، يمكن تعديل مقطع فيديو موجود بلغة معينة ليتوافق مع ترجمة صوتية جديدة من خلال تحرير الشفاه والوجه.
اقرأ أيضًا: سباق الذكاء الاصطناعي: غوغل تنافس أوبن إيه آي بـ«Imagen»
من بين الاستخدامات الأخرى الممكنة، إنشاء صور رمزية متحركة للمساعدين الافتراضيين، روبوتات الدردشة، أو الشخصيات الافتراضية التي تظهر بشكل واقعي داخل ألعاب الفيديو.
توجد تقنيات مماثلة مثل Synthesia، التي تتيح للمستخدمين إنشاء صور رمزية افتراضية لإجراء العروض التقديمية، ولكن يبدو أن تقنية VLOGGER يسهل العملية بشكل أكبر.
The future of vlogging is bright (possibly animated)!
Can VLOGGER generate videos of anyone?
– It needs a real person's photo to start, can't create fictional characters yet.
How can I access VLOGGER?
– VLOGGER is a research project not yet available for public use. pic.twitter.com/eE6AqOaq9L
— Madni Aghadi (@hey_madni) April 1, 2024
كما يمكن استخدام تقنية VLOGGER لتوفير اتصالات فيديو بنطاق ترددي منخفض، حيث يمكن لإصدار مستقبلي من النموذج أن يسمح بإجراء محادثات فيديو من خلال تحريك صورة رمزية بناءً على الصوت فقط.
هذا قد يكون مفيدًا بشكل خاص في بيئات الواقع الافتراضي مثل ميتا كوست (Meta Quest) أو أبل فيجن برو (Apple Vision Pro)، حيث يمكن أن تعمل بشكل مستقل عن الصور الرمزية الافتراضية للمنصة.