غياب Sora 2 عن GPT-5: هل يُمثل قفزة نوعية في تكنولوجيا الفيديو بالذكاء الاصطناعي؟

هيا يا OpenAI، نحن بحاجة إلى صوت!

0

تستعد شركة OpenAI لإطلاق نسخة جديدة من نموذج الفيديو الرائد المدعوم بالذكاء الاصطناعي الخاص بها، Sora، في وقت ما خلال هذا الربع. على الرغم من كونه ثوريًا عند إطلاقه، فقد Sora منذ ذلك الحين مكانته لصالح المنافسين، حيث يضع Veo 3 من Google الآن المعيار الذهبي لتوليد الفيديو بالذكاء الاصطناعي.

صورة Sora من Shutterstock

أتوقع وصول Sora 2 في الأسابيع أو الأشهر القادمة، نظرًا للإصدار السريع لـ GPT-5. مثل GPT-4o، فإن GPT-5 متعدد الوسائط بشكل أصلي، حيث يتعامل مع أي نوع من أنواع الإدخال أو الإخراج (بما في ذلك الفيديو) مع أداء مهام استنتاج معقدة مماثلة لنماذج سلسلة “o”.

لا يزال Sora منصة قوية. تكسر ميزة Storyboard الخاصة به آفاقًا جديدة، ويمكن لمشتركي ChatGPT Pro إنشاء مقاطع تصل مدتها إلى 20 ثانية. ولكن النموذج الأساسي يظهر تقدمه في العمر. لا يزال الإخراج يعاني من مشكلات التحكم في الحركة، ويفتقر إلى توليد الصوت، ويكافح مع عرض الفيزياء المعقدة – على عكس Veo 3 أو Kling 2.1 أو MiniMax 2.

حتى في مجال الفيديو الاجتماعي، تواجه OpenAI الآن منافسة من كل منصة ذكاء اصطناعي تقريبًا، بما في ذلك Meta و Grok و Midjourney. ومع ذلك، تظل OpenAI أكبر مختبر للذكاء الاصطناعي في العالم بموارد كبيرة – وعلى الرغم من عمليات استقطاب المواهب الأخيرة التي قامت بها Meta – لديها فريق هندسي قوي. لا تستبعدهم حتى الآن.

ما الذي تحتاجه OpenAI لجعل Sora منافسًا؟

للتنافس مع نموذج الفيديو الخاص بـ Google أو المنافسين الصينيين الناشئين في مجال الذكاء الاصطناعي التوليدي للفيديو، يجب على OpenAI الاستفادة القصوى من قدراتها المتعددة الوسائط مع توسيع مجموعة ميزات Sora. دمج أكثر إحكامًا مع ChatGPT سيكون مفيدًا أيضًا. فيما يلي خمسة تحسينات أساسية لـ Sora 2:

1. توليد الصوت الأصلي: شرط أساسي لا يمكن التنازل عنه

Google Veo 3 lasagne video - YouTube

إذا كانت OpenAI تطمح إلى منافسة Veo 3 من Google في مجال توليد الفيديو بالذكاء الاصطناعي، فإن Sora 2 يجب أن يتعامل مع كل من الفيديو والصوت بشكل أصلي ومتكامل. أي نموذج لا يدعم توليد الصوت يبدأ من نقطة ضعف واضحة.

في الوقت الحالي، ينتج Sora مقاطع فيديو صامتة فقط، وهو عيب كبير خاصة وأن Veo 3 يتميز بقدرته على توليد المؤثرات الصوتية، والضوضاء المحيطة، وحتى الحوار كجزء أساسي من وظائفه. الأمر لا يتعلق فقط بإضافة الصوت كملحق لاحق، بل يتعلق بدمج حقيقي ومتكامل بين الفيديو والصوت.

يستطيع Veo 3 إنتاج كلام متزامن مع حركة الشفاه للشخصيات في الفيديو بلغات متعددة. Sora 2 يحتاج إلى نفس القدرة المدمجة لتوليد الصوت، بدءًا من المناظر الصوتية المحيطة وصولًا إلى الحوار المنطوق. هذه القدرة ضرورية لإنشاء محتوى فيديو واقعي وجذاب.

إذا تمكنت OpenAI من تقديم توليد متعدد الوسائط بشكل كامل (فيديو + صوت) مع الحفاظ على مقاطع فيديو مدتها 20 ثانية أو أطول، فإنها لن تلحق بـ Veo 3 فحسب، بل يمكنها أن تتفوق عليه تمامًا في سوق توليد الفيديو بالذكاء الاصطناعي. هذا التفوق سيجعلها رائدة في هذا المجال التكنولوجي المتقدم.

2. تحسين محاكاة الفيزياء بشكل جذري

يتجاوز الواقع البصري مجرد الدقة، إذ يعتمد بشكل أساسي على الفيزياء. غالبًا ما تُظهر مخرجات Sora الحالية حركة غير طبيعية أو فيزياء مشوهة: ماء يتحدى الجاذبية، أو أجسام تتحول بشكل غير متوقع، أو حركة تبدو خاطئة بشكل أساسي. هذا النقص في الواقعية الفيزيائية يقلل من جودة الفيديو ويجعله يبدو مصطنعًا.

من الواضح أن Google أعطت الأولوية للفيزياء الواقعية في العالم الحقيقي مع Veo 3، والنتائج تتحدث عن نفسها. تتفوق مقاطع الفيديو الخاصة بهم في محاكاة الفيزياء الواقعية والحركة الديناميكية بأقل قدر من الأخطاء. في الوقت نفسه، ينتج نموذج Sora الأقدم حركة متقطعة وتفاعلات غير متناسقة بين الكائنات تحطم الانغماس. على سبيل المثال، قد ترى في Sora أشياء تتحرك بسرعة كبيرة أو تتصرف بطرق مستحيلة فيزيائيًا.

لكي يتمكن Sora 2 من المنافسة، يجب أن يفهم نموذجه سلوك العالم الحقيقي بشكل أفضل – من مشية الإنسان الطبيعية إلى الكرات النطاطة، ومن ديناميكيات الدخان إلى ميكانيكا الموائع. تحتاج OpenAI بشكل أساسي إلى دمج محرك فيزيائي في Sora. إن الحركة والتفاعلات التي تبعث على التصديق (لا مزيد من الأطراف المشوهة أو الخلفيات الذائبة) ستسد فجوة حرجة مع المنافسين. هذا يتطلب تحسينات كبيرة في كيفية فهم النموذج للفيزياء الأساسية وتطبيقها.

3. يجب أن يكون التوجيه الحواري هو المعيار

Veo 3 video

ما هو السر الذي تملكه OpenAI؟ لقد قام ChatGPT بالفعل بتدريب الملايين على التواصل بشكل حواري مع الذكاء الاصطناعي. يجب أن يستفيد Sora 2 من ذلك بجعل عملية إنشاء الفيديو تبدو وكأنها حوار، وليست مجرد برمجة.

بدلاً من المطالبة بتوجيهات مثالية أو التنقل المعقد في الواجهة، يجب أن يدعم النظام التحسين الطبيعي ذهابًا وإيابًا. تتجه Google بالفعل في هذا الاتجاه – تستخدم أداة Flow الخاصة بها Gemini AI لتمكين التوجيه البديهي بلغة الحياة اليومية.

يقوم Runway بذلك ببراعة من خلال وضع الدردشة الخاص به، والآن أداة Aleph الجديدة التي تسمح لـ Gen-4 بتحسين أي عنصر واحد بخبرة. تم بناء Dream Machine من Luma بهذا المفهوم من الألف إلى الياء.

تخيل سير العمل هذا: اكتب “فارس من القرون الوسطى على جبل”، وتلقى مسودة فيديو، ثم ببساطة قل “اجعلها شروق الشمس وأضف تنينًا” – ويقوم Sora بتحديث المشهد على الفور. سيقلل هذا النهج الحواري من الحواجز أمام الوافدين الجدد مع تسريع سير العمل للمحترفين.

التكنولوجيا موجودة. يفسر ChatGPT بالفعل طلبات المتابعة ويعدل المخرجات ديناميكيًا (كما هو موضح مع تكامل الصور الأصلي في GPT-4os). يجب أن يسمح لنا Sora 2، المدمج بالكامل مع ChatGPT، بالتحدث في طريقنا إلى مقاطع فيديو رائعة. ستتفوق تجربة المستخدم هذه على التوجيه الفني الذي لا يزال معظم المنافسين يطلبونه.

سيسمح أيضًا بإنشاء صور أصلية أولاً، ثم الرسوم المتحركة باستخدام Sora، على غرار الطريقة التي تعمل بها Google مع Veo 3 في Gemini أو ميزة Grok Imagine الجديدة. هذا التكامل سيعزز بشكل كبير من إمكانيات إنشاء المحتوى المرئي.

4. أهمية ثبات الشخصيات والتخصيص في الجيل القادم من Sora

يمثل ثبات الشخصيات والمشاهد تحسينًا جوهريًا آخر يجب التركيز عليه في تطوير نماذج الذكاء الاصطناعي لتوليد الفيديو. ففي الوقت الحالي، قد يؤدي توليد مقطعين لعبارة “فتاة ترتدي فستانًا أحمر” إلى إنتاج شخصيتين مختلفتين تمامًا. غالبًا ما تنحرف مخرجات Sora من حيث الأسلوب والتفاصيل بين عمليات الإنشاء المختلفة، مما يجعل إنتاج قصص متماسكة متعددة المشاهد أو شخصيات متكررة أمرًا شبه مستحيل.

يجب أن يتيح الإصدار Sora 2 إنشاء شخصيات وأشياء وأنماط فنية متسقة عبر مقاطع فيديو أو سلاسل مقاطع أطول. المنافسون يقدمون هذه الميزة بالفعل، حيث يتباهى Kling 2.1 بـ “شخصيات متسقة وإضاءة سينمائية مباشرة من مطالبات نصية”. تذهب Flow من Google إلى أبعد من ذلك، مما يسمح باستخدام أصول مخصصة (صور شخصية، أنماط فنية محددة) كـ “مكونات” عبر مشاهد متعددة.

يجب على OpenAI توفير قدرات مماثلة: تحميل صور مرجعية، وضبط دقيق للأسلوب، أو استمرارية الشخصية عبر المشاهد. إذا كان Sora 2 قادرًا على الحفاظ على مظهر شخصية ثابت طوال الفيديو، فيمكن للمبدعين سرد القصص بالفعل بدلًا من إنتاج مقاطع منفصلة. خاصة إذا كان لديه تكامل صوتي أصلي على مقاطع مدتها تزيد عن 20 ثانية.

يعمل الثبات والتخصيص معًا – سواء كنت فنانًا يحافظ على أسلوب مميز أو صانع أفلام يحتاج إلى استمرارية الشخصية، يجب أن يوفر Sora 2 هذه القدرة على التحكم. هذا يضمن تحقيق رؤية المستخدم بدقة أكبر ويفتح الباب أمام إمكانيات إبداعية أوسع في مجال الذكاء الاصطناعي التوليدي.

5. تكامل عميق مع ChatGPT وإتاحة عالمية

يجب على OpenAI تعزيز مكانتها في السوق من خلال دمج Sora 2 بشكل كامل في ChatGPT مع ضمان سهولة الوصول إليه على نطاق واسع. في حين أن Veo من Google يتصل بمجموعة أدوات أوسع (بما في ذلك تكامل Gemini، والوصول إلى واجهة برمجة التطبيقات API، وتطبيق Flow)، فمن المحتم أن تقوم Meta بدمج الفيديو المدعوم بالذكاء الاصطناعي في جميع منتجاتها.

يمكن لـ OpenAI أن تتميز عن طريق جعل Sora 2 ميزة سلسة داخل ChatGPT. هذا التكامل الفوري سيمنح ملايين مستخدمي ChatGPT استوديو فيديو بتقنية الذكاء الاصطناعي دون الحاجة إلى تبديل التطبيقات. يمكنهم اتباع نهج Google بوضع حد أقصى منخفض على عدد مقاطع الفيديو التي يمكن إنشاؤها يوميًا، مع توفير خطة اشتراك متميزة للوصول غير المحدود، كما هو الحال مع ChatGPT Pro و Sora حاليًا.

يُعد تحسين تجربة الهاتف المحمول أمرًا بالغ الأهمية. يقوم المبدعون اليوم بالتصوير والتحرير والنشر بالكامل من هواتفهم. إذا كان Sora 2 يعمل داخل تطبيق ChatGPT للهاتف المحمول (أو تطبيق Sora مخصص) مع إمكانات إنشاء سريعة، فيمكنه الاستحواذ على سوق منشئي المحتوى على TikTok و Reels. تخيل أن تقول لهاتفك: “يا ChatGPT، قم بإنشاء مقطع فيديو مدته 15 ثانية لي وأنا كرائد فضاء كرتوني يهبط على سطح المريخ”، وتتلقى محتوى جاهزًا للمشاركة على الفور.

من خلال جعل Sora 2 في كل مكان – من خلال ChatGPT وواجهات برمجة التطبيقات للمطورين ومنصات الهاتف المحمول – يمكن لـ OpenAI بناء قاعدة مستخدميها بسرعة مع جمع ملاحظات التحسين الأساسية.

تستخدم منصات مثل Leonardo و Freepik و Higgsfield بالفعل Veo 3 من Google و MiniMax 2 من Hailuo على نطاق واسع لأنها مثيرة للإعجاب وسريعة ومتاحة عبر واجهة برمجة التطبيقات API. تتخلف OpenAI عن الركب في مجال الذكاء الاصطناعي الإبداعي بسبب عدم تحديث Sora.

الخلاصة

لدى OpenAI فرصة حقيقية لاستعادة ريادتها في مجال الذكاء الاصطناعي التوليدي من خلال التعلم من نجاحات المنافسين. حاليًا، يعتبر نموذج Veo 3 من Google هو المعيار الذهبي بفضل قدراته المتميزة في توليد الصوت الأصلي، ومحاكاة الفيزياء الواقعية، والاستجابة الدقيقة للأوامر النصية. وفي الوقت نفسه، تواصل نماذج ناشئة مثل Kling 2.1 و MiniMax 2 توسيع آفاق الإمكانيات في هذا المجال.

تتسارع Runway بخطى ثابتة نحو الأمام مع تحسينات جديدة على نموذجها Gen-4، الذي يقدم جودة مماثلة لـ Sora فيما يتعلق بمحاكاة الفيزياء، ولكنه يتميز بميزات إضافية. بينما تركز شركات أخرى مثل Pika على خدمة احتياجات المبدعين، مما يزيد الضغط على OpenAI ويقلل من حصتها في هذا السوق القيّم.

لا يمكن أن يكون Sora 2 مجرد تحسين تدريجي بسيط؛ بل يجب أن يبهر الجميع بقدراته الخارقة.

الخبر السار هو أن OpenAI تمتلك بالفعل العناصر الأساسية اللازمة لتحقيق النجاح: نموذج لغوي قوي، ونموذج فيديو من الجيل الأول يمكن البناء عليه، وقاعدة مستخدمين ضخمة بفضل ChatGPT. إذا تمكنت OpenAI من توفير توليد صوت أصلي، ومحاكاة فيزيائية واقعية، وسهولة استخدام المحادثة، وتناسق الشخصيات في المشاهد، وتكامل سلس مع المنتجات الأخرى، فمن المؤكد أن Sora 2 سيتفوق على Veo 3 و Kling وجميع المنافسين في هذا المجال.

عندما تتوفر كل هذه الميزات مجتمعة، فلا تستغرب إذا كان الفيديو التالي الذي ينتشر بسرعة البرق على وسائل التواصل الاجتماعي قد تم إنشاؤه باستخدام Sora 2.

اترك رد

لن يتم نشر عنوان بريدك الإلكتروني.