OpenAI تُطلق Sora: مُولد فيديو بالذكاء الاصطناعي سيُغيّر قواعد اللعبة

في عالم يزداد اعتمادًا على الفيديو، تُصبح أدوات إنشاء مقاطع الفيديو وتعديلها أكثر أهمية. ومع ذلك، لا تزال عملية تعديل الفيديو مُعقدة وتستغرق وقتًا طويلاً، خاصةً بالنسبة للمبتدئين.

وبما أنَّ سرعة تطوير الذكاء الاصطناعي تتجه نحو نقطة تتجاوز الفهم البشري، يأتي Sora من OpenAI لتحويل المُطالبات النصية إلى فيديو والذي يُعتبر مجرد أحدث تقنيات الذكاء الاصطناعي التي تصدم العالم وتجعله يدرك أنَّ الأشياء تحدث في وقت أقرب مما توقعه أي شخص.

يُعد OpenAI Sora تقنية مبتكرة تهدف إلى تحويل وتعديل مقاطع الفيديو بطريقة فعالة ومُبتكرة. يثير هذا النموذج الأسئلة حول مدى تأثيره على مجال صناعة الفيديو، وهل سيُساهم في تغيير طريقة إنتاج وتعديل الفيديو إلى الأبد؟ في هذا المقال، سنستكشف مفهوم OpenAI Sora وإمكانياته المُحتملة، ونلقي نظرة على كيفية تأثيره على صناعة الفيديو وما يُمكن أن يعنيه هذا الابتكار للمُستخدمين والمُبدعين على حد سواء. تحقق من أفضل مولدات الفيديو المُستندة إلى الذكاء الاصطناعي (تحويل النص إلى فيديو).

ما هو OpenAI Sora؟

مثل نماذج الذكاء الاصطناعي التوليدي الأخرى مثل DALL-E و MidJourney، يأخذ Sora المُطالبات النصية منك ويُحولها إلى وسيط مرئي. ومع ذلك، على عكس مولدات الصور المدعومة بالذكاء الاصطناعي المذكورة أعلاه، يقوم Sora بإنشاء مقطع فيديو كامل بالحركة وزوايا الكاميرا المُختلفة والاتجاه وكل شيء آخر تتوقعه من مقطع فيديو تم إنتاجه تقليديًا.

بالنظر إلى الأمثلة الموجودة على موقع Sora، يتعذر تمييز النتائج في أغلب الأحيان عن مقاطع الفيديو الحقيقية المُنتجة بشكل احترافي. كل شيء بدءًا من لقطات الطائرات بدون طيار المُتطورة وحتى إنتاج الأفلام الكاملة بملايين الدولارات مع الجهات الفاعلة، التي تم إنشاؤها بواسطة الذكاء الاصطناعي والمُؤثرات الخاصة والأعمال.

وبطبيعة الحال، فإنَّ Sora ليس التكنولوجيا الأولى الذي يفعل ذلك. حتى الآن، كانت الشركة الرائدة الأكثر وضوحًا في هذا المجال هي RunwayML، التي تُقدم خدماتها للجمهور مقابل رسوم. ومع ذلك، حتى في ظل أفضل الظروف، تُعد مقاطع الفيديو الخاصة بـ Runway أقرب إلى الأجيال الأولى من صور MidJourney الثابتة. ليس هناك ثبات في الصورة، والفيزياء غير منطقية، وأنا أكتب هذا المقال، أطول مقطع في حدود 16 ثانية.

في المقابل، فإنَّ أفضل قيمة يجب أن يُظهرها Sora هي الاستقرار التام، مع الفيزياء التي تبدو صحيحة (بالنسبة لأدمغتنا على الأقل)، ويُمكن أن يصل طول المقاطع إلى دقيقة واحدة. المقاطع خالية تمامًا من الصوت، ولكن هناك بالفعل أنظمة ذكاء اصطناعي أخرى يمكنها توليد الموسيقى والمؤثرات الصوتية والكلام. لذلك ليس لدي أدنى شك في أنه يمكن دمج هذه الأدوات في سير عمل Sora، أو في أسوأ الأحوال، التعليق الصوتي التقليدي وعمل فولي. تحقق من أكثر أدوات الذكاء الاصطناعي إثارة للاهتمام وإمتاعًا التي يجب التحقق منها.

لا يُمكن المبالغة في تقدير مدى القفزة الهائلة التي يُمثلها Sora من لقطات فيديو الذكاء الاصطناعي الكابوسية قبل عام واحد فقط من عرض Sora التجريبي. مثل الفيديو المُزعج للغاية بالذكاء الاصطناعي لـ ويل سميث وهو يأكل السباغيتي. أعتقد أن هذه صدمة أكبر للنظام مما كانت عليه عندما تحولت مولدات الصور بالذكاء الاصطناعي من مجرد مزحة إلى بث الرعب الوجودي في قلوب الفنانين التشكيليين.

من المُرجح أن يُؤثر Sora على صناعة الفيديو بأكملها بدءًا من صانعي اللقطات الفردية وحتى مستوى مشاريع الميزانية الضخمة من Disney و Marvel. لن ينجو شيء من هذا. أعتقد أنَّ هذا صحيح بشكل خاص نظرًا لأنَّ Sora لا يتعين عليه إنشاء أشياء بقطعة قماش كاملة، ولكن يُمكنه العمل على المواد الموجودة، مثل تحريك الصورة الثابتة التي قدمتها. قد تكون هذه هي البداية الحقيقية لصناعة الأفلام بالذكاء الاصطناعي.

كيف يعمل Sora؟

سوف نتعمق قليلاً في شخصية Sora بقدر ما نستطيع، لكن ليس من المُمكن الخوض في هذا القدر من التفاصيل. أولاً، من المُفارقات أنَّ شركة OpenAI ليست منفتحة فيما يتعلق بالأعمال الداخلية لتقنيتها. إنها ملكية خاصة، وبالتالي فإنَّ الصلصة السرية التي تُميز Sora عن المنافسة غير معروفة لنا بتفاصيلها الدقيقة. ثانيًا، أنا لست عالم كمبيوتر، وربما أنت لست عالم كمبيوتر، ولذا لا يُمكننا أن نفهم كيفية عمل هذه التكنولوجيا إلا بعبارات عامة واسعة النطاق.

الخبر السار هو أن هناك شرحًا مُمتازًا لـ Sora (محمي بنظام الاشتراك) بقلم مايك يونج على موقع Medium، استنادًا إلى تقرير فني من OpenAI والذي تم تفصيله لكي نفهمه نحن من فئة البشر العاديين. وفي حين أن كلتا الوثيقتين تستحقان القراءة، إلا أنه يُمكننا استخلاص أهم الحقائق هنا.

تم بناء Sora على الدروس التي تعلمتها OpenAI عند إنشاء نماذج مثل ChatGPT أو DALL-E. ابتكرت OpenAI كيفية تدريب Sora على نماذج مقاطع فيديو عن طريق تقسيم مقاطع الفيديو هذه إلى “تصحيحات” تُشبه “الرموز المميزة” التي يستخدمها نموذج تدريب ChatGPT. نظرًا لأن هذه الرموز المميزة كلها متساوية الحجم، فإن أشياء مثل طول المقطع ونسبة العرض إلى الارتفاع وحجم الدقة لا تُهم Sora.

يستخدم Sora نفس نهج المُحولات الواسع الذي يعمل على تشغيل GPT جنبًا إلى جنب مع طريقة الانتشار التي تستخدمها مولدات الصور بالذكاء الاصطناعي. أثناء التدريب، ينظر إلى رموز التصحيح المُميزة المُنتشرة جزئيًا من مقطع فيديو ويُحاول التنبؤ بالشكل الذي سيبدو عليه الرمز المُميز الخالي من الضجيج. ومن خلال مقارنة ذلك بالحقيقة الأرضية، يتعلم النموذج “لغة” الفيديو. وهذا هو السبب في أنَّ الأمثلة من موقع Sora تبدو أصلية جدًا.

وبصرف النظر عن هذه القدرة الرائعة، يتمتع Sora أيضًا بتعليقات توضيحية مفصلة للغاية مضمنة لإطارات الفيديو التي تم تدريبه عليها، وهو جزء كبير من سبب قدرته على تعديل مقاطع الفيديو التي يُنشئها بناءً على المُطالبات النصية.

يبدو أن قدرة Sora على محاكاة الفيزياء بدقة في مقاطع الفيديو هي ميزة ناشئة، والتي تُنتج ببساطة من تدريبه على ملايين مقاطع الفيديو التي تحتوي على حركة تعتمد على فيزياء العالم الحقيقي. يتمتع Sora بثبات مُمتاز للكائن، حتى عندما يغادر الكائن الإطار أو يتم إعاقته بواسطة شيء آخر داخل الإطار، فإنه يظل موجودًا ويعود دون أي إزعاج.

ومع ذلك، لا تزال هناك مشكلات في بعض الأحيان عندما تتفاعل الأشياء الموجودة في الفيديو، مع السببية، ومع إنشاء الكائنات تلقائيًا. أيضًا، ومن المضحك إلى حد ما، يبدو أنَّ Sora يخلط بين اليسار واليمين من وقت لآخر. ومع ذلك، فإن ما تم عرضه حتى الآن ليس فقط قابلاً للاستخدام بالفعل، ولكنه بالتأكيد في طليعة التكنولوجيا.

متى يُمكن الوصول إلى Sora؟

لذلك، نحن جميعًا مُتحمسون للغاية لاختبار Sora، ويُمكنك التأكيد على أنني سأستخدمه وأكتب عن مدى جودة هذه التكنولوجيا بالضبط عندما لا تظهر لنا نتائج مُنتقاة، ولكن متى يمكن ذلك، هل سيحدث ذلك؟

حتى كتابة هذه السطور، ليس من الواضح بالضبط كم من الوقت سيستغرق قبل أن يُصبح Sora مُتاحًا لعامة الأشخاص، أو كم سيُكلف الوصول إليه. ذكرت OpenAI أنَّ النموذج في أيدي “الفريق الأحمر”، وهو مجموعة من الأشخاص الذين تتمثل مُهمتهم في محاولة جعل Sora يفعل كل الأشياء الشريرة التي ليس من المُفترض أن يفعلها، ثم المساعدة في وضع حواجز الحماية ضد هذا النوع. يحدث الشيء عندما يتمكن العملاء الفعليون من استخدامه. يتضمن ذلك إمكانية إنشاء معلومات مُضللة، أو إنشاء مواد مهينة أو مسيئة، والعديد من الانتهاكات الأخرى التي قد يتخيلها المرء.

حتى كتابة هذه السطور، إنه أيضًا في أيدي مُنشئي المُحتوى المُختارين، والذي أعتقد أنه لأغراض الاختبار، وللحصول على بعض مُراجعات ومُوافقات الطرف الثالث بينما نحن في الطريق إلى إصداره النهائي.

خلاصة القول هي أننا لا نعرف في الواقع متى سيكون مُتاحًا، بنفس الطريقة التي يُمكنك من خلالها الدفع مقابل استخدام DALL-E 3، وفي الواقع حتى OpenAI ليس لديه تاريخ مُحدد بعد. هذا ببساطة لأنه إذا كان الأمر في أيدي مختبري السلامة، فقد يكتشفون مشكلات يستغرق إصلاحها وقتًا أطول من المتوقع، مما سيؤدي إلى تأخير الإصدار العام.

حقيقة أنَّ OpenAI تشعر بأنها مستعدة لإظهار Sora وحتى تُلقي بعض المطالبات العامة المُنسقة من خلال X (Twitter سابقًا) تعني ببساطة أنَّ الشركة تعتقد أن جودة المنتج النهائي جاهزة إلى حد كبير، ولكن حتى تكون هناك صورة أفضل للرأي العام ، قضايا السلامة المُثارة، وكذلك قضايا السلامة المكتشفة، لا أحد يستطيع أن يقول على وجه اليقين. أعتقد أننا نتحدث عن أشهر وليس سنوات، لكن لا تتوقع ذلك الأسبوع المُقبل. يُمكنك الإطلاع الآن على أدوات الذكاء الاصطناعي الأخلاقية للفنانين والمبدعين.

ما هو OpenAI Sora؟

كيف يعمل Sora؟

متى يُمكن الوصول إلى Sora؟

أسباب افتقادي لفعاليات الألعاب المحلية (LAN) مع أصدقائي في الحياة الواقعية

هل تستطيع بطاقات الرسومات من AMD أن تُقدم دعمًا لتتبع الأشعة بشكل كامل؟

مقالات ذات صلة