مقارنة بين Grok و Gemini في 7 اختبارات لإنشاء الصور بالذكاء الاصطناعي: أيهما الأفضل؟

لكل من مولدي الصور نقاط قوة تميزه

تشهد مولدات الصور بالذكاء الاصطناعي تطورًا متسارعًا، حيث تزداد ذكاءً وسرعة وإبداعًا. بعد اختبار قدرات ChatGPT-5 و Gemini في إنشاء الصور، أردت مقارنة أداء Gemini من Google مع Grok، روبوت الدردشة “الحر” التابع لـ Elon Musk.

في مواجهة من 7 جولات، تضمنت طلبات صور واقعية وأخرى بأسلوب Pixar، اختبرت مدى التزام كل نموذج بالتعليمات وقدرته على تقديم صور مقنعة. إليك أبرز نقاط قوة كل منهما، والذكاء الاصطناعي الذي تفوق في النهاية. هذه المقارنة ستساعدك على فهم أي من النموذجين، Gemini أو Grok، هو الأنسب لاحتياجاتك في توليد الصور بالذكاء الاصطناعي.

1. مفهوم المنتج فائق الواقعية

المُطالبة: “أنشئ صورة فوتوغرافية واقعية لهاتف ذكي قابل للطي وشفاف معروض على طاولة مقهى خشبية، مع انعكاسات لأضواء المدينة على سطحه.”

لقد نجح Grok في تلبية هذا المُطالبة، حيث قام بإنشاء صورتين فوتوغرافيتين واقعيتين تضمان كل التفاصيل التي طلبتها. بدت كلتا النسختين مصقولتين وتعكسان المفهوم بدقة.

كانت نتيجة Gemini جيدة، ولكن ليست مثالية. بدا الهاتف الذكي الشفاف غير متناسب قليلاً، ولم يتم عرض انعكاسات أضواء المدينة، وهي جزء أساسي من المُطالبة، بشكل مقنع مثل محاولة Grok.

الفائز: يفوز Grok لإنشاء صورة فائقة الجودة وتفسير المُطالبة على أفضل وجه. في هذا الاختبار لتوليد الصور بالذكاء الاصطناعي، تفوق Grok بشكل واضح.

2. رسم الشخصيات مع إبراز المشاعر

المُطالبة: “ارسم رسمًا توضيحيًا بأسلوب القصص المصورة لرائد فضاء شاب يدرك أنه نسي خوذته على سطح المريخ – بتعبير مبالغ فيه، وألوان نابضة بالحياة، وروح فكاهية كرتونية.”

أنتج Grok صورتين لما يبدو أنهما رائدا فضاء متفاجئان، وكلاهما يرتدي خوذة. نظرًا لأن الصور قريبة جدًا، فمن الصعب تفسير الصورة بطريقة محددة، ولا يظهر “النسيان” بشكل جيد.

أنتج Gemini صورة تصور رائد فضاء كثير النسيان، وتشير الفقاعة الفكرية بشكل أفضل إلى سبب انزعاج رائد الفضاء، على الرغم من أن الصورة ستكون أفضل إذا لم يكن رائد الفضاء يرتدي خوذة بالفعل. الخلفية والتصميم العام واضحان.

الفائز: Gemini يفوز لاتباعه تعليمات المطالبة عن كثب ولصورة ذات طبيعة هزلية أكثر.

3. إعادة تصور التاريخ

المُطالبة: “ارسم لوحة فنية على طراز عصر النهضة لكليوباترا وهي تحمل هاتفًا ذكيًا حديثًا، بأسلوب ليوناردو دا فينشي.”

أنتج Grok صورة تبدو وكأنها صورة فوتوغرافية لامرأة عصرية ترتدي ملابس على طراز عصر النهضة وتحمل هاتفًا ذكيًا. تبدو اللوحة أقرب إلى صورة سيلفي وعصرية للغاية.

ركز Gemini بشكل أكبر على الجانب الفني. بدت اللوحة أقرب إلى لوحة مرسومة بأسلوب عصر النهضة وأكثر شبهاً بكليوباترا نفسها، بدلاً من مجرد امرأة عصرية ترتدي زيها.

الفائز: Gemini يفوز بتفسيره الأفضل للطلب وبدقته التاريخية الأفضل.

4. مشهد حشود معقد

المُطالبة: “أنشئ صورة جوية لـ Times Square في ليلة رأس السنة، مكتظة بالحشود، واللوحات الإعلانية المتوهجة، والقصاصات الورقية المتساقطة عبر سماء الليل.”

Grok خيب الآمال حقًا في هذه الجولة. كانت كلتا الصورتين سيئتين بنفس القدر، ضبابيتين إلى حد ما ولم تمثلا ليلة رأس السنة في Times Square بشكل جيد. الناس متباعدون جدًا والتفاصيل الأخرى التي قد تلمح إلى ليلة رأس السنة غائبة.

Gemini التقط طاقة وحشودًا هائلة ليلة رأس السنة في Times Square. من الواضح أن الصورة من مدينة نيويورك، وتساعد اللافتات في الإشارة إلى المناسبة. الحشد مكتظ، على عكس تصوير Grok.

الفائز: Gemini يفوز بالصورة الأكثر وضوحًا ودقة لليلة رأس السنة في Times Square.

5. مزيج سريالي

المُطالبة: “تصور أخطبوطًا عملاقًا يلعب الشطرنج مع ألبرت أينشتاين في غرفة زجاجية في قاع المحيط.”

واجه Grok صعوبة في هذا الاختبار. لقد كان “يفكر” لفترة أطول بكثير من أي من المطالبات الأخرى في الاختبار حتى الآن. كانت الصورة جيدة، لكنها لم تأخذ في الاعتبار طلب “الغرفة الزجاجية” في المُطالبة.

قدم Gemini على الفور صورة لما يبدو أنه صورة شخصية. كان المنزل الزجاجي مثيرًا للاهتمام وواقعيًا. الأخطبوط أكبر بكثير من أخطبوط Grok، ويملأ الصورة الغريبة بشكل أفضل.

الفائز: Gemini يفوز بجودة صورة فائقة واتباع التوجيهات بدقة.

6. وضوح بأسلوب الرسوم البيانية (Infographic)

المُطالبة (Prompt): “صمم رسمًا بيانيًا (infographic) واضحًا يوضح دورة حياة الفراشة، مع تسمية المراحل، واستخدام الأسهم، وأيقونات مسطحة بأقل عدد ممكن من الألوان.”

كانت محاولة Grok لإنشاء رسم بياني ناجحة وغير ناجحة في نفس الوقت. كانت النسخة الأولى مزدحمة للغاية، مع وجود فراشة إضافية غير ضرورية تشتت الانتباه عن دورة الحياة. أما النسخة الثانية فكانت أقرب إلى المُطالبة، ولكنها افتقرت إلى الدقة في تفاصيل الدورة.

Gemini قدم صورة واضحة تعرض بدقة دورة حياة الفراشة مع تسميات واضحة، وألوان قليلة، وتسميات سهلة القراءة.

الفائز: Gemini يفوز لأنه نفذ المُطالبة من أول محاولة. الصورة دقيقة وجاهزة للعرض.

7. الحفاظ على تناسق الصور الشخصية المنمقة

المُطالبة: “أنشئ نموذج شخصية ثلاثية الأبعاد بأسلوب Pixar لصحفي يبلغ من العمر 40 عامًا بشعر أشقر يحمل دفتر ملاحظات – ثم قم بإنشاء 3 اختلافات بملابس مختلفة.”

Grok أخطأ تمامًا طلب “أسلوب Pixar” في هذا المُطالبة بالإضافة إلى جزء “ملابس مختلفة”. لقد أنشأ ثلاثة قصات شعر مختلفة، وهو ما يُحسب له.

Gemini سحق الصحفي بأسلوب Pixar ولكنه أخطأ في الاختلافات الثلاثة.

الفائز: تعادل لكلا الروبوتين لفشلهما في اتباع التعليمات. إذا كان عليّ اختيار واحد، فسيكون Gemini للحصول على النمط الصحيح والتقاط أجواء الصحفي بشكل أفضل.

الفائز الشامل: Gemini

بعد سبعة أوامر، أثبت Gemini أنه مولد الصور الأكثر موثوقية بشكل عام. لقد اتبع التعليمات باستمرار وبدقة أكبر، وأنتج تركيبات أنظف، وأتقن التفاصيل التي غالبًا ما فاتتها Grok. بمعنى آخر، تفوق Gemini في فهم وتنفيذ الأوامر النصية لإنشاء الصور المُطالبةة.

من المؤكد أن Grok أظهر ومضات من الإبداع وقدم فوزًا متميزًا في الواقعية التصويرية، ولكنه تعثر في كثير من الأحيان في الدقة والانحراف عن الأمر. إذا كنت تريد نتائج تجريبية وغير تقليدية، فإن Grok لديه لحظاته. ولكن للاستخدام اليومي حيث تكون الوضوح والدقة والصقل هي الأكثر أهمية، فإن Gemini هو أداة إنشاء الصور بالذكاء الاصطناعي التي أثق بها لإنجاز المهمة. باختصار، يعتبر Gemini خيارًا أفضل للمستخدمين الذين يبحثون عن نتائج متسقة وعالية الجودة في مختلف السيناريوهات.

هل جربت Grok؟ ماذا عن Gemini؟ أيهما هو المفضل لديك؟ أخبرني في التعليقات.

Gemini Grok