ملاحظة المؤلف: تحليل متعمق لميزة الـ 14 صورة مرجعية في Gemini 3.1 Flash Image Preview و Gemini 3 Pro Image Preview، مع إتقان الاستخدام الصحيح لدقة الكائن واتساق الشخصيات واستراتيجيات تخصيص الحصص.
تدعم نماذج صور Gemini الاستخدام المختلط لما يصل إلى 14 صورة مرجعية لتوليد الصور، ولكن العديد من المطورين ليسوا على دراية بقواعد تخصيص هذه الحصة البالغة 14 صورة. ستحلل هذه المقالة بالتفصيل القدرتين الأساسيتين: دقة الكائن (Object Fidelity) واتساق الشخصيات (Character Consistency)، لمساعدتك على فهم واستخدام ميزة الصور المرجعية المتعددة في Gemini بكفاءة.
القيمة الأساسية: بعد قراءة هذا المقال، ستتقن منطق تخصيص حصة الـ 14 صورة مرجعية، ومقارنة الاختلافات بين النموذجين، وأفضل الممارسات في المشاريع الفعلية.

الميزات الأساسية لوظيفة 14 صورة مرجعية في Gemini
قدمت Google في نماذج الصور من سلسلة Gemini 3 القدرة على دمج صور مرجعية متعددة، مما يسمح للمطورين بإدخال ما يصل إلى 14 صورة مرجعية في طلب توليد واحد. هذه الصور الـ 14 ليست مجرد "حد أقصى للعدد"، بل تم تقسيمها بدقة إلى فئتين وظيفيتين، كل منهما تؤدي مهامًا مختلفة للحفاظ على الجودة البصرية.
| نقطة أساسية | الوصف | القيمة |
|---|---|---|
| إجمالي 14 صورة | الحد الأقصى لمجموع صور دقة الكائنات + صور اتساق الشخصيات | أقصى قدرة مرجعية بصرية في طلب واحد |
| دقة الكائنات (Object Fidelity) | ضمان استنساخ العناصر المحددة بدقة عالية في الصورة المولدة | صور المنتجات، عروض البضائع، مواد العلامة التجارية |
| اتساق الشخصيات (Character Consistency) | الحفاظ على مظهر الشخصية متسقًا في سيناريوهات مختلفة | قصص متسلسلة، ملكية فكرية للعلامة التجارية، تسويق الشخصيات |
| حصص مختلفة للنموذجين | توجد اختلافات في نسب التوزيع بين Flash و Pro | اختيار النموذج المناسب حسب الحاجة |
شرح مفصل لفئتي وظائف الصور المرجعية في Gemini
دقة الكائنات (Object Fidelity) تعني دمج عناصر محددة من الصورة المرجعية بدقة عالية في الصورة النهائية المولدة. على سبيل المثال، إذا قمت بتحميل صورة لحذاء رياضي أحمر، سيقوم النموذج باستنساخ تفاصيل مظهر هذا الحذاء بدقة في الصورة المشهدية المولدة – بما في ذلك اللون، الشكل، النسيج، وموقع الشعار. هذا أمر بالغ الأهمية لسيناريوهات مثل صور منتجات التجارة الإلكترونية وتوليد مواد العلامة التجارية.
اتساق الشخصيات (Character Consistency) يركز على الأشخاص أو الشخصيات. عندما تقوم بتحميل صورة مرجعية لشخصية، يمكن للنموذج توليد صور جديدة لهذه الشخصية في خلفيات، وضعيات، وظروف إضاءة مختلفة، مع الحفاظ على اتساق العناصر البصرية الرئيسية مثل ملامح الوجه، تصفيفة الشعر، والملابس. هذا مفيد جدًا في سيناريوهات مثل رسوم القصص المتسلسلة، تسويق تمائم العلامات التجارية، وتصميم شخصيات الألعاب.
فهم الفرق بين هاتين الفئتين هو شرط أساسي للاستخدام الصحيح للـ 14 صورة مرجعية. إنهما لا يستبعدان بعضهما البعض، بل يمكن استخدامهما معًا في نفس الطلب، ولكن لكل منهما حد أقصى مستقل للعدد.
مقارنة حصص الصور المرجعية لنموذجي Gemini
على الرغم من أن Gemini 3.1 Flash Image Preview و Gemini 3 Pro Image Preview يدعمان كلاهما وظيفة الصور المرجعية المتعددة، إلا أن هناك اختلافات كبيرة في توزيع الحصص.

| بُعد القدرة | Gemini 3.1 Flash Image Preview | Gemini 3 Pro Image Preview |
|---|---|---|
| الحد الأقصى للصور المرجعية الإجمالية | 14 صورة | 11 صورة |
| الحد الأقصى لصور دقة الكائنات | 10 صور كحد أقصى | 6 صور كحد أقصى |
| الحد الأقصى لصور اتساق الشخصيات | 4 صور كحد أقصى | 5 صور كحد أقصى |
| التركيز على دقة الكائنات | أقوى (10 صور) | أضعف (6 صور) |
| التركيز على اتساق الشخصيات | أضعف (4 صور) | أقوى (5 صور) |
| سرعة التوليد | أسرع (مستوى Flash) | أبطأ (مستوى Pro) |
| سيناريوهات الاستخدام | صور المنتجات بكميات كبيرة، سيناريوهات متعددة العناصر | قصص متعددة الشخصيات، تفاعلات شخصيات معقدة |
نقاط أساسية لفهم توزيع حصص الصور المرجعية في Gemini
إحدى النقاط الرئيسية التي يخلط فيها العديد من المطورين هي: 14 صورة مرجعية لا تعني أنه يمكن توزيعها بشكل عشوائي. على سبيل المثال، بالنسبة لـ Gemini 3.1 Flash Image Preview:
- يمكنك تحميل 10 صور كحد أقصى لدقة الكائنات + 4 صور لاتساق الشخصيات = 14 صورة.
- لكنك لا تستطيع تحميل 14 صورة لدقة الكائنات و 0 صورة لاتساق الشخصيات (الحد الأقصى لدقة الكائنات هو 10 صور).
- كما لا تستطيع تحميل 0 صورة لدقة الكائنات و 14 صورة لاتساق الشخصيات (الحد الأقصى لاتساق الشخصيات هو 4 صور).
بمعنى آخر، الـ 14 صورة هي القيمة القصوى النظرية، ولا يتم استخدامها بالكامل إلا عندما تستخدم كلا النوعين من الصور المرجعية وتصل كل منهما إلى حدها الأقصى.
وينطبق الشيء نفسه على Gemini 3 Pro Image Preview: الحد الأقصى هو 6 + 5 = 11 صورة، وليس 14 صورة. الحد الأقصى الإجمالي لنموذج Pro هو في الواقع 11 صورة.
نصيحة للاختيار: إذا كان السيناريو الخاص بك يركز بشكل أساسي على عرض المنتجات (ويتطلب العديد من المراجع للعناصر)، فننصح باختيار Gemini 3.1 Flash Image Preview، حيث يوفر حصة أكبر لدقة الكائنات. أما إذا كان السيناريو الخاص بك يركز على قصص الشخصيات (ويتطلب الحفاظ على اتساق شخصيات متعددة)، فإن حصة الـ 5 شخصيات في Gemini 3 Pro Image Preview تكون أكثر فائدة. يمكنك اختبار ومقارنة كلا النموذجين بسرعة عبر APIYI.com.
البدء السريع مع Gemini و14 صورة مرجعية
مثال مبسط
فيما يلي الكود الأساسي لاستخدام Gemini 3.1 Flash Image Preview لتوليد صور متعددة بالاعتماد على صور مرجعية:
from google import genai
from google.genai import types
from PIL import Image
client = genai.Client(
api_key="YOUR_API_KEY",
http_options={"base_url": "https://vip.apiyi.com/v1"}
)
# تحميل الصور المرجعية للكائنات (10 صور كحد أقصى)
shoe = Image.open("red-shoe.png")
bag = Image.open("leather-bag.png")
# تحميل الصور المرجعية للشخصيات (4 صور كحد أقصى)
character = Image.open("brand-mascot.png")
prompt = "Create a product showcase scene featuring this red shoe and leather bag, with the brand mascot character standing next to them in a modern retail environment."
response = client.models.generate_content(
model="gemini-3.1-flash-image-preview",
contents=[prompt, shoe, bag, character],
config=types.GenerateContentConfig(
response_modalities=["TEXT", "IMAGE"],
),
)
**عرض الكود الكامل لتوليد صور متعددة بالاعتماد على صور مرجعية**
from google import genai
from google.genai import types
from PIL import Image
import base64
import os
# تهيئة العميل
client = genai.Client(
api_key="YOUR_API_KEY",
http_options={"base_url": "https://vip.apiyi.com/v1"}
)
def generate_with_references(
prompt: str,
object_images: list = None,
character_images: list = None,
aspect_ratio: str = "16:9",
model: str = "gemini-3.1-flash-image-preview"
):
"""
توليد صور باستخدام صور مرجعية متعددة
الوسائط:
prompt: موجه التوليد
object_images: قائمة بمسارات صور الكائنات عالية الدقة (10 صور كحد أقصى لـ Flash)
character_images: قائمة بمسارات صور اتساق الشخصيات (4 صور كحد أقصى لـ Flash)
aspect_ratio: نسبة العرض إلى الارتفاع للصورة الناتجة
model: اسم النموذج
"""
contents = [prompt]
# إضافة صور مرجعية للكائنات
if object_images:
for img_path in object_images:
contents.append(Image.open(img_path))
# إضافة صور مرجعية للشخصيات
if character_images:
for img_path in character_images:
contents.append(Image.open(img_path))
response = client.models.generate_content(
model=model,
contents=contents,
config=types.GenerateContentConfig(
response_modalities=["TEXT", "IMAGE"],
image_config=types.ImageConfig(
aspect_ratio=aspect_ratio,
),
),
)
# استخراج الصورة المولّدة
for part in response.candidates[0].content.parts:
if part.inline_data and part.inline_data.mime_type.startswith("image/"):
image_data = base64.b64decode(part.inline_data.data)
with open("output.png", "wb") as f:
f.write(image_data)
print("تم حفظ الصورة: output.png")
# مثال على الاستخدام: سيناريو منتجات التجارة الإلكترونية
generate_with_references(
prompt="تصوير احترافي للمنتجات المعروضة على منصة عرض بيضاء بسيطة",
object_images=["shoe.png", "bag.png", "watch.png"],
character_images=["model-person.png"],
aspect_ratio="16:9"
)
نصيحة: يمكنك الحصول على مفتاح API من APIYI apiyi.com لاختبار نماذج صور Gemini بسرعة، حيث تدعم المنصة استدعاء واجهة برمجة تطبيقات موحدة لـ Gemini 3.1 Flash Image Preview و Gemini 3 Pro Image Preview.
حالات استخدام صور Gemini المرجعية وأفضل استراتيجيات التخصيص
تختلف استراتيجيات تخصيص الـ 14 صورة مرجعية بشكل كبير باختلاف سيناريوهات الأعمال. فيما يلي التكوينات الموصى بها لـ 5 سيناريوهات نموذجية:
| السيناريو | النموذج الموصى به | عدد صور الكائنات | عدد صور الشخصيات | إجمالي الصور المرجعية | الوصف |
|---|---|---|---|---|---|
| مجموعة منتجات التجارة الإلكترونية | Flash | 8-10 صور | 0 صور | 8-10 | عرض منتجات متعددة في إطار واحد |
| قصص شخصيات العلامة التجارية | Pro | 2-3 صور | 4-5 صور | 6-8 | الشخصيات تخوض مغامرات في مشاهد مختلفة |
| المنتج + المتحدث الرسمي | Flash | 5-6 صور | 2-3 صور | 7-9 | شخصية تحمل/تعرض المنتج |
| تصميم شخصيات الألعاب | Pro | 3-4 صور | 4-5 صور | 7-9 | مشاهد تفاعل شخصيات متعددة |
| تنسيق مشاهد الديكور المنزلي | Flash | 8-10 صور | 0 صور | 8-10 | مزيج من الأثاث/الديكورات المتعددة |
تطبيق صور Gemini المرجعية في سيناريوهات منتجات التجارة الإلكترونية
تُعد التجارة الإلكترونية من أكثر حالات الاستخدام المباشرة لميزة الصور المرجعية المتعددة. بالطرق التقليدية، تحتاج إلى التقاط صور لكل منتج على حدة، مما يرفع التكلفة ويصعب توحيد الأسلوب. باستخدام قدرة Gemini على الحفاظ على دقة الكائنات، يمكنك استخدام صور المنتجات ذات الخلفية البيضاء كصور مرجعية لتوليد صور مشاهد ذات أسلوب موحد دفعة واحدة.
يوصى باستخدام Gemini 3.1 Flash Image Preview، لأنه يدعم ما يصل إلى 10 صور كائنات عالية الدقة، وهو ما يكفي لتغطية مجموعة منتجات من فئة واحدة. وفي الوقت نفسه، فإن سرعة التوليد على مستوى Flash مناسبة أيضًا لاحتياجات الإنتاج بكميات كبيرة.
تطبيق صور Gemini المرجعية في سيناريوهات قصص الشخصيات
إذا كنت بحاجة إلى توليد سلسلة من الرسوم التوضيحية لقصص شخصيات العلامة التجارية أو شخصيات الألعاب، فإن اتساق الشخصية هو المتطلب الأساسي. يدعم Gemini 3 Pro Image Preview ما يصل إلى 5 صور لاتساق الشخصيات، مما يسمح بالحفاظ على اتساق مظهر 5 شخصيات مستقلة في نفس الوقت.
تجدر الإشارة إلى أن اتساق الشخصية ليس مثاليًا بنسبة 100% حاليًا. وقد ذكرت وثائق Google الرسمية أيضًا: "character consistency is not always perfect between input images and generated output images". في الاستخدام الفعلي، يوصى بما يلي:
- توفير صور مرجعية للشخصيات واضحة، أمامية، وذات إضاءة متساوية
- وصف السمات الرئيسية لكل شخصية بوضوح في الموجه
- إجراء فحص يدوي وتعديلات دقيقة على النتائج المولّدة
نصيحة عملية: يوصى بإجراء اختبارات على دفعات صغيرة أولاً عبر APIYI apiyi.com، والتأكد من أن تأثير اتساق الشخصية يلبي المتطلبات قبل الشروع في التوليد بكميات كبيرة. توفر المنصة رصيدًا مجانيًا للاختبار، مما يسهل التحقق السريع.

المواصفات الفنية والاعتبارات لصور Gemini المرجعية
نسب العرض إلى الارتفاع المدعومة للصور الناتجة
يدعم نموذج Gemini للصور 14 نسبة عرض إلى ارتفاع، تغطي تقريبًا جميع حالات الاستخدام الشائعة:
| نسبة العرض إلى الارتفاع | الاستخدامات الشائعة | السيناريوهات المناسبة |
|---|---|---|
| 1:1 | صور الملفات الشخصية لوسائل التواصل الاجتماعي، صور المنتجات المربعة | إنستغرام، صور مصغرة للمنتجات |
| 16:9 | العرض الأفقي، صور المدونات | لافتات الويب (Banner)، صور مقالات رئيسية |
| 9:16 | العرض العمودي، خلفيات الهاتف المحمول | أغلفة XiaoHongShu و Douyin |
| 4:3 | نسبة العرض التقليدية | صور عروض PowerPoint التقديمية، الملصقات التقليدية |
| 3:2 | نسبة التصوير القياسية | تصوير المنتجات، صور المناظر الطبيعية |
| 21:9 | العرض فائق الاتساع | ملصقات الأفلام، لافتات المواقع الإلكترونية |
| 1:4 / 4:1 | نسبة قصوى | الصور الطويلة، رسوم المعلومات البيانية (إنفوجرافيك) |
القيود الرئيسية لاستخدام صور Gemini المرجعية
في التطوير العملي، يجب الانتباه بشكل خاص إلى القيود التالية:
- الحصة هي حد أقصى صارم: تجاوز الحد الأقصى لعدد عناصر اتساق الكائنات أو اتساق الوجوه سيؤدي إلى خطأ في API.
- جودة الصورة تؤثر على النتائج: الصور المرجعية الضبابية أو التي تحتوي على عوائق شديدة ستقلل من الدقة.
- اتساق الوجوه ليس بنسبة 100%: خاصة في حالات التغيرات الشديدة في الوضعيات أو الاختلافات الكبيرة في ظروف الإضاءة.
- الموجهات تحتاج إلى التنسيق: الصور المرجعية هي مجرد مدخلات بصرية، ويجب أن يصف الموجه بوضوح محتوى الصورة والتأثير المطلوب.
- آلية thoughtSignature: في التحرير التفاعلي، يعتمد النموذج على thoughtSignature من الجولة السابقة لفهم تكوين الصورة، ويجب الاحتفاظ بهذا التوقيع عند التحرير المتواصل.
نصيحة للمطورين: تدعم APIYI apiyi.com جميع نماذج Gemini للصور، بما في ذلك gemini-3.1-flash-image-preview و gemini-3-pro-image-preview، ويمكن استدعاؤها باستخدام واجهة متوافقة مع OpenAI دون الحاجة إلى تكييف إضافي.
أسئلة شائعة
س1: هل يدعم كلا النموذجين 14 صورة مرجعية؟
ليس تمامًا. الـ 14 صورة هي الحد الأقصى الإجمالي لـ Gemini 3.1 Flash Image Preview (10 كائنات + 4 وجوه). الحد الأقصى الإجمالي لـ Gemini 3 Pro Image Preview هو في الواقع 11 صورة (6 كائنات + 5 وجوه). عند اختيار النموذج، يجب أن تقرر بناءً على متطلبات حصتك المحددة.
س2: هل يمكن استخدام صور اتساق الكائنات فقط، دون صور اتساق الوجوه؟
نعم، يمكن. هذان النوعان من الصور المرجعية مستقلان، ويمكنك استخدام أحدهما فقط. على سبيل المثال، تتطلب سيناريوهات التجارة الإلكترونية عادةً صور اتساق الكائنات فقط، ولا تتضمن اتساق الوجوه. في هذه الحالة، يمكن لنموذج Flash قبول ما يصل إلى 10 صور كائنات. من خلال APIYI apiyi.com، يمكنك اختبار تأثيرات التكوينات المختلفة بسرعة.
س3: ماذا أفعل إذا كان تأثير اتساق الوجوه غير جيد؟
تعترف Google رسميًا بأن اتساق الوجوه ليس موثوقًا بنسبة 100% حاليًا. نصائح: (1) استخدم صورًا مرجعية عالية الدقة وواضحة للوجه الأمامي؛ (2) صف بوضوح خصائص الوجه في الموجه؛ (3) قم بتوليد عدة صور مرشحة ثم قم بالفلترة يدويًا؛ (4) حاول اختبار نموذجي Flash و Pro في وقت واحد على APIYI apiyi.com، وقارن تأثير الاتساق.
س4: كيف يمكن التمييز بين صور اتساق الكائنات وصور اتساق الوجوه؟
الفرق الرئيسي يكمن في الدلالة: صور اتساق الكائنات هي "الأشياء" التي ترغب في استعادتها بدقة في النتائج المولدة (مثل الأحذية، الحقائب، الساعات، إلخ). أما صور اتساق الوجوه فهي "الأشخاص/الشخصيات" التي ترغب في الحفاظ على مظهرها متسقًا في سيناريوهات مختلفة. في استدعاء API، كلاهما عبارة عن مدخلات صور عادية، ويفهم النموذج دور كل صورة من خلال الوصف في الموجه. يُنصح بتحديد العلاقات المرجعية بوضوح في الموجه، مثل "this shoe" (هذا الحذاء) و "this character" (هذه الشخصية).
ملخص
النقاط الرئيسية لميزة صور Gemini المرجعية الـ 14:
- الحصص مقسمة إلى فئتين: يتكون الحد الأقصى البالغ 14 صورة من صور اتساق الكائنات وصور اتساق الشخصيات، ولكل منها حد أقصى مستقل.
- يوجد اختلاف بين النموذجين: يميل Flash نحو اتساق الكائنات (10 صور)، بينما يميل Pro نحو اتساق الشخصيات (5 صور).
- السيناريو يحدد الاختيار: لعرض المنتجات، اختر Flash؛ ولقصص الشخصيات، اختر Pro؛ وللسيناريوهات المختلطة، وزّع حسب الحاجة.
- اتساق الشخصيات يتطلب التحقق: ليس مثاليًا بنسبة 100%، لذا يُنصح بالاختبار على دفعات صغيرة قبل التوليد بكميات كبيرة.
فهم منطق توزيع الحصص هو المفتاح للاستخدام الفعال لميزة صور Gemini المرجعية المتعددة. يُنصح باختبار الأداء الفعلي لنموذجي Flash و Pro بسرعة عبر APIYI apiyi.com، حيث توفر المنصة حصصًا مجانية وواجهة موحدة، مما يسهل المقارنة واختيار الحل الأنسب لسيناريوك.
المراجع
-
وثائق توليد الصور في Google Gemini: الشرح الرسمي لميزة الصور المرجعية المتعددة
- الرابط:
ai.google.dev/gemini-api/docs/image-generation - الوصف: يتضمن مواصفات API مفصلة وأمثلة تعليمات برمجية لـ 14 صورة مرجعية.
- الرابط:
-
بطاقة نموذج Gemini 3.1 Flash Image Preview: شرح قدرات النموذج وقيوده
- الرابط:
deepmind.google/models/model-cards/gemini-3-1-flash-image/ - الوصف: المواصفات الفنية ومعايير الأداء لنموذج صور Flash.
- الرابط:
-
دليل مطوري Gemini 3: وثائق التطوير الكاملة لسلسلة نماذج Gemini 3
- الرابط:
ai.google.dev/gemini-api/docs/gemini-3 - الوصف: دليل تطوير يغطي قدرات الوسائط المتعددة للنصوص والصور والفيديو وغيرها.
- الرابط:
المؤلف: فريق APIYI التقني
للتواصل التقني: نرحب بمناقشة نصائح استخدام صور Gemini المرجعية المتعددة في قسم التعليقات، ولمزيد من المعلومات، يمكنكم زيارة مركز وثائق APIYI على docs.apiyi.com
