|

6 نصائح وطريقة عملية من خطوتين لتحسين دقة عرض النص في صور Nano Banana

nano-banana-text-rendering-consistency-guide-ar 图示

عند توليد الصور باستخدام Nano Banana، يواجه العديد من المطورين مشكلة محبطة: الصور تبدو رائعة، لكن النصوص عليها إما تحتوي على أخطاء إملائية، أو تكون ضبابية، أو تتحول ببساطة إلى رموز غير مفهومة.

الخبر الجيد هو أن وثائق Google الرسمية تقدم في الواقع تلميحًا رئيسيًا: اطلب من النموذج أولاً توليد محتوى النص، ثم اطلب منه توليد الصورة التي تحتوي على هذا النص. هذا ما يُعرف بـ "الأسلوب ذي الخطوتين" (Two-Step Approach)، والذي يمكن أن يحسن بشكل كبير دقة عرض النصوص.

ستحلل هذه المقالة بعمق الأسباب التقنية وراء هذه الظاهرة، وتقدم 6 نصائح مجربة وفعالة لعرض النصوص، لمساعدتك في جعل النصوص واضحة ودقيقة عند توليد الصور باستخدام Nano Banana.

القيمة الأساسية: بعد قراءة هذه المقالة، ستفهم كيفية عمل عرض النصوص في Nano Banana، وتتقن 6 نصائح عملية مثل الأسلوب ذي الخطوتين، مما يرفع دقة نصوص الصور من "الحظ" إلى مستوى يمكن التحكم فيه.


الوضع الحالي لعرض النص في Nano Banana: قدرات قوية ولكن تتطلب مهارة

لنبدأ بالخلاصة: قدرة نماذج سلسلة Nano Banana على عرض النص هي من أعلى المستويات في مجال توليد الصور بالذكاء الاصطناعي، لكنها ليست "مجرد كتابة موجه عشوائي للحصول على نص مثالي".

بيانات دقة عرض النص في Nano Banana

النموذج دقة النص دعم لغات متعددة أطول نص موثوق ملاحظات
Nano Banana Pro ~94% ممتاز حوالي 25 حرفًا أعلى دقة، مناسب للملصقات التجارية
Nano Banana 2 ~87% ممتاز حوالي 20 حرفًا سرعة عالية، قيمة ممتازة
DALL-E 3 ~78% جيد حوالي 15 حرفًا النصوص الطويلة عرضة للأخطاء
Stable Diffusion XL ~45% ضعيف نسبيًا حوالي 8 أحرف غير موثوق به بشكل أساسي
Midjourney v6 ~65% متوسط حوالي 12 حرفًا أسلوب جيد لكن النص ضعيف

كما نرى، دقة Nano Banana Pro البالغة 94% هي الأعلى في الصناعة. لكن الـ 6% المتبقية من حالات الفشل – أخطاء إملائية، نص غير واضح، أحرف مفقودة – غير مقبولة في السيناريوهات التجارية.

لماذا يُعد عرض النص في توليد الصور بالذكاء الاصطناعي صعبًا جدًا

لفهم سبب الحاجة إلى "الطريقة ذات الخطوتين"، يجب أولاً فهم صعوبات النص في الصور التي يولدها الذكاء الاصطناعي:

  1. متطلبات دقيقة على مستوى البكسل: يجب أن يكون النص في الصورة دقيقًا على مستوى البكسل، فخطأ في ضربة قلم واحدة يحوله إلى خطأ إملائي. بينما المحتويات الأخرى التي يولدها الذكاء الاصطناعي (المناظر الطبيعية، الأشخاص) تسمح بدرجة معينة من الغموض.
  2. انفجار تركيبات الأحرف: 26 حرفًا إنجليزيًا، آلاف الأحرف الصينية، بالإضافة إلى الأحرف الكبيرة والصغيرة، والخطوط، والتركيبات، مما يجعل الاحتمالات شبه لا نهائية.
  3. تداخل السياق: عند توليد النموذج للتركيبة الكلية للصورة، يسهل عليه "التشتت" – فهو يحتاج إلى رسم الخلفية جيدًا وترتيب النص جيدًا، ويتنافس المهمتان على الانتباه.
  4. تحيز بيانات التدريب: نسبة الصور ذات النص المثالي في مجموعات التدريب محدودة، والنموذج لا يتعلم بشكل كافٍ بعض الخطوط وتركيبات التنسيق.

🎯 نصيحة تقنية: فهم صعوبات عرض النص يساعد على تحسين الموجهات بشكل مستهدف. من خلال منصة APIYI apiyi.com، يمكنك استدعاء Nano Banana Pro و Nano Banana 2 لمقارنة تأثيرات عرض النص لكلا النموذجين بسرعة، واختيار الحل الأنسب لسيناريو استخدامك.


التقنية الأساسية الأولى: الطريقة ذات الخطوتين – أفضل ممارسة موصى بها رسميًا لعرض النص

هذه هي الطريقة الموصى بها صراحةً في وثائق Google الرسمية، وهي أهم تقنية في هذه المقالة.

مبدأ الطريقة ذات الخطوتين

الطريقة التقليدية ذات الخطوة الواحدة (تأثير ضعيف):

"生成一张海报,上面写着 'SUMMER SALE 50% OFF'"
→ 模型同时处理构图和文字 → 文字容易出错

الطريقة ذات الخطوتين (تأثير جيد):

第一步: "请帮我生成海报文案: 夏季促销50%折扣"
→ 模型输出文字: "SUMMER SALE 50% OFF"

第二步: "生成一张海报图片,上面精确显示文字 'SUMMER SALE 50% OFF'"
→ 模型专注于将已确定的文字渲染到图片中 → 准确率大幅提升

nano-banana-text-rendering-consistency-guide-ar 图示

لماذا الطريقة ذات الخطوتين فعالة – تفسير تقني

يعتمد Nano Banana على نموذج لغة كبير متعدد الوسائط من Gemini. عندما تطلب مباشرةً باستخدام الطريقة ذات الخطوة الواحدة "توليد صورة تحتوي على نص معين"، يحتاج النموذج إلى إكمال مهمتين في وقت واحد:

  1. فهم وتخطيط تكوين الصورة – المشهد، الألوان، التخطيط.
  2. عرض أحرف النص بدقة – الإملاء، الخط، الموضع.

تتنافس هاتان المهمتان مع بعضهما البعض في آلية انتباه النموذج. موارد "التفكير" للنموذج محدودة، وعند معالجة مهمتين عاليتي الدقة في وقت واحد، غالبًا ما يصبح جزء النص هو الضحية.

الفكرة الأساسية للطريقة ذات الخطوتين هي تقسيم المهام:

  • الخطوة الأولى تجعل النموذج يركز على توليد وتأكيد محتوى النص – في هذه المرحلة، يكون النموذج في وضع النص الخالص، وتكون دقة الإملاء عالية جدًا.
  • الخطوة الثانية تجعل النموذج يركز على عرض النص المحدد بالفعل في الصورة – محتوى النص ثابت بالفعل، ويحتاج النموذج فقط إلى حل مشكلة "كيفية الرسم".

هذا يشبه أن تطلب من رسام أن يحدد أولاً النص الذي سيكتب على الملصق (مرحلة كتابة المحتوى)، ثم يرسم الملصق (مرحلة التصميم). عندما يتم تنفيذ المرحلتين بشكل منفصل، تكون الكفاءة والدقة أعلى.

تنفيذ كود API للطريقة ذات الخطوتين

import openai

client = openai.OpenAI(
    api_key="YOUR_API_KEY",
    base_url="https://api.apiyi.com/v1"  # واجهة APIYI الموحدة
)

# ========== الخطوة الأولى: جعل النموذج يولد/يؤكد محتوى النص ==========
text_response = client.chat.completions.create(
    model="gemini-3.1-flash-image-preview",
    messages=[{
        "role": "user",
        "content": "أحتاج إلى ملصق دعائي لمقهى. الرجاء مساعدتي في توليد نص إنجليزي للملصق، بحيث يكون موجزًا وقويًا، ولا يتجاوز 20 حرفًا. قم بإخراج النص فقط، بدون أي محتوى آخر."
    }]
)

poster_text = text_response.choices[0].message.content.strip()
print(f"الخطوة الأولى - توليد المحتوى النصي: {poster_text}")
# مثال على الإخراج: "BREW YOUR PERFECT DAY"

# ========== الخطوة الثانية: استخدام النص المحدد لتوليد الصورة ==========
image_response = client.chat.completions.create(
    model="gemini-3.1-flash-image-preview",
    messages=[{
        "role": "user",
        "content": f'Generate an image: A warm-toned coffee shop promotional poster. Display the exact text "{poster_text}" in bold serif font, centered at the top. Background shows a cozy cafe interior with warm lighting.'
    }]
)

print("الخطوة الثانية - اكتمل توليد الصورة")

التفاصيل الأساسية للطريقة ذات الخطوتين

التفصيل الشرح السبب
الخطوة الأولى تستخدم وضع النص الخالص لا تطلب توليد صورة في الخطوة الأولى لجعل النموذج يركز على جودة النص
النص محاط بعلامتي اقتباس مزدوجتين في موجه الخطوة الثانية، استخدم ""..."" لإحاطة النص لإخبار النموذج بوضوح أن هذا هو المحتوى الذي يجب عرضه كما هو
الخطوة الثانية تستخدم موجهًا باللغة الإنجليزية يُنصح باستخدام موجهات باللغة الإنجليزية لتوليد الصور دقة فهم الموجهات الإنجليزية أعلى
تحديد نمط الخط أضف وصفًا مثل bold serif font لمساعدة النموذج على اختيار خط أسهل في العرض
تحديد طول النص في الخطوة الأولى، تحكم في الطول بحيث لا يتجاوز 25 حرفًا تنخفض الدقة بشكل ملحوظ إذا تجاوز النص 25 حرفًا

التقنية الأساسية الثانية: قاعدة الـ 25 حرفًا الذهبية

هذا هو القيد الصارم الأهم في عرض النصوص باستخدام Nano Banana.

دقة عرض النصوص في Nano Banana وعلاقتها بعدد الأحرف

نطاق عدد الأحرف معدل الدقة توصية
1-10 أحرف ~98% النطاق الأمثل، نادرًا ما تحدث أخطاء
11-20 حرفًا ~92% نطاق آمن، قد تحدث مشكلات بسيطة أحيانًا
21-25 حرفًا ~85% يمكن استخدامه ولكن يتطلب الفحص، وقد تحتاج إلى إعادة المحاولة
26-40 حرفًا ~60% نطاق عالي المخاطر، تحدث أخطاء بشكل متكرر
أكثر من 40 حرفًا <40% غير موصى به، وغير موثوق به بشكل أساسي

استراتيجيات التعامل مع النصوص التي تتجاوز 25 حرفًا

عندما يتجاوز نصك بالفعل 25 حرفًا، هناك 3 طرق للتعامل معه:

الاستراتيجية الأولى: تقسيم النص إلى أسطر قصيرة متعددة

# ❌ عرض نص طويل في سطر واحد
prompt = 'Generate a poster with text "ANNUAL SUMMER CLEARANCE SALE - UP TO 70% OFF ALL ITEMS"'

# ✅ تقسيم النص إلى أسطر قصيرة متعددة
prompt = '''Generate a poster with two lines of text:
Line 1 (large, bold): "SUMMER SALE 70% OFF"
Line 2 (smaller, below): "ALL ITEMS INCLUDED"'''

الاستراتيجية الثانية: الإضافة التدريجية عبر محادثات متعددة

# الجولة الأولى: توليد صورة تحتوي على العنوان الرئيسي فقط
# الجولة الثانية: إضافة عنوان فرعي بناءً على نتيجة الجولة السابقة
# الجولة الثالثة: إضافة نص توضيحي في الأسفل

الاستراتيجية الثالثة: استخدام الصور للنصوص الرئيسية، والتركيب اللاحق للنصوص الطويلة

بالنسبة للسيناريوهات التي تتطلب كمية كبيرة من النصوص (مثل الرسوم البيانية المعلوماتية)، يُنصح باستخدام Nano Banana لتوليد العناوين القصيرة والرئيسية فقط، ثم إضافة الفقرات الطويلة لاحقًا باستخدام أدوات التصميم.


التقنية الأساسية الثالثة: استخدام علامات الاقتباس المزدوجة + التحديد الصريح للخط

يساعد استخدام هاتين التقنيتين معًا على رفع دقة عرض النصوص إلى مستوى أعلى.

دور علامات الاقتباس المزدوجة

تخبر علامات الاقتباس المزدوجة النموذج بأن: المحتوى داخل علامات الاقتباس هو نص يتطلب عرضًا دقيقًا حرفًا بحرف، وليس وصفًا عامًا.

# ❌ بدون علامات اقتباس، قد يتصرف النموذج بحرية
prompt = "Generate a sign that says Welcome to Tokyo"
# قد ينتج: "WELCOME TO TOKIO" (خطأ إملائي) أو نصًا مختلفًا تمامًا

# ✅ علامات اقتباس مزدوجة، تفرض العرض حرفًا بحرف
prompt = 'Generate a sign that displays the exact text "Welcome to Tokyo"'
# الناتج: "Welcome to Tokyo" (بنسبة عالية من الدقة)

التحديد الصريح للخط

يساعد تحديد نوع الخط بوضوح النموذج على اختيار أشكال الخطوط التي يسهل عرضها:

تحديد الخط صياغة الموجه التأثير
خط سميك ذو حواف (serif) bold serif font الأكثر وضوحًا، يوصى به لعناوين الملصقات
خط بلا حواف (sans-serif) clean sans-serif font ذو طابع عصري، مناسب للمواضيع التقنية
خط يدوي handwritten script دقة النص منخفضة، استخدمه بحذر
خط أحادي المسافة (monospace) monospace font مناسب لسيناريوهات لقطات الشاشة للتعليمات البرمجية
خط معين in Helvetica style مرجع للأسلوب، لا يضمن تطابقًا تامًا

💡 نصيحة عملية: الخط السميك ذو الحواف (bold serif) هو نوع الخط الذي يتمتع بأعلى دقة في عرض النصوص. نظرًا لسمك خطوطه ووضوح هيكله، يسهل على النموذج توليده بدقة. تعد الخطوط اليدوية والزخرفية الأقل دقة، لذا تجنب استخدامها للنصوص الهامة قدر الإمكان.


المهارة الأساسية الرابعة: المعالجة الخاصة لعرض النصوص متعددة اللغات

يُظهر Nano Banana أداءً ممتازًا في عرض النصوص متعددة اللغات، ولكن استراتيجيات المعالجة تختلف باختلاف اللغات.

أداء عرض النصوص بلغات مختلفة

اللغة دقة العرض أفضل عدد أحرف ملاحظات خاصة
الإنجليزية ~94% ≤25 الأحرف الكبيرة بالكامل تعطي أفضل النتائج
الصينية ~85% ≤8 أحرف صينية المبسطة أفضل من التقليدية
اليابانية ~82% ≤10 الهيراغانا أفضل من الكانجي
الكورية ~80% ≤12 يجب تحديد اللغة الكورية بوضوح
العربية ~75% ≤8 انتبه للترتيب من اليمين إلى اليسار

قوالب الموجهات (Prompt) لعرض النصوص متعددة اللغات

# الإنجليزية — الأكثر موثوقية
prompt = 'Generate a poster with bold text "HELLO WORLD" in white serif font'

# الصينية — حدد اللغة + اجعلها قصيرة
prompt = 'Generate a poster with Chinese text "欢迎光临" in bold Chinese calligraphy style font, centered'

# اليابانية — حدد اللغة بوضوح
prompt = 'Generate a Japanese store sign with text "いらっしゃいませ" in clean sans-serif Japanese font'

# لغات مختلطة — تعامل معها سطرًا بسطر
prompt = '''Generate a bilingual poster:
Top line in English: "GRAND OPENING"
Bottom line in Chinese: "盛大开业"
Both in bold, high contrast against dark background'''

🎯 نصيحة تقنية: يُنصح باختبار ومقارنة عرض النصوص متعددة اللغات بشكل متكرر عبر منصة APIYI apiyi.com. تختلف النتائج بشكل كبير بين اللغات، والاختبار العملي أكثر موثوقية من المعايير النظرية. تدعم المنصة التبديل السريع بين نموذجي Nano Banana Pro و Nano Banana 2.


المهارة الأساسية الخامسة: قالب الموجه المنظم (ضروري للتطبيق العملي)

دمج جميع المهارات السابقة في قالب موجه موحد، لاستخدامه في سيناريوهات مختلفة.

قالب موجه Nano Banana الشامل لعرض النصوص

Generate an image:
[وصف المشهد، أقل من 100 حرف].
اعرض النص الدقيق "[النص الخاص بك، ≤25 حرفًا]" بخط [نمط الخط]،
موضعًا في [الموقع]، [وصف الحجم].
يجب أن يكون النص [اللون] بتباين عالٍ مع الخلفية.
تأكد من أن النص مقروء تمامًا ومكتوب بشكل صحيح.

أمثلة عملية لسيناريوهات مختلفة

السيناريو الأول: ملصق تجاري

prompt = '''Generate an image:
A vibrant summer sale promotional poster with tropical beach background.
Display the exact text "SUMMER SALE" in bold white serif font,
positioned at the center top, large and prominent.
Below it, display "50% OFF" in bold yellow sans-serif font.
The text should have high contrast against the background.
Ensure all text is perfectly legible and correctly spelled.'''

السيناريو الثاني: تصميم شعار

prompt = '''Generate an image:
A minimalist tech company logo on a clean white background.
Display the exact text "NEXUS" in modern bold sans-serif font,
positioned at the center, medium size.
The text should be dark navy blue (#1a1a2e).
Ensure the text is perfectly legible and correctly spelled.'''

السيناريو الثالث: صورة لمحتوى وسائل التواصل الاجتماعي

prompt = '''Generate an image:
An inspirational quote card with soft gradient background (blue to purple).
Display the exact text "START NOW" in elegant white serif font,
positioned at the center, large and prominent.
The text should be pure white with subtle drop shadow.
Ensure the text is perfectly legible and correctly spelled.'''

nano-banana-text-rendering-consistency-guide-ar 图示


التقنية الأساسية السادسة: التعديل التكراري عبر المحادثات متعددة الجولات

حتى مع استخدام التقنيات الخمس السابقة، قد لا يكون عرض النص مثاليًا. إحدى المزايا الكبرى لـ Nano Banana هي دعم تحرير المحادثات متعددة الجولات — إذا لم تكن راضيًا، يمكنك التعديل مباشرة بناءً على نتيجة الجولة السابقة.

سير عمل محادثة تصحيح النص

import openai

client = openai.OpenAI(
    api_key="YOUR_API_KEY",
    base_url="https://api.apiyi.com/v1"
)

messages = []

# الجولة الأولى: توليد الصورة الأولية
messages.append({
    "role": "user",
    "content": 'Generate an image: A coffee shop menu board with text "TODAY\'S SPECIAL" in chalk-style white font on dark background'
})

response_1 = client.chat.completions.create(
    model="gemini-3.1-flash-image-preview",
    messages=messages
)
messages.append({"role": "assistant", "content": response_1.choices[0].message.content})

# الجولة الثانية: التحقق من النص وتصحيحه
messages.append({
    "role": "user",
    "content": 'The text is slightly blurry. Please regenerate with the text "TODAY\'S SPECIAL" rendered more sharply and clearly. Make the font bolder and increase the contrast.'
})

response_2 = client.chat.completions.create(
    model="gemini-3.1-flash-image-preview",
    messages=messages
)

أوامر التصحيح الشائعة

المشكلة موجه التصحيح
النص ضبابي "اجعل النص أكثر وضوحًا وجرأة، وزد التباين"
خطأ إملائي "صحح الإملاء. يجب أن يكون النص الصحيح بالضبط '[النص الصحيح]'"
نص مفقود "النص '[النص]' مفقود. أضفه في [الموضع] بخط [الخط]"
الخط غير صحيح "غير الخط إلى خط سميك ذي حواف (serif)، مع الاحتفاظ بنفس محتوى النص"
الموضع منحرف "حرك النص إلى منتصف الصورة، واحتفظ بكل شيء آخر"
الحجم غير مناسب "اجعل النص أكبر/أصغر مع الحفاظ على قابليته للقراءة"

🚀 ابدأ بسرعة: التحرير عبر المحادثات متعددة الجولات مناسب جدًا للسيناريوهات التي تتطلب جودة عالية لتأثيرات النص. من خلال منصة APIYI apiyi.com لاستدعاء Nano Banana، تبلغ تكلفة كل جولة تحرير حوالي 0.02 دولار، ويمكن تحقيق نتائج مرضية في 3-4 جولات تكرارية.


سير عمل عرض النص الكامل لـ Nano Banana

دمج التقنيات الست في سير عمل موحد:

الخطوة الأولى: تخطيط محتوى النص

  • تحديد النص المطلوب عرضه (≤ 25 حرفًا)
  • إذا تجاوز 25 حرفًا، قسّمه إلى عدة أسطر
  • التأكد من دقة الإملاء

الخطوة الثانية: التوليد بطريقة الخطوتين

  • اطلب من النموذج أولاً تأكيد/تحسين محتوى النص
  • ثم استخدم النص المؤكد لتوليد الصورة

الخطوة الثالثة: تحسين الموجه (Prompt)

  • إحاطة النص بعلامتي اقتباس مزدوجتين
  • تحديد نمط الخط بشكل صريح
  • استخدام قالب منظم
  • إضافة قيد "Ensure text is perfectly legible" (تأكد من أن النص مقروء تمامًا)

الخطوة الرابعة: الفحص والتكرار

  • التحقق من دقة النص في النتيجة المولدة
  • إذا لم تكن راضيًا، قم بالتصحيح عبر محادثات متعددة الجولات
  • عادةً ما تكون 1-3 جولات كافية لتحقيق نتائج مرضية
عرض الكود الكامل لسير عمل عرض النص
#!/usr/bin/env python3
"""
سير عمل تحسين عرض النص في Nano Banana
التنفيذ الكامل لطريقة الخطوتين + 6 تقنيات رئيسية
"""

import openai
import base64
import re
from datetime import datetime

API_KEY = "YOUR_API_KEY"
BASE_URL = "https://api.apiyi.com/v1"

client = openai.OpenAI(api_key=API_KEY, base_url=BASE_URL)

def render_text_in_image(
    scene_description: str,
    desired_text: str,
    font_style: str = "bold serif",
    text_color: str = "white",
    text_position: str = "centered",
    model: str = "gemini-3.1-flash-image-preview",
    max_fix_rounds: int = 2
):
    """
    يستخدم طريقة الخطوتين لتوليد صور بنص دقيق

    الوسائط:
        scene_description: وصف المشهد (لا يتضمن متطلبات النص)
        desired_text: النص المطلوب عرضه (يُفضل ألا يتجاوز 25 حرفًا)
        font_style: نمط الخط
        text_color: لون النص
        text_position: موضع النص
        model: النموذج المستخدم
        max_fix_rounds: الحد الأقصى لعدد جولات التصحيح
    """
    # التحقق من طول النص
    if len(desired_text) > 25:
        print(f"⚠️ طول النص {len(desired_text)} يتجاوز 25 حرفًا، وقد تنخفض الدقة")

    # ===== الخطوة الأولى: تأكيد محتوى النص =====
    print(f"📝 الخطوة الأولى: تأكيد محتوى النص → '{desired_text}'")

    text_check = client.chat.completions.create(
        model=model,
        messages=[{
            "role": "user",
            "content": f"Please verify this text is correctly spelled and formatted: '{desired_text}'. Only reply with the verified text, nothing else."
        }]
    )
    verified_text = text_check.choices[0].message.content.strip().strip("'\"")
    print(f"✅ تم تأكيد النص: '{verified_text}'")

    # ===== الخطوة الثانية: توليد الصورة التي تحتوي على النص =====
    print(f"🎨 الخطوة الثانية: توليد الصورة...")

    image_prompt = f'''Generate an image:
{scene_description}.
Display the exact text "{verified_text}" in {font_style} font,
positioned at {text_position}, with {text_color} color.
The text should have high contrast against the background.
Ensure the text is perfectly legible and correctly spelled.'''

    messages = [{"role": "user", "content": image_prompt}]

    response = client.chat.completions.create(
        model=model,
        messages=messages
    )

    content = response.choices[0].message.content
    print(f"✅ اكتمل توليد الصورة")

    # حفظ الصورة
    save_image(content, f"text_render_{datetime.now().strftime('%H%M%S')}.png")
    return content


def save_image(content, filename):
    """ يستخرج الصورة من الاستجابة ويحفظها """
    patterns = [
        r'data:image/[^;]+;base64,([A-Za-z0-9+/=]+)',
        r'([A-Za-z0-9+/=]{1000,})'
    ]
    for pattern in patterns:
        match = re.search(pattern, content)
        if match:
            data = base64.b64decode(match.group(1))
            with open(filename, 'wb') as f:
                f.write(data)
            print(f"💾 حفظ إلى: {filename} ({len(data):,} بايت)")
            return True
    print("⚠️ لم يتم العثور على بيانات الصورة")
    return False


# ===== أمثلة الاستخدام =====
if __name__ == "__main__":
    # مثال 1: ملصق إعلاني تجاري
    render_text_in_image(
        scene_description="A vibrant promotional poster with tropical beach background, summer vibes",
        desired_text="SUMMER SALE",
        font_style="bold white serif",
        text_position="top center, large and prominent"
    )

    # مثال 2: شعار
    render_text_in_image(
        scene_description="A minimalist tech company logo on clean white background",
        desired_text="NEXUS",
        font_style="modern bold sans-serif",
        text_color="dark navy blue",
        text_position="centered"
    )

    # مثال 3: نص صيني
    render_text_in_image(
        scene_description="A traditional Chinese restaurant sign with red and gold decorations",
        desired_text="福满楼",
        font_style="bold Chinese calligraphy",
        text_color="gold",
        text_position="centered, large"
    )

مقارنة عرض النصوص بين Nano Banana Pro و Nano Banana 2

يتميز النموذجان بتركيز مختلف في عرض النصوص:

معيار المقارنة Nano Banana Pro Nano Banana 2 توصية الاختيار
دقة النص ~94% ~87% للمتطلبات التجارية، اختر Pro
الحد الأقصى الموثوق به من الأحرف ~25 ~20 Pro يوفر هامش خطأ أكبر
دعم اللغات المتعددة ممتاز ممتاز متساويان
تنوع أنماط الخطوط أكثر ثراءً كافٍ Pro يوفر المزيد من خيارات الخطوط
سرعة التوليد 10-20 ثانية 3-8 ثوانٍ للتكرار السريع، اختر Banana 2
سعر API ~0.04 دولار/مرة ~0.02 دولار/مرة إذا كانت التكلفة عاملًا حاسمًا، اختر Banana 2
القدرة على التكرار والتصحيح ممتاز ممتاز متساويان
معرف النموذج gemini-3.0-pro-image gemini-3.1-flash-image-preview يمكن استدعاؤهما معًا عبر منصة APIYI apiyi.com

نصائح لاختيار النموذج لعرض النصوص

  • للملصقات التجارية/مواد العلامة التجارية: اختر Nano Banana Pro — دقة 94% + المزيد من أنماط الخطوط
  • لصور وسائل التواصل الاجتماعي/النماذج الأولية السريعة: اختر Nano Banana 2 — سرعة عالية + قيمة ممتازة مقابل السعر
  • للسيناريوهات التي تتطلب تكرارًا متكررًا: اختر Nano Banana 2 — السرعة العالية تعني تكلفة تكرار منخفضة
  • للنصوص متعددة اللغات: الفرق بينهما ليس كبيرًا، اختر بناءً على متطلبات السرعة/التكلفة

أسئلة شائعة

س1: لماذا توصي Google رسميًا بـ “توليد النص أولاً ثم توليد الصورة”؟

هذا لأن النماذج متعددة الوسائط، عند معالجة مهمتي "توليد محتوى نصي" و "عرض النص على الصورة" في نفس الوقت، تتنافس موارد الانتباه فيما بينها، مما يؤدي إلى انخفاض دقة النص. الطريقة ذات الخطوتين، من خلال تقسيم المهام، تجعل النموذج يركز في الخطوة الأولى على صحة النص (وضع النص البحت، بدقة تقترب من 100%)، وفي الخطوة الثانية يركز على عرض النص المحدد مسبقًا داخل الصورة. هذا المبدأ يشبه عمل المصمم البشري الذي يحدد النص أولاً ثم يقوم بالتصميم. من خلال منصة APIYI apiyi.com، يعد استدعاء الطريقة ذات الخطوتين مريحًا للغاية، والتكلفة الإجمالية لاستدعاءي API لا تتجاوز 0.05 دولار.

س2: هل حد الـ 25 حرفًا صارم؟ وهل سيحدث خطأ بالتأكيد إذا تم تجاوزه؟

ليس حدًا صارمًا، بل هو نقطة تحول في الدقة. ضمن 25 حرفًا، تتراوح الدقة بين 85% و 98%، وبعد تجاوز 25 حرفًا، تنخفض الدقة بشكل ملحوظ إلى أقل من 60%. إذا كان لا بد من استخدام نص أطول، يُنصح بتقسيمه إلى عدة أسطر (كل سطر ≤15 حرفًا)، أو إضافته تدريجيًا باستخدام محادثات متعددة.

س3: كيف هو أداء عرض النصوص الصينية؟ وهل هو أسوأ بكثير من الإنجليزية؟

أداء عرض النصوص الصينية في Nano Banana أفضل بكثير من معظم المنتجات المنافسة، لكنه في الواقع أقل قليلاً من الإنجليزية. الدقة الفعلية للنصوص الصينية حوالي 85% (الإنجليزية 94%). يُنصح بالتحكم في النصوص الصينية لتكون ضمن 8 أحرف صينية، واستخدام نمط الخط العريض، وتحديد بوضوح في الموجه "Chinese text" و "Chinese calligraphy font" أو "bold Chinese font" . من خلال منصة APIYI apiyi.com، يمكنك اختبار تأثير عرض النصوص الصينية بسرعة باستخدام طرق مختلفة لكتابة الموجهات.

س4: هل ستزيد الطريقة ذات الخطوتين التكلفة كثيرًا؟

الطريقة ذات الخطوتين تتطلب بالفعل استدعاء API مرتين، لكن الخطوة الأولى هي توليد نص بحت (لا تتضمن صورًا)، وتكلفتها منخفضة جدًا (أقل من 0.001 دولار). الخطوة الثانية هي توليد الصور (0.02-0.04 دولار). لذلك، زادت التكلفة الإجمالية بأقل من 5% فقط، لكن دقة النص تحسنت بشكل ملحوظ جدًا. مع الأخذ في الاعتبار أنه بدون الطريقة ذات الخطوتين قد تحتاج إلى إعادة المحاولة 3-5 مرات للحصول على النص الصحيح، فإن الطريقة ذات الخطوتين هي في الواقع أكثر توفيرًا للمال.

س5: هل توجد طريقة خالية تمامًا من الأخطاء؟

حاليًا، لا يمكن ضمان دقة عرض النصوص بنسبة 100% في الصور التي تولدها الذكاء الاصطناعي. حتى مع استخدام جميع تقنيات التحسين، لا يزال يُنصح بإضافة خطوة فحص يدوي في سير العمل — خاصة للصور ذات الاستخدام التجاري. بالنسبة للسيناريوهات التي تتطلب دقة مطلقة (مثل لقطات الشاشة للوثائق القانونية، الشهادات الرسمية)، يُنصح باستخدام الذكاء الاصطناعي لتوليد الخلفية والتكوين، ثم إضافة الجزء النصي لاحقًا باستخدام أدوات التصميم.


الملخص

تُعد قدرة عرض النصوص في Nano Banana من المستوى الرفيع في مجال توليد الصور بالذكاء الاصطناعي (Pro 94%، Banana 2 87%)، ولكن للاستفادة من هذه القدرة بشكل مستقر، يتطلب الأمر إتقان التقنيات الصحيحة.

6 تقنيات أساسية مرتبة حسب الأهمية:

  1. طريقة الخطوتين — توليد النص أولاً ثم توليد الصورة، وهي توصية رسمية وتُظهر النتائج الأكثر وضوحًا.
  2. قاعدة الـ 25 حرفًا — التحكم في طول النص، ومعالجة النصوص الطويلة جدًا بتقسيمها.
  3. علامات الاقتباس المزدوجة + تحديد الخط — فرض عرض الحروف كلمة بكلمة + اختيار خطوط ذات دقة عالية.
  4. المعالجة الخاصة للغات المتعددة — استخدام استراتيجيات مختلفة للغات المختلفة.
  5. قالب الموجه المنظم — توحيد القوالب لزيادة الاستقرار.
  6. التصحيح عبر الحوار متعدد الجولات — التكرار والتحسين في حال عدم الرضا.

بعد إتقان هذه التقنيات، تتحول قدرة عرض النصوص في Nano Banana من مجرد "حظ" إلى قدرة يمكن التحكم بها والتنبؤ بها. نوصي بالبدء السريع في الاختبار عبر APIYI apiyi.com للعثور على مجموعة المعلمات الأنسب لسيناريو استخدامك.


المراجع

  1. المستندات الرسمية من Google – توثيق توليد الصور باستخدام Nano Banana

    • الرابط: ai.google.dev/gemini-api/docs/image-generation
    • الوصف: يتضمن التوصية الرسمية بـ "توليد النص أولاً ثم توليد الصورة".
  2. مدونة مطوري Google – نصائح للموجهات لـ Nano Banana Pro

    • الرابط: blog.google/products/gemini/prompting-tips-nano-banana-pro/
    • الوصف: تقنيات تحسين الموجهات الرسمية.
  3. مدونة مطوري Google – كيفية استخدام الموجهات لتوليد الصور بـ Gemini 2.5 Flash

    • الرابط: developers.googleblog.com/how-to-prompt-gemini-2-5-flash-image-generation-for-the-best-results/
    • الوصف: استراتيجيات تحسين توليد الصور لنماذج سلسلة Flash.

📝 المؤلف: فريق APIYI | للتواصل التقني وربط API يرجى زيارة apiyi.com

موضوعات ذات صلة