|

تفسير قدرة GPT-5.4 الأصلية في استخدام الكمبيوتر: اختراق كبير في وكيل الذكاء الاصطناعي ودليل OpenClaw العملي الفعال

ملاحظة المؤلف: تحليل عميق لقدرة GPT-5.4 الأصلية في استخدام الكمبيوتر، أداء OSWorld بنسبة 75.0% يتفوق على الخبراء البشريين، مع دمج إطار عمل OpenClaw AI Agent لتحقيق التشغيل الآلي الفعال

GPT-5.4 ليست مجرد ترقية للنموذج—إنها أول منتج من OpenAI يدمج قدرة استخدام الكمبيوتر بشكل أصلي في نموذج عام. هذا يعني أن الذكاء الاصطناعي لم يعد بحاجة إلى أدوات خارجية للتحكم في جهازك مباشرة: النقر على الأزرار، إدخال النص، التمرير في الصفحات، سحب الملفات، كل ذلك يتم داخل النموذج نفسه.

القيمة الأساسية: بعد قراءة هذا المقال، ستتعرف على المبادئ التقنية لقدرة GPT-5.4 في استخدام الكمبيوتر، وقدراتها العملية، وكيفية دمجها مع OpenClaw لبناء سير عمل فعال لوكيل الذكاء الاصطناعي.

gpt-5-4-computer-use-native-agent-openclaw-api-guide-ar 图示


النقاط الأساسية لقدرة GPT-5.4 في استخدام الكمبيوتر

النقطة الشرح قيمة وكيل الذكاء الاصطناعي
دمج أصلي قدرة التحكم في الكمبيوتر مدمجة مباشرة في النموذج، لا حاجة لأدوات خارجية نشر أسهل، تأخير أقل
OSWorld 75.0% أول اختبار معياري للتحكم في سطح المكتب يتفوق على الخبراء البشريين (72.4%) تنفيذ موثوق للمهام المعقدة على سطح المكتب
رؤية بدقة كاملة يدعم تحليل لقطات الشاشة بدقة تصل إلى 10.24 مليون بكسل تحديد دقيق لعناصر واجهة المستخدم
سياق 1 مليون رمز مميز 1.05 مليون رمز مميز يدعم تخطيط المهام طويلة المدى سير عمل متعدد الخطوات عبر التطبيقات
انخفاض استخدام الرموز المميزة بنسبة 47% تقنية تأخير تحميل Tool Search يقلل بشكل كبير من تكلفة تشغيل الوكيل

لماذا تعتبر قدرة GPT-5.4 في استخدام الكمبيوتر "أصلية"

عادةً ما تتطلب حلول الذكاء الاصطناعي السابقة للتحكم في الكمبيوتر "طبقة وكيل" أو "طبقة أدوات" مخصصة لترجمة نية النموذج إلى إجراءات عملية. تكمن الثورية في GPT-5.4 في أن قدرة استخدام الكمبيوتر مدمجة مباشرة في أوزان النموذج، وليست وحدة إضافية يتم لصقها لاحقًا.

هذا يجلب ثلاث مزايا أساسية:

  1. تكامل الإدراك-القرار: بعد رؤية النموذج للقطة الشاشة، ينتج مباشرة في عملية الاستدلال نفسها الإجراء المطلوب تنفيذه (إحداثيات النقر، إدخال النص، مجموعات المفاتيح)، دون الحاجة إلى ترجمة استدعاء أداة وسيطة.
  2. سلوك مستقل أكثر حزمًا: مقارنةً بـ Computer Use الخاص بـ Claude الذي يميل إلى التوقف للتأكيد، فإن GPT-5.4 أكثر استقلالية في المهام متعددة الخطوات، ويمكنه تنفيذ سلاسل عمليات معقدة بشكل متتالي.
  3. قدرة برمجة هجينة: لا يمكنه فقط التحكم في واجهة المستخدم الرسومية من خلال دورة لقطة شاشة-عملية، بل يمكنه أيضًا كتابة نصوص التشغيل الآلي مثل Playwright مباشرة، مع التبديل السلس بين التحكم البصري والتحكم البرمجي.

الأهمية العملية: لمطوري وكلاء الذكاء الاصطناعي، يعني Computer Use الأصلي في GPT-5.4 أنه يمكنك جعل الذكاء الاصطناعي يعمل مع أي برنامج كما يفعل الإنسان—بدون واجهة برمجة تطبيقات، بدون إضافات، طالما يمكنه رؤية الواجهة، يمكنه التحكم بها. من خلال دمج GPT-5.4 مع APIYI (apiyi.com)، يمكنك البدء في بناء وكيل Computer Use الخاص بك.


شرح تفصيلي للعمليات المدعومة في GPT-5.4 Computer Use

أداة Computer Use في GPT-5.4 تدعم مجموعة غنية من أنواع العمليات، تغطي جميع السيناريوهات الشائعة للتفاعل مع سطح المكتب:

نوع العملية الوصف الوظيفي المعاملات سيناريو نموذجي
click النقر بالفأرة button (يسار/وسط/يمين)، إحداثيات x، y النقر على زر، اختيار عنصر قائمة
double_click النقر المزدوج بالفأرة button، إحداثيات x، y فتح ملف، تحديد كلمة
type إدخال نص من لوحة المفاتيح text محتوى النص تعبئة نموذج، إدخال كلمة بحث
keypress عملية ضغط مفتاح معرف المفتاح (يشمل المفاتيح المركبة) اختصار Ctrl+C، تأكيد بالضغط على Enter
scroll عملية التمرير x، y، scrollX، scrollY تصفح صفحة طويلة، تكبير/تصغير الخريطة
drag عملية السحب والإفلات إحداثيات البداية والنهاية سحب ملف، تغيير حجم النافذة
screenshot التقاط لقطة للشاشة الحالية لا يوجد الحصول على أحدث حالة للواجهة
wait عملية الانتظار لا يوجد انتظار اكتمال تحميل الصفحة

دورة عمل GPT-5.4 Computer Use

جوهر Computer Use هو حلقة مغلقة من التقاط لقطة → التحليل → التنفيذ → التحقق:

  1. التقاط لقطة: يقوم الوكيل (Agent) بالتقاط الحالة الحالية للشاشة.
  2. تحليل النموذج: يفهم GPT-5.4 محتوى الواجهة ويقرر العملية التالية.
  3. تنفيذ العملية: يعود بتعليمات computer_call منظمة (يمكن تنفيذها بشكل جماعي).
  4. تحقق من النتيجة: التقاط لقطة جديدة للتأكد من نجاح العملية، وإعادة المحاولة تلقائيًا في حالة الفشل.

gpt-5-4-computer-use-native-agent-openclaw-api-guide-ar 图示

هذه البيانات القياسية توضح بوضوح المكانة الرائدة لـ GPT-5.4 في مجال التحكم بالحاسوب. خاصةً نتيجة Online-Mind2Web بنسبة 92.8%، مما يعني قدرته على التنقل عبر صفحات الويب الحقيقية المعقدة وغير المحسنة – وهو السيناريو الذي تفشل فيه العديد من الحلول التقليدية القائمة على تحليل DOM.


تحليل مقارن بين GPT-5.4 Computer Use و Claude

GPT-5.4 ليس النموذج الوحيد الذي يتمتع بقدرات Computer Use. بدأت سلسلة Claude من Anthropic في استكشاف التحكم بالحاسوب منذ Claude 3.5 Sonnet، وأصبح Claude Opus 4.6 ناضجًا جدًا. الفروق في منهجية كل منهما تستحق الاهتمام:

بُعد المقارنة GPT-5.4 Claude Opus 4.6
درجة OSWorld 75.0% 72.7%
أسلوب التحكم حاسم ومستقل، تنفيذ متواصل حذر، يتوقف للاستيضاش والتأكيد
السيناريوهات المناسبة وكلاء (Agents) مستقلة تعمل في الخلفية، مهام مجمعة مهام تحت إشراف بشري، مهام حساسة للسلامة
نافذة السياق 1,050K رمز (token) 200K (1M Beta)
النظام البيئي للتكامل Operator + Codex + ChatGPT Agent Anthropic API + MCP
تحسين الرموز (Tokens) Tool Search يقلل الاستهلاك بنسبة 47% استهلاك قياسي
التحكم البرمجي يدعم الوضع المختلط مع Playwright يعتمد بشكل أساسي على نمط التقاط لقطة-تنفيذ
SWE-Bench للترميز 77.2% 79.2%

التأثير العملي لأسلوبي التصرف في GPT-5.4 Computer Use

هذا الاختلاف حاسم لاختيار بنية الوكيل الذكي (AI Agent):

النمط "الحاسم" لـ GPT-5.4: مناسب للسيناريوهات التي تحتاج فيها الذكاء الاصطناعي إلى إكمال خطوات متعددة بشكل متواصل في الخلفية. مثل معالجة البيانات المجمعة، تعبئة النماذج تلقائيًا، تنظيم سير العمل عبر التطبيقات. لن يتوقف بشكل متكرر لانتظار تأكيدك، مما يجعله أكثر كفاءة.

النمط "الحذر" لـ Claude: مناسب للسيناريوهات التي تتضمن بيانات حساسة أو تحتاج إلى تدقيق بشري. مثل تأكيد المعاملات المالية، عمليات أنظمة الرعاية الصحية، عمليات الحذف. سيتوقف تلقائيًا عند النقاط الحرجة ليسمح لك باتخاذ قرار المتابعة.

اقتراح الاختيار: إذا كان وكيلك (Agent) بحاجة إلى استقلالية عالية وتشغيل لفترات طويلة دون إشراف، فإن GPT-5.4 هو الخيار الأفضل. إذا كانت السلامة أولوية وتحتاج إلى تعاون بين الإنسان والآلة، فإن Claude أكثر أمانًا. يمكن استدعاء كلا النموذجين من خلال واجهة موحدة عبر APIYI apiyi.com، مما يسهل التبديل بينهما حسب السيناريو.

أهمية GPT-5.4 Computer Use للوكيل الذكي (AI Agent)

يمثل إطلاق خاصية Computer Use الأصلية في GPT-5.4 نقطة تحول مهمة في مجال الوكيل الذكي (AI Agent).

لماذا يُعد GPT-5.4 تطورًا كبيرًا للوكيل الذكي

أولاً، خفض عتبة بناء الوكيل الذكي. في السابق، لجعل الذكاء الاصطناعي يتحكم بالحاسوب، كان عليك إما كتابة نصوص برمجية معقدة للأتمتة باستخدام Selenium أو Playwright، أو استخدام واجهة برمجة تطبيقات Computer Use المخصصة لدورة التقاط الشاشة-التنفيذ-التحقق. الآن، يمكن تحقيق ذلك بمكالمة واحدة لواجهة برمجة التطبيقات – حيث يرى النموذج الشاشة بنفسه، وينفذ الإجراءات بنفسه، ويُتحقق من النتائج بنفسه.

ثانيًا، تجاوز مستوى الأداء البشري لأول مرة. تحقيق نسبة 75.0% في بيئة OSWorld، متفوقًا على نسبة 72.4% للخبراء البشريين، هذه ليست بيانات معملية، بل هي تقييم لقدرة إكمال مهام معقدة في بيئة سطح مكتب حقيقية. أصبح بإمكان الوكيل الذكي (AI Agent) أخيرًا أن يحل محل الإنسان حقًا في تنفيذ عمليات سطح المكتب.

ثالثًا، انخفاض كبير في استهلاك الرموز (Tokens). تقنية Tool Search قللت من استخدام الرموز في استدعاء الأدوات بنسبة 47%، مما يعني بالنسبة للوكيل الذكي الذي يحتاج إلى استدعاء عدد كبير من الأدوات أن التكلفة تقريبًا تنخفض إلى النصف.


التطبيق العملي المشترك لـ GPT-5.4 Computer Use و OpenClaw

يُعد OpenClaw أحد أطر عمل الوكيل الذكي مفتوحة المصدر الأكثر شيوعًا حاليًا، وهو من تطوير Peter Steinberger، ويدعم التحكم بالوكيل الذكي عبر منصات المراسلة مثل WhatsApp وTelegram وSlack لتنفيذ أنواع مختلفة من المهام المؤتمتة.

مزايا دمج OpenClaw مع GPT-5.4 Computer Use

يدعم OpenClaw التبديل بين نماذج متعددة، حيث يمكنك تغيير النموذج الأساسي إلى GPT-5.4 ببساطة عبر سطر أوامر واحد:

/model openai/gpt-5.4

بدمج خاصية Computer Use الأصلية في GPT-5.4، يمكن لـ OpenClaw تحقيق سير عمل آلي أكثر كفاءة:

  • التشغيل عبر التطبيقات: تمكين الوكيل من إكمال المهام عبر تطبيقات سطح مكتب متعددة بناءً على تعليمات المراسلة.
  • أتمتة الويب: الاستفادة من قدرة 92.8% في Mind2Web للتنقل في صفحات الويب المعقدة.
  • المعالجة الدفعية في الخلفية: إرسال التعليمات للوكيل ليكملها بشكل مستقل، ثم إرسال إشعار عبر الرسالة بعد الانتهاء.
  • إدارة الملفات: تنظيم الملفات تلقائيًا، وإعادة تسمية الملفات دفعة واحدة، واستخراج البيانات.

بدء سريع مع واجهة برمجة تطبيقات GPT-5.4 Computer Use

مثال بسيط جدًا

إليك الخطوات الأساسية لاستدعاء GPT-5.4 Computer Use عبر واجهة برمجة التطبيقات:

from openai import OpenAI

client = OpenAI(
    api_key="YOUR_API_KEY",
    base_url="https://vip.apiyi.com/v1"
)

# بدء مهمة Computer Use
response = client.responses.create(
    model="gpt-5.4",
    tools=[{"type": "computer"}],
    input="افتح المتصفح، وابحث عن أحدث أخبار الذكاء الاصطناعي"
)

# معالجة أوامر العمليات المرتجعة
for action in response.output.actions:
    print(f"العملية: {action.type}, المعاملات: {action}")

عرض كود الحلقة الكامل لـ Computer Use
from openai import OpenAI
import base64
import subprocess

client = OpenAI(
    api_key="YOUR_API_KEY",
    base_url="https://vip.apiyi.com/v1"
)

def capture_screenshot():
    """التقاط لقطة للشاشة الحالية"""
    subprocess.run(["screencapture", "-x", "/tmp/screen.png"])
    with open("/tmp/screen.png", "rb") as f:
        return base64.b64encode(f.read()).decode()

def execute_action(action):
    """تنفيذ أوامر العمليات المرتجعة من النموذج"""
    if action.type == "click":
        # استخدام أدوات النظام للنقر على الإحداثيات المحددة
        print(f"النقر على الإحداثيات: ({action.x}, {action.y})")
    elif action.type == "type":
        print(f"إدخال نص: {action.text}")
    elif action.type == "keypress":
        print(f"ضغط مفتاح: {action.key}")

# الطلب الأولي
response = client.responses.create(
    model="gpt-5.4",
    tools=[{"type": "computer"}],
    input="ساعدني في إكمال المهمة المحددة"
)

# حلقة Computer Use
while response.status != "completed":
    # تنفيذ العمليات
    for action in response.output.actions:
        execute_action(action)

    # التقاط لقطة شاشة وإرسالها إلى النموذج
    screenshot = capture_screenshot()
    response = client.responses.create(
        model="gpt-5.4",
        tools=[{"type": "computer"}],
        previous_response_id=response.id,
        input=[{
            "type": "computer_call_output",
            "call_id": response.output.call_id,
            "output": {
                "type": "computer_screenshot",
                "image_url": f"data:image/png;base64,{screenshot}"
            }
        }]
    )

print("تم إكمال المهمة!")

اقتراح: احصل على مفتاح API من خلال APIYI في apiyi.com، الأسعار متزامنة مع الرسمية (2.50 دولار/مليون للمدخلات، 15.00 دولار/مليون للمخرجات)، يمكنك استدعاء جميع قدرات GPT-5.4 بما فيها Computer Use بمجرد التسجيل. احصل على 10%+ رصيد إضافي عند شحن 100 دولار أو أكثر.


سيناريوهات استخدام موصى بها لـ GPT-5.4 Computer Use

gpt-5-4-computer-use-native-agent-openclaw-api-guide-ar 图示

أفضل الممارسات لـ GPT-5.4 Computer Use

اقتراح دقة لقطة الشاشة: توصي OpenAI رسميًا بدقة سطح مكتب 1440×900 أو 1600×900، استخدم المعامل detail: "original" للحصول على تحليل لقطة شاشة بالدقة الكاملة.

معالجة العمليات على دفعات: يدعم GPT-5.4 إرجاع عمليات متعددة في استدعاء computer_call واحد، قم بتنفيذها بالتسلسل ثم تحقق عبر لقطة شاشة، لتقليل عدد استدعاءات واجهة برمجة التطبيقات.

استعادة الأخطاء: يتمتع النموذج بالقدرة على التصحيح التلقائي للأخطاء – إذا لم تحقق العملية النتيجة المتوقعة، سيتعرف على المشكلة في تحليل لقطة الشاشة التالية ويعدل الاستراتيجية.


الأسئلة الشائعة

س1: ما الفرق بين GPT-5.4 Computer Use و RPA التقليدي؟

تعتمد أدوات RPA التقليدية (مثل UiPath) على نصوص عمليات محددة مسبقًا ومحددات DOM، وتفشل عند حدوث تغييرات في الواجهة. يعتمد GPT-5.4 على الفهم البصري، فهو "يرى" الشاشة ويتفاعل معها مثل الإنسان، مما يمنحه قدرة طبيعية على التكيف مع تغييرات الواجهة. تثبت نتيجة 92.8% في اختبار Mind2Web قدرته على التعامل مع مختلف الواجهات الحقيقية المعقدة وغير المحسنة.

س2: هل يتطلب التحويل من OpenClaw إلى GPT-5.4 تغييرًا في الشفرة البرمجية؟

لا حاجة لذلك. يدعم OpenClaw التبديل السريع بين نماذج متعددة، ما عليك سوى تنفيذ الأمر /model openai/gpt-5.4. تظل منطق استدعاء API الأساسي وتنسيق المهام كما هو. إذا كان مفتاح API الخاص بك من APIYI على apiyi.com، ما عليك سوى تعيين base_url المقابل في إعدادات OpenClaw.

س3: كيف يمكن البدء بسرعة في اختبار GPT-5.4 Computer Use؟

الخطوات الموصى بها:

  1. قم بزيارة APIYI على apiyi.com للتسجيل والحصول على مفتاح API
  2. تثبيت OpenAI Python SDK: pip install openai
  3. استخدام مثال الشفرة البرمجية البسيط جدًا في هذه المقالة للتحقق السريع
  4. الرجوع إلى تطبيق المثال الرسمي من OpenAI: github.com/openai/openai-cua-sample-app

الخلاصة

النقاط الأساسية لـ GPT-5.4 Computer Use:

  1. التضمين الأصلي هو الاختراق الرئيسي: ليست إضافة خارجية، بل تكامل على مستوى أوزان النموذج، اندماج الإدراك واتخاذ القرار.
  2. OSWorld 75.0% يتفوق على البشر: أول مرة يتجاوز فيها أداء النموذج أداء الخبراء البشريين في اختبار معياري للتحكم في سطح المكتب.
  3. مصلحة نظام AI Agent البيئي: يخفض عتبة البناء، ويقلل تكاليف التشغيل (-47% Token)، ويدفع نحو التطبيق واسع النطاق للوكيل الذكي.
  4. OpenClaw جاهز للاستخدام فورًا: أمر واحد لتبديل النموذج، والحصول فورًا على تعزيز Computer Use الأصلي.

تجعل قدرة GPT-5.4 الأصلية في Computer Use من الوكيل الذكي يدخل حقًا عصر "القدرة على الرؤية والفعل". سواء كنت تبني سير عمل آلي باستخدام OpenClaw، أو تطور تطبيقات وكيل مخصصة، يُنصح بالاتصال عبر APIYI على apiyi.com — الأسعار متزامنة مع الرسمية، التسجيل واستخدام فوري، شحن 100 دولار أمريكي يبدأ مع إضافة 10%+ رصيد.

📚 المراجع

  1. إعلان إطلاق OpenAI GPT-5.4: شرح مفصل لقدرة Computer Use الأصلية في GPT-5.4

    • الرابط: openai.com/index/introducing-gpt-5-4/
    • الوصف: المدونة الرسمية للإطلاق، تتضمن بيانات القدرات الأساسية واختبارات الأداء القياسية.
  2. وثائق OpenAI Computer Use API: دليل دمج أداة Computer Use

    • الرابط: developers.openai.com/api/docs/guides/tools-computer-use/
    • الوصف: وثائق تفصيلية لدمج API، تتضمن أنواع العمليات وأمثلة على الشفرة البرمجية.
  3. تطبيق OpenAI CUA النموذجي: تنفيذ مرجعي لوكيل Computer Use

    • الرابط: github.com/openai/openai-cua-sample-app
    • الوصف: نموذج الشفرة البرمجية لوكيل Computer Use المقدم من OpenAI.
  4. مشروع OpenClaw: إطار عمل مفتوح المصدر لوكيل الذكاء الاصطناعي

    • الرابط: github.com/openclaw/openclaw
    • الوصف: إطار عمل لوكيل ذكي مستقل يدعم نماذج متعددة، يمكن التحكم به عبر منصات المراسلة.

المؤلف: فريق APIYI التقني
التواصل التقني: نرحب بالنقاش في قسم التعليقات حول GPT-5.4 Computer Use وتطوير وكلاء الذكاء الاصطناعي. للمزيد من الموارد، يمكنك زيارة مركز الوثائق الخاص بـ APIYI على docs.apiyi.com

موضوعات ذات صلة