ملاحظة المؤلف: تحليل عميق لقدرة GPT-5.4 الأصلية في استخدام الكمبيوتر، أداء OSWorld بنسبة 75.0% يتفوق على الخبراء البشريين، مع دمج إطار عمل OpenClaw AI Agent لتحقيق التشغيل الآلي الفعال
GPT-5.4 ليست مجرد ترقية للنموذج—إنها أول منتج من OpenAI يدمج قدرة استخدام الكمبيوتر بشكل أصلي في نموذج عام. هذا يعني أن الذكاء الاصطناعي لم يعد بحاجة إلى أدوات خارجية للتحكم في جهازك مباشرة: النقر على الأزرار، إدخال النص، التمرير في الصفحات، سحب الملفات، كل ذلك يتم داخل النموذج نفسه.
القيمة الأساسية: بعد قراءة هذا المقال، ستتعرف على المبادئ التقنية لقدرة GPT-5.4 في استخدام الكمبيوتر، وقدراتها العملية، وكيفية دمجها مع OpenClaw لبناء سير عمل فعال لوكيل الذكاء الاصطناعي.

النقاط الأساسية لقدرة GPT-5.4 في استخدام الكمبيوتر
| النقطة | الشرح | قيمة وكيل الذكاء الاصطناعي |
|---|---|---|
| دمج أصلي | قدرة التحكم في الكمبيوتر مدمجة مباشرة في النموذج، لا حاجة لأدوات خارجية | نشر أسهل، تأخير أقل |
| OSWorld 75.0% | أول اختبار معياري للتحكم في سطح المكتب يتفوق على الخبراء البشريين (72.4%) | تنفيذ موثوق للمهام المعقدة على سطح المكتب |
| رؤية بدقة كاملة | يدعم تحليل لقطات الشاشة بدقة تصل إلى 10.24 مليون بكسل | تحديد دقيق لعناصر واجهة المستخدم |
| سياق 1 مليون رمز مميز | 1.05 مليون رمز مميز يدعم تخطيط المهام طويلة المدى | سير عمل متعدد الخطوات عبر التطبيقات |
| انخفاض استخدام الرموز المميزة بنسبة 47% | تقنية تأخير تحميل Tool Search | يقلل بشكل كبير من تكلفة تشغيل الوكيل |
لماذا تعتبر قدرة GPT-5.4 في استخدام الكمبيوتر "أصلية"
عادةً ما تتطلب حلول الذكاء الاصطناعي السابقة للتحكم في الكمبيوتر "طبقة وكيل" أو "طبقة أدوات" مخصصة لترجمة نية النموذج إلى إجراءات عملية. تكمن الثورية في GPT-5.4 في أن قدرة استخدام الكمبيوتر مدمجة مباشرة في أوزان النموذج، وليست وحدة إضافية يتم لصقها لاحقًا.
هذا يجلب ثلاث مزايا أساسية:
- تكامل الإدراك-القرار: بعد رؤية النموذج للقطة الشاشة، ينتج مباشرة في عملية الاستدلال نفسها الإجراء المطلوب تنفيذه (إحداثيات النقر، إدخال النص، مجموعات المفاتيح)، دون الحاجة إلى ترجمة استدعاء أداة وسيطة.
- سلوك مستقل أكثر حزمًا: مقارنةً بـ Computer Use الخاص بـ Claude الذي يميل إلى التوقف للتأكيد، فإن GPT-5.4 أكثر استقلالية في المهام متعددة الخطوات، ويمكنه تنفيذ سلاسل عمليات معقدة بشكل متتالي.
- قدرة برمجة هجينة: لا يمكنه فقط التحكم في واجهة المستخدم الرسومية من خلال دورة لقطة شاشة-عملية، بل يمكنه أيضًا كتابة نصوص التشغيل الآلي مثل Playwright مباشرة، مع التبديل السلس بين التحكم البصري والتحكم البرمجي.
الأهمية العملية: لمطوري وكلاء الذكاء الاصطناعي، يعني Computer Use الأصلي في GPT-5.4 أنه يمكنك جعل الذكاء الاصطناعي يعمل مع أي برنامج كما يفعل الإنسان—بدون واجهة برمجة تطبيقات، بدون إضافات، طالما يمكنه رؤية الواجهة، يمكنه التحكم بها. من خلال دمج GPT-5.4 مع APIYI (apiyi.com)، يمكنك البدء في بناء وكيل Computer Use الخاص بك.
شرح تفصيلي للعمليات المدعومة في GPT-5.4 Computer Use
أداة Computer Use في GPT-5.4 تدعم مجموعة غنية من أنواع العمليات، تغطي جميع السيناريوهات الشائعة للتفاعل مع سطح المكتب:
| نوع العملية | الوصف الوظيفي | المعاملات | سيناريو نموذجي |
|---|---|---|---|
| click | النقر بالفأرة | button (يسار/وسط/يمين)، إحداثيات x، y | النقر على زر، اختيار عنصر قائمة |
| double_click | النقر المزدوج بالفأرة | button، إحداثيات x، y | فتح ملف، تحديد كلمة |
| type | إدخال نص من لوحة المفاتيح | text محتوى النص | تعبئة نموذج، إدخال كلمة بحث |
| keypress | عملية ضغط مفتاح | معرف المفتاح (يشمل المفاتيح المركبة) | اختصار Ctrl+C، تأكيد بالضغط على Enter |
| scroll | عملية التمرير | x، y، scrollX، scrollY | تصفح صفحة طويلة، تكبير/تصغير الخريطة |
| drag | عملية السحب والإفلات | إحداثيات البداية والنهاية | سحب ملف، تغيير حجم النافذة |
| screenshot | التقاط لقطة للشاشة الحالية | لا يوجد | الحصول على أحدث حالة للواجهة |
| wait | عملية الانتظار | لا يوجد | انتظار اكتمال تحميل الصفحة |
دورة عمل GPT-5.4 Computer Use
جوهر Computer Use هو حلقة مغلقة من التقاط لقطة → التحليل → التنفيذ → التحقق:
- التقاط لقطة: يقوم الوكيل (Agent) بالتقاط الحالة الحالية للشاشة.
- تحليل النموذج: يفهم GPT-5.4 محتوى الواجهة ويقرر العملية التالية.
- تنفيذ العملية: يعود بتعليمات
computer_callمنظمة (يمكن تنفيذها بشكل جماعي). - تحقق من النتيجة: التقاط لقطة جديدة للتأكد من نجاح العملية، وإعادة المحاولة تلقائيًا في حالة الفشل.

هذه البيانات القياسية توضح بوضوح المكانة الرائدة لـ GPT-5.4 في مجال التحكم بالحاسوب. خاصةً نتيجة Online-Mind2Web بنسبة 92.8%، مما يعني قدرته على التنقل عبر صفحات الويب الحقيقية المعقدة وغير المحسنة – وهو السيناريو الذي تفشل فيه العديد من الحلول التقليدية القائمة على تحليل DOM.
تحليل مقارن بين GPT-5.4 Computer Use و Claude
GPT-5.4 ليس النموذج الوحيد الذي يتمتع بقدرات Computer Use. بدأت سلسلة Claude من Anthropic في استكشاف التحكم بالحاسوب منذ Claude 3.5 Sonnet، وأصبح Claude Opus 4.6 ناضجًا جدًا. الفروق في منهجية كل منهما تستحق الاهتمام:
| بُعد المقارنة | GPT-5.4 | Claude Opus 4.6 |
|---|---|---|
| درجة OSWorld | 75.0% ⭐ | 72.7% |
| أسلوب التحكم | حاسم ومستقل، تنفيذ متواصل | حذر، يتوقف للاستيضاش والتأكيد |
| السيناريوهات المناسبة | وكلاء (Agents) مستقلة تعمل في الخلفية، مهام مجمعة | مهام تحت إشراف بشري، مهام حساسة للسلامة |
| نافذة السياق | 1,050K رمز (token) | 200K (1M Beta) |
| النظام البيئي للتكامل | Operator + Codex + ChatGPT Agent | Anthropic API + MCP |
| تحسين الرموز (Tokens) | Tool Search يقلل الاستهلاك بنسبة 47% | استهلاك قياسي |
| التحكم البرمجي | يدعم الوضع المختلط مع Playwright | يعتمد بشكل أساسي على نمط التقاط لقطة-تنفيذ |
| SWE-Bench للترميز | 77.2% | 79.2% ⭐ |
التأثير العملي لأسلوبي التصرف في GPT-5.4 Computer Use
هذا الاختلاف حاسم لاختيار بنية الوكيل الذكي (AI Agent):
النمط "الحاسم" لـ GPT-5.4: مناسب للسيناريوهات التي تحتاج فيها الذكاء الاصطناعي إلى إكمال خطوات متعددة بشكل متواصل في الخلفية. مثل معالجة البيانات المجمعة، تعبئة النماذج تلقائيًا، تنظيم سير العمل عبر التطبيقات. لن يتوقف بشكل متكرر لانتظار تأكيدك، مما يجعله أكثر كفاءة.
النمط "الحذر" لـ Claude: مناسب للسيناريوهات التي تتضمن بيانات حساسة أو تحتاج إلى تدقيق بشري. مثل تأكيد المعاملات المالية، عمليات أنظمة الرعاية الصحية، عمليات الحذف. سيتوقف تلقائيًا عند النقاط الحرجة ليسمح لك باتخاذ قرار المتابعة.
اقتراح الاختيار: إذا كان وكيلك (Agent) بحاجة إلى استقلالية عالية وتشغيل لفترات طويلة دون إشراف، فإن GPT-5.4 هو الخيار الأفضل. إذا كانت السلامة أولوية وتحتاج إلى تعاون بين الإنسان والآلة، فإن Claude أكثر أمانًا. يمكن استدعاء كلا النموذجين من خلال واجهة موحدة عبر APIYI apiyi.com، مما يسهل التبديل بينهما حسب السيناريو.
أهمية GPT-5.4 Computer Use للوكيل الذكي (AI Agent)
يمثل إطلاق خاصية Computer Use الأصلية في GPT-5.4 نقطة تحول مهمة في مجال الوكيل الذكي (AI Agent).
لماذا يُعد GPT-5.4 تطورًا كبيرًا للوكيل الذكي
أولاً، خفض عتبة بناء الوكيل الذكي. في السابق، لجعل الذكاء الاصطناعي يتحكم بالحاسوب، كان عليك إما كتابة نصوص برمجية معقدة للأتمتة باستخدام Selenium أو Playwright، أو استخدام واجهة برمجة تطبيقات Computer Use المخصصة لدورة التقاط الشاشة-التنفيذ-التحقق. الآن، يمكن تحقيق ذلك بمكالمة واحدة لواجهة برمجة التطبيقات – حيث يرى النموذج الشاشة بنفسه، وينفذ الإجراءات بنفسه، ويُتحقق من النتائج بنفسه.
ثانيًا، تجاوز مستوى الأداء البشري لأول مرة. تحقيق نسبة 75.0% في بيئة OSWorld، متفوقًا على نسبة 72.4% للخبراء البشريين، هذه ليست بيانات معملية، بل هي تقييم لقدرة إكمال مهام معقدة في بيئة سطح مكتب حقيقية. أصبح بإمكان الوكيل الذكي (AI Agent) أخيرًا أن يحل محل الإنسان حقًا في تنفيذ عمليات سطح المكتب.
ثالثًا، انخفاض كبير في استهلاك الرموز (Tokens). تقنية Tool Search قللت من استخدام الرموز في استدعاء الأدوات بنسبة 47%، مما يعني بالنسبة للوكيل الذكي الذي يحتاج إلى استدعاء عدد كبير من الأدوات أن التكلفة تقريبًا تنخفض إلى النصف.
التطبيق العملي المشترك لـ GPT-5.4 Computer Use و OpenClaw
يُعد OpenClaw أحد أطر عمل الوكيل الذكي مفتوحة المصدر الأكثر شيوعًا حاليًا، وهو من تطوير Peter Steinberger، ويدعم التحكم بالوكيل الذكي عبر منصات المراسلة مثل WhatsApp وTelegram وSlack لتنفيذ أنواع مختلفة من المهام المؤتمتة.
مزايا دمج OpenClaw مع GPT-5.4 Computer Use
يدعم OpenClaw التبديل بين نماذج متعددة، حيث يمكنك تغيير النموذج الأساسي إلى GPT-5.4 ببساطة عبر سطر أوامر واحد:
/model openai/gpt-5.4
بدمج خاصية Computer Use الأصلية في GPT-5.4، يمكن لـ OpenClaw تحقيق سير عمل آلي أكثر كفاءة:
- التشغيل عبر التطبيقات: تمكين الوكيل من إكمال المهام عبر تطبيقات سطح مكتب متعددة بناءً على تعليمات المراسلة.
- أتمتة الويب: الاستفادة من قدرة 92.8% في Mind2Web للتنقل في صفحات الويب المعقدة.
- المعالجة الدفعية في الخلفية: إرسال التعليمات للوكيل ليكملها بشكل مستقل، ثم إرسال إشعار عبر الرسالة بعد الانتهاء.
- إدارة الملفات: تنظيم الملفات تلقائيًا، وإعادة تسمية الملفات دفعة واحدة، واستخراج البيانات.
بدء سريع مع واجهة برمجة تطبيقات GPT-5.4 Computer Use
مثال بسيط جدًا
إليك الخطوات الأساسية لاستدعاء GPT-5.4 Computer Use عبر واجهة برمجة التطبيقات:
from openai import OpenAI
client = OpenAI(
api_key="YOUR_API_KEY",
base_url="https://vip.apiyi.com/v1"
)
# بدء مهمة Computer Use
response = client.responses.create(
model="gpt-5.4",
tools=[{"type": "computer"}],
input="افتح المتصفح، وابحث عن أحدث أخبار الذكاء الاصطناعي"
)
# معالجة أوامر العمليات المرتجعة
for action in response.output.actions:
print(f"العملية: {action.type}, المعاملات: {action}")
عرض كود الحلقة الكامل لـ Computer Use
from openai import OpenAI
import base64
import subprocess
client = OpenAI(
api_key="YOUR_API_KEY",
base_url="https://vip.apiyi.com/v1"
)
def capture_screenshot():
"""التقاط لقطة للشاشة الحالية"""
subprocess.run(["screencapture", "-x", "/tmp/screen.png"])
with open("/tmp/screen.png", "rb") as f:
return base64.b64encode(f.read()).decode()
def execute_action(action):
"""تنفيذ أوامر العمليات المرتجعة من النموذج"""
if action.type == "click":
# استخدام أدوات النظام للنقر على الإحداثيات المحددة
print(f"النقر على الإحداثيات: ({action.x}, {action.y})")
elif action.type == "type":
print(f"إدخال نص: {action.text}")
elif action.type == "keypress":
print(f"ضغط مفتاح: {action.key}")
# الطلب الأولي
response = client.responses.create(
model="gpt-5.4",
tools=[{"type": "computer"}],
input="ساعدني في إكمال المهمة المحددة"
)
# حلقة Computer Use
while response.status != "completed":
# تنفيذ العمليات
for action in response.output.actions:
execute_action(action)
# التقاط لقطة شاشة وإرسالها إلى النموذج
screenshot = capture_screenshot()
response = client.responses.create(
model="gpt-5.4",
tools=[{"type": "computer"}],
previous_response_id=response.id,
input=[{
"type": "computer_call_output",
"call_id": response.output.call_id,
"output": {
"type": "computer_screenshot",
"image_url": f"data:image/png;base64,{screenshot}"
}
}]
)
print("تم إكمال المهمة!")
اقتراح: احصل على مفتاح API من خلال APIYI في apiyi.com، الأسعار متزامنة مع الرسمية (2.50 دولار/مليون للمدخلات، 15.00 دولار/مليون للمخرجات)، يمكنك استدعاء جميع قدرات GPT-5.4 بما فيها Computer Use بمجرد التسجيل. احصل على 10%+ رصيد إضافي عند شحن 100 دولار أو أكثر.
سيناريوهات استخدام موصى بها لـ GPT-5.4 Computer Use

أفضل الممارسات لـ GPT-5.4 Computer Use
اقتراح دقة لقطة الشاشة: توصي OpenAI رسميًا بدقة سطح مكتب 1440×900 أو 1600×900، استخدم المعامل detail: "original" للحصول على تحليل لقطة شاشة بالدقة الكاملة.
معالجة العمليات على دفعات: يدعم GPT-5.4 إرجاع عمليات متعددة في استدعاء computer_call واحد، قم بتنفيذها بالتسلسل ثم تحقق عبر لقطة شاشة، لتقليل عدد استدعاءات واجهة برمجة التطبيقات.
استعادة الأخطاء: يتمتع النموذج بالقدرة على التصحيح التلقائي للأخطاء – إذا لم تحقق العملية النتيجة المتوقعة، سيتعرف على المشكلة في تحليل لقطة الشاشة التالية ويعدل الاستراتيجية.
الأسئلة الشائعة
س1: ما الفرق بين GPT-5.4 Computer Use و RPA التقليدي؟
تعتمد أدوات RPA التقليدية (مثل UiPath) على نصوص عمليات محددة مسبقًا ومحددات DOM، وتفشل عند حدوث تغييرات في الواجهة. يعتمد GPT-5.4 على الفهم البصري، فهو "يرى" الشاشة ويتفاعل معها مثل الإنسان، مما يمنحه قدرة طبيعية على التكيف مع تغييرات الواجهة. تثبت نتيجة 92.8% في اختبار Mind2Web قدرته على التعامل مع مختلف الواجهات الحقيقية المعقدة وغير المحسنة.
س2: هل يتطلب التحويل من OpenClaw إلى GPT-5.4 تغييرًا في الشفرة البرمجية؟
لا حاجة لذلك. يدعم OpenClaw التبديل السريع بين نماذج متعددة، ما عليك سوى تنفيذ الأمر /model openai/gpt-5.4. تظل منطق استدعاء API الأساسي وتنسيق المهام كما هو. إذا كان مفتاح API الخاص بك من APIYI على apiyi.com، ما عليك سوى تعيين base_url المقابل في إعدادات OpenClaw.
س3: كيف يمكن البدء بسرعة في اختبار GPT-5.4 Computer Use؟
الخطوات الموصى بها:
- قم بزيارة APIYI على apiyi.com للتسجيل والحصول على مفتاح API
- تثبيت OpenAI Python SDK:
pip install openai - استخدام مثال الشفرة البرمجية البسيط جدًا في هذه المقالة للتحقق السريع
- الرجوع إلى تطبيق المثال الرسمي من OpenAI:
github.com/openai/openai-cua-sample-app
الخلاصة
النقاط الأساسية لـ GPT-5.4 Computer Use:
- التضمين الأصلي هو الاختراق الرئيسي: ليست إضافة خارجية، بل تكامل على مستوى أوزان النموذج، اندماج الإدراك واتخاذ القرار.
- OSWorld 75.0% يتفوق على البشر: أول مرة يتجاوز فيها أداء النموذج أداء الخبراء البشريين في اختبار معياري للتحكم في سطح المكتب.
- مصلحة نظام AI Agent البيئي: يخفض عتبة البناء، ويقلل تكاليف التشغيل (-47% Token)، ويدفع نحو التطبيق واسع النطاق للوكيل الذكي.
- OpenClaw جاهز للاستخدام فورًا: أمر واحد لتبديل النموذج، والحصول فورًا على تعزيز Computer Use الأصلي.
تجعل قدرة GPT-5.4 الأصلية في Computer Use من الوكيل الذكي يدخل حقًا عصر "القدرة على الرؤية والفعل". سواء كنت تبني سير عمل آلي باستخدام OpenClaw، أو تطور تطبيقات وكيل مخصصة، يُنصح بالاتصال عبر APIYI على apiyi.com — الأسعار متزامنة مع الرسمية، التسجيل واستخدام فوري، شحن 100 دولار أمريكي يبدأ مع إضافة 10%+ رصيد.
📚 المراجع
-
إعلان إطلاق OpenAI GPT-5.4: شرح مفصل لقدرة Computer Use الأصلية في GPT-5.4
- الرابط:
openai.com/index/introducing-gpt-5-4/ - الوصف: المدونة الرسمية للإطلاق، تتضمن بيانات القدرات الأساسية واختبارات الأداء القياسية.
- الرابط:
-
وثائق OpenAI Computer Use API: دليل دمج أداة Computer Use
- الرابط:
developers.openai.com/api/docs/guides/tools-computer-use/ - الوصف: وثائق تفصيلية لدمج API، تتضمن أنواع العمليات وأمثلة على الشفرة البرمجية.
- الرابط:
-
تطبيق OpenAI CUA النموذجي: تنفيذ مرجعي لوكيل Computer Use
- الرابط:
github.com/openai/openai-cua-sample-app - الوصف: نموذج الشفرة البرمجية لوكيل Computer Use المقدم من OpenAI.
- الرابط:
-
مشروع OpenClaw: إطار عمل مفتوح المصدر لوكيل الذكاء الاصطناعي
- الرابط:
github.com/openclaw/openclaw - الوصف: إطار عمل لوكيل ذكي مستقل يدعم نماذج متعددة، يمكن التحكم به عبر منصات المراسلة.
- الرابط:
المؤلف: فريق APIYI التقني
التواصل التقني: نرحب بالنقاش في قسم التعليقات حول GPT-5.4 Computer Use وتطوير وكلاء الذكاء الاصطناعي. للمزيد من الموارد، يمكنك زيارة مركز الوثائق الخاص بـ APIYI على docs.apiyi.com
