|

تطبيق عملي لهيكلة النصوص باستخدام GLM-4.7: 3 خطوات لاستخراج المعلومات الأساسية من المستندات المعقدة

ملاحظة المؤلف: تحليل عميق لقدرات هيكلة النصوص في نموذج اللغة الكبير GLM-4.7، مع إتقان المهارات العملية لاستخراج المعلومات الأساسية بتنسيق JSON من المستندات المعقدة مثل العقود والتقارير.

يُعد الاستخراج السريع للمعلومات الأساسية من كميات هائلة من النصوص غير المنظمة تحديًا جوهريًا في معالجة بيانات الشركات. أطلق معهد Zhipu AI في ديسمبر 2025 نموذج اللغة الكبير GLM-4.7، الذي يقدم حلولاً ثورية لمهام هيكلة النصوص بفضل دعمه الأصلي لـ JSON Schema ونافذة سياق ضخمة تصل إلى 200 ألف رمز (200K).

القيمة الجوهرية: بعد قراءة هذا المقال، ستتعلم كيفية استخدام GLM-4.7 لاستخراج البيانات المنظمة من المستندات المعقدة مثل العقود والتقارير، مما يحقق طفرة نوعية في كفاءة معالجة المستندات.

glm-4-7-text-structuring-guide-ar 图示


أهم النقاط الجوهرية لهيكلة النصوص في GLM-4.7

النقطة الجوهرية التوضيح القيمة
JSON Schema أصلي دعم مدمج للمخرجات المهيكلة، دون الحاجة لهندسة موجهات معقدة زيادة دقة الاستخراج بنسبة +40%
نافذة سياق 200K يدعم إدخال المستندات الطويلة بالكامل، دون الحاجة لمعالجة مجزأة معالجة عقود/تقارير كاملة في المرة الواحدة
قدرة إخراج 128K يمكنه توليد نتائج مهيكلة طويلة جداً مناسب لاستخراج المعلومات بكميات كبيرة
دعم استدعاء الدوال قدرة أصلية على استدعاء الأدوات (Tool Calling) تكامل سلس مع أنظمة الأعمال
ميزة التكلفة 0.10 دولار لكل مليون توكن، أقل بـ 4-7 مرات من النماذج المماثلة تكاليف نشر واسعة النطاق يمكن التحكم بها

شرح مفصل لنقاط هيكلة النصوص في GLM-4.7

يعد GLM-4.7 الجيل الجديد من نماذج اللغة الكبيرة الرائدة التي أطلقتها شركة Zhipu AI في 22 ديسمبر 2025. يعتمد هذا النموذج على بنية "خليط الخبراء" (MoE – Mixture-of-Experts)، بإجمالي معلمات يصل إلى 358 مليار (358B)، لكنه يحقق استدلالاً عالي الكفاءة من خلال آلية التنشيط المتناثر. وفيما يتعلق بمعالجة هيكلة النصوص، حقق GLM-4.7 قفزة نوعية مقارنة بالجيل السابق GLM-4.6، حيث ارتفع أداؤه في اختبار HLE بنسبة 38% ليصل إلى 42.8%، وهو ما يعادل أداء GPT-5.1 High.

تتجلى قدرة المخرجات المهيكلة في GLM-4.7 في ثلاثة أبعاد. أولاً: التفكير المتداخل (Interleaved Thinking)، حيث يخطط النموذج تلقائياً لمسار الاستدلال قبل كل مخرج، مما يضمن تسلسل منطق الاستخراج. ثانياً: التفكير المحفوظ (Preserved Thinking)، وهو الحفاظ على استدلال السياق عبر جولات متعددة من الحوار، مما يجعله مناسباً لمهام استخراج المعلومات التكرارية والمعقدة. وأخيراً: التحكم على مستوى الجولة (Turn-level Control)، والذي يسمح بتعديل عمق الاستدلال ديناميكياً لكل طلب، مما يوفر توازناً مرناً بين السرعة والدقة.

glm-4-7-text-structuring-guide-ar 图示


GLM-4.7 دليل سريع لهيكلة النصوص

مثال بسيط للغاية

إليك أبسط طريقة للاستخدام، حيث يمكنك إكمال استخراج النصوص المهيكلة في 10 أسطر فقط من الكود:

import openai

client = openai.OpenAI(
    api_key="YOUR_API_KEY",
    base_url="https://vip.apiyi.com/v1"
)

response = client.chat.completions.create(
    model="glm-4.7",
    messages=[{"role": "user", "content": "استخرج من العقد التالي: الطرف الأول، الطرف الثاني، المبلغ، التاريخ. محتوى العقد: الطرف الأول: شركة بكين للتكنولوجيا المحدودة، الطرف الثاني: شركة شنغهاي للابتكار التقني، مبلغ العقد: خمسمائة ألف يوان صيني فقط لا غير، تاريخ التوقيع: 15 ديسمبر 2025"}],
    response_format={"type": "json_object"}
)
print(response.choices[0].message.content)

عرض كود التنفيذ الكامل (يتضمن قيود JSON Schema)
import openai
from typing import Optional, Dict, Any

def extract_contract_info(
    contract_text: str,
    api_key: str = "YOUR_API_KEY",
    base_url: str = "https://vip.apiyi.com/v1"
) -> Dict[str, Any]:
    """
    استخدام GLM-4.7 لاستخراج معلومات مهيكلة من نص العقد

    Args:
        contract_text: نص العقد الأصلي
        api_key: مفتاح واجهة برمجة التطبيقات (API key)
        base_url: العنوان الأساسي لواجهة برمجة التطبيقات (API base URL)

    Returns:
        قاموس يحتوي على المعلومات المستخرجة
    """
    client = openai.OpenAI(api_key=api_key, base_url=base_url)

    # تعريف قيود JSON Schema لتنسيق المخرجات
    json_schema = {
        "name": "contract_extraction",
        "schema": {
            "type": "object",
            "properties": {
                "party_a": {
                    "type": "object",
                    "properties": {
                        "name": {"type": "string", "description": "اسم الطرف الأول"},
                        "representative": {"type": "string", "description": "الممثل القانوني"},
                        "address": {"type": "string", "description": "عنوان التسجيل"}
                    },
                    "required": ["name"]
                },
                "party_b": {
                    "type": "object",
                    "properties": {
                        "name": {"type": "string", "description": "اسم الطرف الثاني"},
                        "representative": {"type": "string", "description": "الممثل القانوني"},
                        "address": {"type": "string", "description": "عنوان التسجيل"}
                    },
                    "required": ["name"]
                },
                "contract_amount": {
                    "type": "object",
                    "properties": {
                        "value": {"type": "number", "description": "قيمة المبلغ عدداً"},
                        "currency": {"type": "string", "description": "وحدة العملة"},
                        "text": {"type": "string", "description": "المبلغ كتابةً"}
                    },
                    "required": ["value", "currency"]
                },
                "dates": {
                    "type": "object",
                    "properties": {
                        "sign_date": {"type": "string", "description": "تاريخ التوقيع"},
                        "effective_date": {"type": "string", "description": "تاريخ النفاذ"},
                        "expiry_date": {"type": "string", "description": "تاريخ الانتهاء"}
                    }
                },
                "key_terms": {
                    "type": "array",
                    "items": {"type": "string"},
                    "description": "ملخص البنود الرئيسية"
                }
            },
            "required": ["party_a", "party_b", "contract_amount"]
        }
    }

    response = client.chat.completions.create(
        model="glm-4.7",
        messages=[
            {
                "role": "system",
                "content": "أنت خبير محترف في تحليل العقود، يرجى استخراج المعلومات الأساسية من نص العقد بدقة."
            },
            {
                "role": "user",
                "content": f"يرجى استخراج المعلومات الأساسية من العقد التالي:\n\n{contract_text}"
            }
        ],
        response_format={
            "type": "json_schema",
            "json_schema": json_schema
        },
        max_tokens=4000
    )

    import json
    return json.loads(response.choices[0].message.content)

# مثال على الاستخدام
contract = """
عقد توريد

الطرف الأول: شركة بكين Zhipu للتكنولوجيا المحدودة
الممثل القانوني: تشانغ سان
العنوان: رقم 1، شارع تشونغ قوان تسون، حي هايديان، بكين

الطرف الثاني: مجموعة شنغهاي للابتكار التكنولوجي
الممثل القانوني: لي سي
العنوان: رقم 100، طريق تشانغجيانغ، منطقة بودونغ الجديدة، شنغهاي

مبلغ العقد: خمسمائة ألف يوان صيني فقط لا غير (500,000.00 رنمينبي)
تاريخ التوقيع: 15 ديسمبر 2025
مدة صلاحية العقد: من 15 ديسمبر 2025 إلى 14 ديسمبر 2026

البنود الرئيسية:
1. يقدم الطرف الثاني خدمات واجهة برمجة تطبيقات (API) لنماذج الذكاء الاصطناعي للطرف الأول.
2. طريقة الدفع هي الدفع المسبق ربع السنوي.
3. ضمان توفر الخدمة بنسبة 99.9%.
"""

result = extract_contract_info(contract)
print(result)

نصيحة: احصل على رصيد تجريبي مجاني عبر APIYI (apiyi.com) للتحقق بسرعة من فعالية GLM-4.7 في هيكلة النصوص. تدعم المنصة واجهة موحدة لاستدعاء مجموعة متنوعة من النماذج الرائدة، مما يسهل مقارنة دقة الاستخراج بين GLM-4.7 والنماذج الأخرى.


حالات استخدام هيكلة النصوص مع GLM-4.7

تعد قدرة GLM-4.7 على هيكلة النصوص مناسبة لمختلف سيناريوهات الشركات:

السيناريو بيانات الإدخال تنسيق المخرج تحسين الكفاءة النموذجي
استخراج معلومات العقود عقود PDF/Word بيانات JSON مهيكلة من عدة ساعات ← دقائق
تحليل البيانات المالية وثائق التقارير السنوية/الفصلية جداول المؤشرات المالية دقة تزيد عن 95%
تصفية السير الذاتية نصوص السير الذاتية ملف المرشح بتنسيق JSON كفاءة تصفية أكبر بـ 10 أضعاف
مراقبة الرأي العام محتوى الأخبار/التواصل الاجتماعي مخطط علاقات الكيانات قدرة معالجة فورية
تفسير التقارير البحثية تقارير أبحاث الصناعة استخراج وجهات النظر الرئيسية زيادة التغطية بـ 5 أضعاف

المزايا التقنية لـ GLM-4.7 في هيكلة النصوص

1. دعم JSON Schema الأصلي

بشكل مشابه لسلسلة نماذج GPT، يدعم GLM-4.7 تحديد JSON Schema مباشرة في response_format؛ حيث سيلتزم النموذج بدقة بالهيكل المحدد للمخرجات. هذا يعني أنك لست بحاجة إلى كتابة موجه معقد "لإقناع" النموذج بإخراج تنسيق معين، بل تفرض قيوداً على هيكل المخرجات بطريقة تصريحية.

2. معالجة السياق الطويل جداً

تعني نافذة السياق التي تبلغ 200 ألف رمز (tokens) أن GLM-4.7 يمكنه معالجة مستند يحتوي على حوالي 150 ألف حرف صيني دفعة واحدة، وهو ما يعادل عقداً كاملاً أو دليلاً للمواصفات الفنية. يغنيك هذا عن العمليات المعقدة المتمثلة في تقسيم المستندات الطويلة إلى أجزاء ثم دمج النتائج، مما يقلل من مخاطر فقدان المعلومات وانقطاع السياق.

3. التفكير المتداخل لتعزيز الدقة

عند التعامل مع مهام استخراج معقدة، يقوم وضع التفكير المتداخل في GLM-4.7 بإجراء استنتاجات متعددة الخطوات تلقائياً قبل إعطاء المخرج. على سبيل المثال، عند استخراج مبلغ العقد، سيقوم النموذج أولاً بتحديد الفقرات المتعلقة بالمبلغ، ثم يتحقق من مطابقة الأرقام مع المبلغ المكتوب، وأخيراً يخرج النتيجة ذات أعلى مستوى من الثقة.

اقتراح عملي: نوصي بإجراء اختبارات فعلية عبر منصة APIYI (apiyi.com) لتقييم أداء GLM-4.7 في سيناريوهات عملك المحددة. توفر المنصة رصيداً مجانياً وسجلات استدعاء مفصلة لتسهيل عملية التصحيح والتحسين.

glm-4-7-text-structuring-guide-ar 图示


مقارنة حلول هيكلة النصوص في GLM-4.7

الحل الميزات الأساسية حالات الاستخدام المناسبة الأداء
GLM-4.7 مخطط JSON أصلي، سياق 200 ألف، تكلفة منخفضة استخراج البيانات من المستندات الطويلة، المعالجة واسعة النطاق، الحساسية للتكلفة HLE 42.8%، SWE-bench 73.8%
GPT-5.1 مخرجات مستقرة، منظومة متكاملة ناضجة، سرعة استجابة عالية متطلبات الموثوقية العالية، حالات التسليم السريع HLE 42.7%، زمن الاستجابة الأفضل
Claude Sonnet 4.5 استدلال منطقي قوي، فهم عميق للسياق مهام التحليل المعقدة، استدلال متعدد الخطوات HLE 32.0%، عمق استدلال ممتاز
DeepSeek-V3 مفتوح المصدر وقابل للنشر، نسبة أداء إلى سعر عالية النشر الخاص (On-premise)، احتياجات مخصصة أداء ممتاز في الاختبارات المعيارية

الاختلافات الجوهرية بين GLM-4.7 والمنافسين

بُعد المقارنة GLM-4.7 GPT-5.1 Claude Sonnet 4.5
حالة المصدر مفتوح المصدر (Apache 2.0) مغلق المصدر مغلق المصدر
السعر (لكل مليون رمز) $0.10 ~$0.50 ~$0.40
نافذة السياق 200 ألف 128 ألف 200 ألف
الحد الأقصى للمخرجات 128 ألف 16 ألف 8 آلاف
تحسين اللغة الصينية قوي متوسط متوسط
النشر المحلي يدعم لا يدعم لا يدعم

نصائح الاختيار:

  • إذا كنت بحاجة إلى معالجة كميات كبيرة من المستندات الصينية مع اهتمام كبير بالتكلفة، فإن GLM-4.7 هو الخيار الأمثل.
  • إذا كنت تبحث عن استقرار المخرجات وسهولة التكامل مع المنظومات البرمجية، فإن GPT-5.1 أكثر نضجاً.
  • إذا كانت المهمة تتضمن استدلالاً معقداً متعدد الخطوات، فإن القدرات المنطقية لـ Claude Sonnet 4.5 هي الأقوى.

توضيح المقارنة: تستند البيانات المذكورة أعلاه إلى اختبارات معيارية عامة مثل HLE و SWE-bench، ويمكن التحقق منها ومقارنتها فعلياً عبر منصة APIYI (apiyi.com). تدعم المنصة استدعاء جميع النماذج المذكورة أعلاه عبر واجهة برمجية موحدة.


تقنيات متقدمة لهيكلة النصوص في GLM-4.7

المعالجة الجماعية للمستندات

بالنسبة لمهام هيكلة كميات كبيرة من المستندات، يمكنك الاستفادة من مخرجات التدفق (streaming) وقدرات التزامن في GLM-4.7:

import asyncio
import aiohttp

async def batch_extract(documents: list, api_key: str):
    """批量异步提取文档信息"""
    async with aiohttp.ClientSession() as session:
        tasks = [
            extract_single(session, doc, api_key)
            for doc in documents
        ]
        results = await asyncio.gather(*tasks)
    return results

التكامل مع استدعاء الوظائف (Function Calling)

تتيح قدرة GLM-4.7 على استدعاء الأدوات (Tool Calling) ربط نتائج الاستخراج مباشرة بأنظمة الأعمال:

tools = [
    {
        "type": "function",
        "function": {
            "name": "save_contract_to_database",
            "description": "将提取的合同信息保存到数据库",
            "parameters": {
                "type": "object",
                "properties": {
                    "contract_id": {"type": "string"},
                    "party_a": {"type": "string"},
                    "party_b": {"type": "string"},
                    "amount": {"type": "number"}
                },
                "required": ["contract_id", "party_a", "party_b", "amount"]
            }
        }
    }
]

الأسئلة الشائعة

س1: ما مدى دقة استخراج النصوص الهيكلية في GLM-4.7؟

في سيناريوهات مثل العقود المعيارية، والسير الذاتية، والتقارير المالية، يمكن أن تصل دقة الاستخراج باستخدام GLM-4.7 مع قيود JSON Schema إلى أكثر من 95%. بالنسبة للمستندات المعقدة، يُنصح باستخدامها بالتكامل مع آلية مراجعة بشرية. يقوم نمط التفكير المتداخل للنموذج بإجراء تحقق متعدد الخطوات تلقائيًا، مما يعزز الدقة بشكل أكبر.

س2: ما هي القيود المفروضة على GLM-4.7 عند معالجة المستندات الطويلة؟

يدعم GLM-4.7 نافذة سياق تصل إلى 200 ألف رمز (tokens)، ما يعادل حوالي 150 ألف حرف صيني. بالنسبة للمستندات الطويلة جدًا، يُنصح بتقسيمها وفقًا للفصول المنطقية، أو استخدام أدوات تقسيم المستندات الطويلة التي توفرها منصة APIYI. يبلغ الحد الأقصى للإخراج في المرة الواحدة 128 ألف رمز (tokens)، وهو ما يكفي لتغطية الغالبية العظمى من احتياجات الاستخراج الهيكلي.

س3: كيف يمكن البدء سريعًا في اختبار قدرات GLM-4.7 في استخراج النصوص الهيكلية؟

نوصي باستخدام منصة تجميع واجهات برمجة التطبيقات (API) التي تدعم نماذج متعددة لإجراء الاختبارات:

  1. قم بزيارة APIYI عبر الرابط apiyi.com وتسجيل حساب.
  2. احصل على مفتاح API ورصيد مجاني.
  3. استخدم أمثلة الأكواد البرمجية المذكورة في هذا المقال للتحقق السريع.
  4. قارن أداء النماذج المختلفة في سيناريوهات أعمالك الخاصة.

الخلاصة

النقاط الرئيسية لاستخراج النصوص الهيكلية باستخدام GLM-4.7:

  1. دعم هيكلي أصلي: إخراج مقيد بـ JSON Schema، دون الحاجة إلى هندسة موجهات معقدة.
  2. قدرة سياق فائقة الطول: نافذة 200 ألف رمز (tokens)، لمعالجة مستندات طويلة كاملة في المرة الواحدة.
  3. كفاءة عالية من حيث التكلفة: السعر يتراوح بين 1/4 إلى 1/7 فقط من النماذج المماثلة، مما يجعله مثاليًا للنشر على نطاق واسع.
  4. تحسين لسيناريوهات اللغة الصينية: فهم أكثر دقة للعقود والتقارير والمستندات الصينية لكونه نموذجًا محليًا.

بصفته النموذج الرائد من شركة Zhipu AI، أظهر GLM-4.7 قدرات تضاهي GPT-5.1 في مجال هيكلة النصوص، مع تميزه بمزايا فريدة مثل المصدر المفتوح، والتكلفة المنخفضة، والتحسين النوعي للغة الصينية. بالنسبة للمؤسسات التي لديها احتياجات كبيرة لمعالجة المستندات، يعد GLM-4.7 خيارًا يستحق التقييم الجاد.

نوصي بالتحقق من النتائج بسرعة عبر منصة APIYI (apiyi.com)، حيث توفر المنصة رصيدًا مجانيًا وواجهة موحدة لنماذج متعددة، مما يسهل إجراء اختبارات السيناريوهات الواقعية.


المراجع

⚠️ ملاحظة حول تنسيق الروابط: تُستخدم صيغة اسم المصدر: domain.com لجميع الروابط الخارجية، مما يسهل نسخها ولكنها غير قابلة للنقر، وذلك لتجنب فقدان قوة الـ SEO.

  1. وثائق GLM-4.7 الرسمية: وثائق المطورين من Zhipu AI

    • الرابط: docs.z.ai/guides/llm/glm-4.7
    • الوصف: تتضمن شرحاً كاملاً لمعاملات واجهة برمجة التطبيقات (API) وأفضل الممارسات.
  2. التحليل التقني لـ GLM-4.7: تحليل متعمق لهيكل النموذج وقدراته

    • الرابط: medium.com/@leucopsis/a-technical-analysis-of-glm-4-7-db7fcc54210a
    • الوصف: تقييم تقني من جهة خارجية، يتضمن مقارنة لبيانات الاختبارات القياسية (Benchmarks).
  3. صفحة النموذج على Hugging Face: تحميل الأوزان مفتوحة المصدر

    • الرابط: huggingface.co/zai-org/GLM-4.7
    • الوصف: توفر ملفات النموذج اللازمة للنشر المحلي ودليل التنصيب.
  4. OpenRouter GLM-4.7: وصول متعدد القنوات لـ API

    • الرابط: openrouter.ai/z-ai/glm-4.7
    • الوصف: يوفر خيارات وصول من عدة مزودين ومقارنة للأسعار.

الكاتب: الفريق التقني
التواصل التقني: نرحب بمناقشة تجاربكم في استخدام GLM-4.7 لهيكلة النصوص في قسم التعليقات، ولمزيد من المعلومات يمكنكم زيارة مجتمع APIYI apiyi.com التقني.

موضوعات ذات صلة