ورقة بيضاء جيس-30ب
ملخص تنفيذي
يبني الإصدار الثالث من نظام جيس (Jais 30b V3) على النجاح السابق لعائلة جيس، مما يعزز مكانتها كأداة مفتوحة المصدر رائدة في العالم للغة العربية تحافظ على أداء مشابه في اللغة الإنجليزية مقارنة بنماذج المصدر المفتوح الأخرى المشابهة لها من حيث الحجم، رغم استخدامها لمجموعة بيانات تدريبية أصغر للغة الإنجليزية. هذه النسخة الجديدة تدل على التزامنا المستمر في رفع اللغة العربية إلى مقدمة البحث والتطوير في مجال الذكاء الصناعي التوليدي
يستخدم نموذج “JAIS 30B” الذي يحتوي على 30 مليار معلمة مجموعة بيانات ضخمة تتألف من 1.63 تريليون رمز. هذا النموذج، مثل سابقيه، يمثل جهداً تعاونياً بين إنسبشن وجامعة محمد بن زايد للذكاء الاصطناعي (MBZUAI) وسيريباس. تم استخدام عملية التدريب في المجرة كوندور جالكسي ١ (سي جي -١)، وهي حاسوب فائق الذكاء الاصطناعي بقوة أربعة إكسافلوبس تم تطويره بالتعاون مع شركة “جي فورتي تو” و “سيريباس”. تشمل بيانات التدريب اللغة العربية والإنجليزية والرمز، مما يعكس قدرات النموذج متعددة اللغات.
يتجاوز جيس 30 ب V3 جميع نماذج اللغة متعددة اللغات مفتوحة المصدر المعروفة في مهام لغة العربية. مقارنة بالنموذج السابق، يظهر جيس 30ب فـ ٣ قفزة كبيرة في الأداء عبر مختلف المهام العربية النهائية من الجدير بالذكر، على الرغم من استخدام مجموعة بيانات إنجليزية أصغر حجماً، إلا أن أداء اللغة الإنجليزية لـJAIS 30B v3 يضاهي النماذج مثل LLaMA 2. هذا يبرز دور جيس الرائد في تطوير الماجستير متعدد اللغات و مساهمتها المستمرة في تقدم المجال
مقدمة
النماذج اللغوية الكبيرة (LLM)، المدربة على بيانات ضخمة، تحدث ثورة في التكنولوجيا من خلال فهم التعليمات المعقدة وتسهيل حل المشكلات وربما تعميم التعلم للجميع. هذا التقدم مهم بشكل خاص للحفاظ على اللغة العربية المركزية. برامج الماجستير في القانون المركزة على اللغة العربية ضرورية لسد الفجوة الرقمية والاستفادة من ثراء وتنوع اللغة العربية.
بناءً على عائلة نماذج جيس، التي تم تصميمها بعناية لتضمّن الدقائق الثقافية واللغوية للغة العربية من خلال مجموعة بيانات مصممة خصيصًا لهذا الغرض، نقدم نموذجين جديدين: جيس الذي يحتوي على 30 مليار معلمة، وجيس شات المصمم خصيصًا لتحسين تفاعل الدردشة الآلية.
تم تدريب هذه النماذج على الحاسوب الفائق للذكاء الاصطناعي كوندور جالاكسي ١ (سي جي -١) الذي طورته شركة “جي فورتي تو” و”سيريباس سيستمز”، وتسعى للتغلب على القيود المتعلقة بالبيانات وسد الفجوة في الوصول إلى التكنولوجيا، مع السعي نحو تحقيق عالم يعزز فيه التقدم التكنولوجي التواصل والتفاهم بين الناس.
هذا التقرير الأبيض يذكر بإيجاز الإصدارات السابقة من 30B، لكنه يؤكد على التطورات والتحديات التي تواجه النسخة الأكبر من 30B V3.
نظرة عامة على النموذج
تعتمد نماذج جيس على هندسة جي بي تي – 3 . تم بناء جيس بهدف تعزيز قدرات اللغة العربية مع تضمين النص والرمز الإنجليزي. تم تدريبها على بيانات ثنائية اللغة وكود، يمكن لـ JAIS التعامل مع المحتوى المختلط بالرمز حيث يتداخل العربية والإنجليزية في نفس السياق أو الجملة. كما يتيح هذا النموذج القدرة على التفكير عبر اللغات والاستفادة من المعرفة المستقاة من المصادر الإنجليزية والعربية على حد سواء.
على عكس النماذج السابقة متعددة اللغات بشكل كبير، مثل بلوم أو ام تي زيرو، التي تحتوي على أكثر من خمسين لغة، نحن لا ندرج أي لغات غير العربية والإنجليزية بأي نسبة كبيرة. نحن لا نهمش اللغة العربية في مجموعة البيانات قبل التدريب أيضاً. بل، تشكل البيانات العربية حوالي %33 من التدريب المسبق في جميع نماذج جيس هذا الاختيار من خلط لغتين يحقق أفضل ما في العالمين. إن اللغة العربية لدى الـ (LLM) ذات طلاقة عالية، مع القدرة اللغوية بالإضافة إلى الوعي الثقافي والحساسية، في حين أنها على قدم المساواة من حيث قدرة الاستدلال والمعرفة العالمية التي تم ملاحظتها مؤخراً في الـ (LLM) الناطق بالإنجليزية والناطقة بالرمز.
بناءً على التقدم الذي تحقق في هندسة النماذج والإجراءات التدريبية، كما وصفناه في ورقتنا البيضاء السابقة، نواصل تحسين نماذج جيس كما هو موضح في الإصدار السابق من الورقة البيضاء.
هندسة النموذج:
بناءً على المعماريات المعتمدة، كما هو مفصل في إصدارنا السابق، فإن هندسة النموذج هي تصميم محول سببي فقط مشابه لنماذج المحادثة الرائدة مثل كلود و شات جي بي تي وبارد. تم تدريب النماذج باستخدام مهمة التنبؤ بالكلمة التالية القياسية على مزيج من مجموعات البيانات العربية والإنجليزية. يلخص الجدول ١ هندسة النماذج وشكلها.
عدد طبقات فك التشفير
انتباه الرؤوس
أبعاد النموذج
الحد الأقصى لطول السياق
الجدول ١: نماذج جيس للهندسة والشكل
توكينيزر:
عائلة نماذج جيس تستغل قاموس متعدد اللغات مخصص يحتوي على ٨٤،٩٩٢ رمز فريد، وتعطي وزناً متساوياً للعربية والإنجليزية. هذه المفردات تسهل عملية الترميز بكفاءة، وتؤثر على تكاليف تدريب النموذج والاستدلال به.
النموذج
حجم المفردات
العربية رموز / كلمة (متوسط)
الرموز العربية / الكلمات (المتوسط)
جدول ٢ : الرموز / كلمة من مختلف رموز في اللغة الإنجليزية والعربية
التضمينات الموضعية:
نستخدم ترميزات الموضع من نوع ALiBi، مستوحاة من عائلة نماذج LLaMA. يقوم علي بي بترميز موضع كلمة بالنسبة للكلمات الأخرى في السياق، وبالتالي يمكن استخدام النموذج مع تسلسلات نصية أطول من أي وقت مضى أثناء التدريب. هذا يتيح التدريب أن يكون أسرع وأقل كثافة للذاكرة، في حين فتح قوة سياقات أكبر خلال الاستدلال.
يستخدم JAIS ترميز الموقع من Alibi، كما هو مفصل في ورقتنا البيضاء السابقة، لتوسيع نافذة السياق بشكل فعال خارج النافذة التدريبية القياسية. تتيح هذه القدرة للنموذج فهم وتوليد النص مع الأخذ في الاعتبار تسلسلات معلومات أطول. مثل الإصدارات السابقة، تم تدريب النسخة الثالثة من جيس 30 بي مسبقًا وضبطها بدقة مع طول سياق يبلغ 8192 رمزًا. الأساس الذي وضعته التطورات السابقة يستمر في تمكين النموذج للتعامل مع سياقات أطول.
تفعيل سويج لو:
تلعب دوال التنشيط دوراً محورياً في النماذج اللغوية الكبيرة (LLM)، مما يسمح للنموذج بفهم الأنماط اللغوية المعقدة للحصول على فهم دقيق للغة. نستخدم دوال تنشيط SwiGLU، كما في عائلة نموذج LLaMA.
الحد الأقصى لتحديث المعلمة:
بناءً على فوائد الكفاءة الحسابية لـ Maximum Update Parameterization (muP)، كما هو مفصل في ورقتنا البيضاء السابقة، تستفيد نماذج JAIS من هذه التقنية لضبط المعلمات الفائقة بكفاءة عبر أحجام النماذج المختلفة.
مرحلة ما قبل التدريب
بناءً على التركيز العربي في نماذج جيس السابقة، يُعطي الإصدار الثالث الأولوية لإتقان اللغة العربية. يتم تحقيق هذا من خلال زيادة كبيرة في بيانات التدريب المسبق باللغة العربية إلى 475 مليار رمز (مقارنة بـ 140 ملياراً في الإصدار الأول و 267 مليار رموز في الإصدار الثاني)، مع الحفاظ على البيانات الإنجليزية والكود عند 1.16 تريليون رموز، بمجموع 1.63 تي رموز.
بيانات التدريب المسبق:
بناءً على طرق جمع البيانات الشاملة ومعالجتها التي تم تأسيسها في ورقتنا البيضاء السابقة، تستفيد النسخة الثالثة من نظام “جايس” (JAIS) من مجموعة بيانات مسبقة التدريب باللغة العربية المعززة. يتضمن هذا النص بيانات من مصادر مختلفة، بما في ذلك صفحات الويب والكتب العربية ومحتوى وسائل التواصل الاجتماعي، مع زيادة كبيرة في البيانات باللغة العربية مقارنة بالإصدارات السابقة.
الجدول ٣ يلخص أحجام البيانات النهائية المستخدمة في تدريب نماذج جيس تم تدريب أحدث إصدار من جايس على ما مجموعه 1.15 تريليون رمز، مما أدى إلى حوالي 38.3 رمزاً لكل معلمة.
الإنجليزية / رمز
العربية
إجمالي
الجدول (٣): حجم البيانات قبل التدريب في نماذج نظام المعلومات المشتركة
التدريب:
جيس 30ب
نظرًا لندرة البيانات العربية مقارنة بالبيانات الإنجليزية الوفيرة، تستخدم نماذج نظام المعلومات المشتركة دورات متكررة لسد الفجوة بين حجم البيانات العربية اللازمة لتدريب النماذج المركزة على اللغة العربية بهذا الحجم، وتلك المتاحة.
يستخدم جهاز “جيس-13ب” بالفعل هذا الأسلوب إلى حد ما عن طريق تكرار البيانات العربية لما مجموعه 1.6 من الحقبات، في حين يجري فقط حقبة واحدة على بيانات اللغة الإنجليزية والكود.
مشكلة ندرة البيانات أكثر خطورة بالنسبة لـJAIS-30B، حيث إنه نموذج أكبر حتى. لذا فإننا نمدد المنهجية المذكورة أعلاه ونكرر معظم البيانات العربية في أربع مراحل هذا يعني أنه بينما نستمر في حقن المعرفة الجديدة والقدرة على التفكير من خلال بيانات اللغة الإنجليزية والكود، التي هي وفيرة، سوف نكرر المحتوى العربي للحفاظ على قدرة النموذج على توليد وفهم العربية.
تم تدريب أحدث نسخة من النموذج (JAIS-30B v3) على أكثر من 1.63 تريليون رمز، مع كون 475 مليار منها بيانات باللغة العربية، والكثير منها مكرر أربع مرات. الـ ١،١٦ ت المتبقيه كلها مميزه و مُكرّرَة بالإنجليزيه+الكود. يتم تقسيم التدريب إلى ثلاث مراحل، مع نقاط التفتيش في نهاية كل مرحلة حيث نقوم بضبط وتقييم وإطلاق النموذج. انتهت المرحلة الأولى عند ٤٢٧ مليار رمز، بينما انتهت المرحلة الثالثة عند ١.٦٣ تريليون من رموز التدريب.
تم تدريب جيس 30ب الإصدار الثالث في غضون ٢٦ يومًا من عقد ٤٨ على وقت سي جي -١. في نهاية كل مرحلة يتم ضبط نقطة التفتيش لـJAIS-30B بشكل أكبر على أساس التعليمات ويتم إصدارها كـ JAIS-30B-دردشة.
إعداد التدريب: تم تدريب نماذج مركز المعلومات الوطني على الحاسوب الخارق القوي كوندور جالكسي 1 باستخدام محركات سيربراس ذات الحجم الكبير وتنفيذ تدفق الوزن للتدريب الفعال.
ضبط التعليم
بناءً على نهج ضبط التعليمات الناجح المستخدم في JAIS-30B الإصدار الثاني، نواصل التركيز على تعزيز القدرات في المحادثات الأطول والتلخيص لهذه النسخة. مثل النهج السابق، نستفيد من مجموعة بيانات محادثة موجهة للإنسان مع GPT – 3.5، معززة بشكل أكبر بمحادثات عربية من مصادر مفتوحة مثل أوركا.
تتضمن مجموعة البيانات التعليمية الكاملة أكثر من ١٠ ملايين مثال، منها ستة ملايين باللغة الإنجليزية وأربعة ملايين بالعربية. نستخدم ضبط دقيق معبأ، أي حيث يتم تعبئة أزواج الطلب والاستجابة في تسلسل واحد يصل إلى 8،192 رمزاً. الرموز في التلميح مقنعة للخسارة – أي النموذج لا يتعلم توليد الرموز كما في التلميح . بل يتم تعليمه لتوليد الرموز كما في الهدف المعطى مع الموجه المقابل.
تقييم الأداء
تقييمات حزام الأمان
أجرينا تقييماً شاملاً لـJAIS-30B-دردشة V3 وقارناه مع نماذج اللغات الأساسية والمدربة على التعليمات الرائدة، وركزنا في التقييم على اللغتين الإنجليزية والعربية. المعايير المستخدمة لها تداخل كبير مع مهام لوحة قيادة OpenLLM التي تُستخدم على نطاق واسع. تشمل معايير التقييم أبعاداً متعددة، منها:
المعرفة : مدى جودة إجابة النموذج عن الأسئلة الحقيقية.
القدرة على الإجابة عن الأسئلة التي تتطلب التفكير المنطقي.
التضليل / التحيز: تقييم قابلية النموذج لإنتاج معلومات خاطئة أو مضللة، وحياديته.
النتائج التالية تعرض قيمة مؤشر فـ1 أو الدقة للنماذج التي تم تقييمها على المهام المعيارية. كلا المعيارين أفضل كلما زاد العدد
نتائج المعيار العربي
النموذج
متوسط
المعرفة
المنطق
التضليل / التحيز
للتقييمات، نركز على النماذج متعددة اللغات أو العربية المركزية التي تم ضبطها بالتعليم، باستثناء نموذج لاما 2 13 بي – شات وميكسترال. من بين النماذج التي تركز على اللغة العربية مثل AceGPT والنماذج متعددة اللغات مثل Aya، تتفوق نماذج JAIS على جميع النماذج الأخرى بأكثر من أربع نقاط. تفوق نماذج جيس على النماذج الإنجليزية فقط مثل لاما 2-13 ب / 70ب شات ميسترال 8 × 7 ب يوضح بوضوح – رغم أن هذه النماذج تم تدريبها على المزيد من الرموز المميزة (2 ت) وفي حالة واحدة أكبر بكثير، إلا أن التدريب العربي المركزي لجيس يمنحه ميزة درامية في المهام اللغوية العربية. لاحظ أن اللاما أو ميكسترال قد تشمل ما قبل التدريب آثار اللغة العربية كما يتضح من قدرتها المحدودة ولكن الملحوظة على فهم اللغة العربية، ولكنها غير كافية للحصول على قدرة التعلم الآلي القادرة على التحدث باللغة العربية، كما هو متوقع.
نتائج القياس الإنجليزي
يتفوق النموذج (JAIS-30b-chat-v3) على أفضل النماذج الأخرى متعددة اللغات والموجهة للغة العربية في قدرات اللغة الإنجليزية بحوالي نقطتين. لاحظ أن أفضل نموذج بين النماذج الأخرى المركزة على اللغة العربية هو AceGPT، والذي يتم ضبطه بدقة من Llama2-13B. نموذجان من اللاما (13 ب و 70 ب) تم تدريبهما مسبقاً على عدد أكبر بكثير من الرموز الإنجليزية (2 ت) مقارنة بالتي استخدمت في التدريب المسبق لـ JAIS -30 B- v3 (0،97 T). بأقل من نصف حجم النموذج وبيانات التدريب المسبق، تصل نماذج نظام المعلومات المشترك إلى ما يقارب نقطتين من قدرات اللغة الإنجليزية لـ Llama2 – 70B Chat.
معرفة السياق الثقافي / المحلي
أحد الدوافع الرئيسية لتدريب نموذج لغة عربية هو تضمين المعرفة الخاصة بالسياق المحلي. في تدريب جيس -30ب شات-V3، لقد بذلنا جهوداً كبيرة لإدراج البيانات التي تعكس المعرفة عالية الجودة في كلا اللغتين في الإمارات العربية المتحدة والمجالات الإقليمية. لتقييم أثر هذا التدريب، بالإضافة إلى تقييمات حزام اللغة العامة لـ LM، نقيم أيضاً نماذج JAIS على مجموعة بيانات تختبر المعرفة المتعلقة بمجال الإمارات العربية المتحدة / المجال الإقليمي. اخترنا حوالي 320 سؤالاً محدداً للإمارات العربية المتحدة والمنطقة، باللغتين الإنجليزية والعربية. لكل سؤال أربعة اختيارات للإجابة، ومثلما في حزام التدريب الخاص بـ LM، فإن مهمة LLM هي اختيار الإجابة الصحيحة. يوضح الجدول التالي دقة كل من مجموعات اللغة العربية والإنجليزية في هذه المجموعة الاختبارية.
النموذج
العربية
العربية
تقييم السياق الطويل
يوفر JAIS-30B-دردشة V3 طول السياق من الرموز المميزة 8K. في حين أن كلا النموذجين من JAIS (13B و 30B) يستخدمان تضمين الموضع للدفاع عن النفس مما يعطي النموذج طول سياق قابل للتمديد، فإن تجاوز 1.25 مرة طول السياق التدريبي يؤدي إلى بعض الانخفاض في الدقة. نقوم بتدريب مسبق وصقل صريح لـJAIS-30B-chat-v3 لـ 8 آلاف رمز في السياق.
نستخدم نهج “إبرة في كومة قش” لتقييم قدرة النموذج على التعامل مع السياقات الطويلة. في هذا الإعداد التقييمي، نقوم بإدخال نص طويل غير ذي صلة (الكومة) مع حقيقة مطلوبة للإجابة على سؤال (الإبرة)، والتي يتم تضمينها في موضع مختار عشوائياً داخل النص. مهمة النموذج هي الإجابة على هذا السؤال عن طريق تحديد وتكرار العبارة ذات الصلة (الإبرة) من النص (الكومة).
العربية
العربية
في النتائج أعلاه، نرى أن قدرة جيس شات على استرجاع الحقائق ذات الصلة تتراجع بشكل حاد بعد 2048 رمزًا. وعلى النقيض من ذلك، يمكن لـ JAIS-30B-chat-v3 استرجاع الحقيقة حتى 8 ألف رمز بدقة جيدة. بالإضافة إلى ذلك، الأداء عموماً أفضل في العربية من الإنجليزية.
التقييم التوليدي المعزز بالاسترجاع
في تجاربنا مع نظام “راج”، ركزنا على قدرة النظام “جيس” على فهم السياق الطويل والقدرة على تحديد آخر ما تم ذكره (Recency). الحداثة، في سياق الـLLMs، تشير إلى قدرة النموذج على الإجابة عن الأسئلة المتعلقة بالمواضيع الحديثة التي لم تكن موجودة ضمن بيانات التدريب المسبق أو الضبط الدقيق للنموذج. في مثل هذه السيناريوهات، نقدم السياق المناسب على شكل نص في التلميح نفسه. ثم يستخدم نظام إدارة التعلم هذه المعلومات للإجابة على الاستفسار. يركز تقييم “راج” على قدرة النموذج في استخدام التعلم السياقي والتعامل مع سياقات طويلة، حيث إن السياق عادةً ما يكون قطع نصية طويلة. نستخدم مجموعة بيانات متاحة للجمهور تسمى “فريش كيو آيه” لتقييماتنا. تحتوي FreshQA على 560 سؤالاً تم اختيارها بعناية من قبل البشر، وتركز على الأحداث الأخيرة. توفر مجموعة البيانات أسئلة مع مفاتيح الإجابة الصحيحة. نقيم أجيال نظام المعلومات المحاسبية القضائية بناءً على مفتاح الإجابة حسب الحقائق والاكتمال. نقارن أداء جايس الفانيليا مع جايس بالسياق الإضافي. كما نرى من الشكل أدناه، فإن إضافة السياق في التلميح يحسن دقة النموذج بشكل كبير.
معدلات الفوز
في الختام، فإن برامجنا الثنائية اللغة العربية – الإنجليزية للماجستير في القانون تظهر فعالية التصميم المدروس والتدريب الدقيق. تسد النماذج اللغوية العربية المشتركة الفجوة التي خلقتها البيانات العربية المحدودة المتاحة (مقارنة بالإنجليزية) وتبرز قوتها على كلا النموذجين العربي والإنجليزي الأحادي اللغة. تظهر نماذج اللغة المشتركة أن النموذج الثنائي اللغوي المركز، الذي يتضمن فقط لغتين رئيسيتين، يتفوق على نموذج متعدد اللغات للغاية. على الرغم من أن تضمين مجموعات بيانات باللغة الإنجليزية قد أظهر تحسين أداء اللغة العربية، إلا أنه لا يمكن تمديد هذا السلوك إلى التدريب والتوليف بناءً على عدة لغات معًا – كما يتضح من الهامش الكبير الذي تتفوق به نماذجنا عن عائلة النماذج التي تعمل بنظام “BLOOM” في المهام المتعلقة باللغة العربية. النجاح الذي تحقق على مقياس 13ب / 30 ب يفتح طريقا واعدا للعمل المستقبلي في هذا الاتجاه.
السلامة والمحاذاة
مع استمرار تحسن قدرات نماذج اللغة الكبيرة، والنمو الاستثنائي والحلول للمشكلات المعقدة التي تقدمها هذه النماذج، هناك حاجة جوهرية لضمان سلامة هذه النماذج وتوافقها الكامل مع القيم الإنسانية والأعراف المجتمعية. ضمان سلامة ومحاذاة نماذج اللغة الكبيرة يتطلب أنظمة قوية وموثوقة، تصميم وتنفيذ دقيقين، اختبارات وتحقق صارمين، ومراقبة مستمرة. طريقة مهمة للتعامل مع هذه المتطلبات هي من خلال التعلم المستمر. بالفعل، السلامة والمحاذاة تطرح تحديًا كبيرًا لأنظمة الذكاء الاصطناعي، ومع تعلم وتطور نماذج الذكاء الاصطناعي يجب أن تكون مقيدة بإرشادات أخلاقية تمنع الانحراف عن الأغراض المقصودة في الأصل. لذلك، يتم تدريب أنظمة الذكاء الاصطناعي بناءً على تفضيلات الإنسان والتغذية الراجعة، مما يضمن أنها تظل متوافقة مع القيم الإنسانية أثناء تكيفها ونموها.
مجموعات البيانات وتقييمات السلامة
ندمج ضمانات مدمجة في ناتج النموذج أثناء عملية تحسين الدقة الخاضعة للإشراف لكل من JAIS-13B-دردشة وJAIS-30B-دردشة.
خلال عملية ضبط التعليمات، أضفنا أمثلة تحتوي على مطالبات محتملة الضرر مقترنة بردود مرغوبة وآمنة. هذه علمت جيس -30ب شات لـ (1) الامتناع عن توليد لغة تمييزية أو سامة؛ (2) عدم محاولة أبداً لتوليد معلومات حساسة أو خاصة؛ (3) الرد بحذر على المجالات التي يمكن أن تؤدي فيها المعلومات الخاطئة إلى ضرر مادي، مثل الطب أو القانون؛ (4) رفض الإجابة عن الاستفسارات حول الأنشطة غير الأخلاقية أو غير القانونية؛ (5) الإشارة إلى أنه روبوت دردشة وليس إنسان، وخاصة عندما يكون هناك اعتماد زائد قابل للتعرف على ردوده؛ و(6) تجنب الانخراط في مناقشات المواضيع الحساسة، وخاصة تلك المتعلقة بجوانب معينة من الدين والسياسة.
قمنا بتضمين 21،709 و 22،474 مثال لأزواج من الأسئلة والردود في الإنجليزية والعربية على التوالي. بعض مجموعات البيانات المدرجة كانت تحتوي بالفعل على ردود فعل آمنة ومناسبة ذات صلة. بالنسبة لمجموعات البيانات التي لا تتضمن مثل هذه الردود الآمنة، قمنا بأخذ عينة من رد فعل واحد من مجموعة ردود آمنة مسبقة الصنع أو لكل مطالبة.
الاستخدام المسؤول
تقديم جيس، نموذج اللغة العربية الأكثر تطوراً في العالم، يمثل بداية عصر تحويلي للغة العربية واللغويات الحاسوبية. تم تطوير جيس من قبل إنسبشن في الإمارات العربية المتحدة، حيث يعرض أحدث التطورات في مجال الذكاء الاصطناعي. بفضل قدرته على توليد نص يشبه النص البشري، والترجمة بين العربية والإنجليزية، والإجابة عن الاستفسارات وحتى كتابة الكود البرمجي، يعيد جيس تعريف ما هو ممكن في معالجة اللغة الطبيعية. ومع ذلك، مع توسع قدرات جايس، كذلك المسؤولية المرتبطة باستخدامه. فريقنا في إنسبشن لا يزال ملتزماً بتطوير النماذج مع إعطاء الأولوية للاعتبارات الأخلاقية. نحن نعترف بالحاجة إلى التنفيذ المسؤول، خاصة مع جايس، لمعالجة المخاطر المحتملة وضمان الاستخدام العادل والمنصف. وهذا يتضمن وضع استراتيجيات متوافقة مع المبادئ الأخلاقية، ومنع التمييز، وتجنب إلحاق الضرر. من خلال إدارة المعلومات المضللة بعناية، وحماية الخصوصية والامتناع عن التسبب في الأذى، نمكن الاندماج المفيد لـJAIS في المجتمع.
تم تدريب النموذج كمساعد للذكاء الاصطناعي للمتحدثين باللغة العربية والإنجليزية. النموذج محدود لإنتاج الاستجابات للاستعلامات في هاتين اللغتين وقد لا ينتج استجابات مناسبة لاستعلامات بلغات أخرى.
يجب استخدام نماذج جيس مع حواجز السلامة لحماية المستخدمين أو الأنظمة التي تستهلك ناتجها من المعلومات غير الصحيحة، المضللة و / أو المسيئة أو المحتوى. المعلومات التي يتم توليدها بواسطة نماذج جيس ليست مقصودة كنصيحة ولا ينبغي الاعتماد عليها بأي شكل من الأشكال، كما أننا غير مسؤولين عن أي محتوى أو نتائج تنتج عن استخدامها. نحن نعمل بشكل مستمر لتحسين قدرات جيس تدريجيا ونرحب بالملاحظات على النماذج.
تأثير
يعدّ تطوير ونشر درجة الماجستير في القانون ثنائي اللغة (العربية – الإنجليزية) وعداً بآثار بعيدة المدى عبر الأبعاد اللغوية والثقافية والتكنولوجية، مع تأثير استراتيجي يضع المنظمات الحكومية والتجارية في طليعة الثورة الرقمية. إن مساعينا هي رحلة نحو مستقبل حيث قوة معالجة اللغة الطبيعية المتطورة لا تقتصر على تجاوز حواجز اللغات فحسب، بل تعمل أيضاً كمحفز للتقدم في فهم وتوليد ونشر تطبيقات اللغة العربية في سياقات متنوعة.
تمكين مجتمع معالجة اللغة العربية الطبيعية :
إن تقديم برنامج قوي وتنافسي ثنائي اللغة (عربي – انجليزي) يفتح الأبواب للتقدم غير المسبوق في فهم وتوليد اللغة العربية ضمن مجتمع معالجة اللغات الطبيعية العربي في المنطقة. بالاستفادة من قدرات النموذج، يتم تمكين الباحثين والمعلمين والمبتكرين لاستكشاف حالات استخدام جديدة. تتراوح الإمكانيات من توليد المحتوى الإبداعي إلى المساعدين الافتراضيين، والتكامل في أنظمة أكثر تعقيداً مثل الأفاتارات الرقمية. هذا التمكين يدفع الابتكار ويُوَضِّع المجتمع العربي لمعالجة اللغة الطبيعية استراتيجياً كلاعب رئيسي في المشهد العالمي للغة الطبيعية
تنفيذ السيادة ماجستير في القانون:
السيادة الجوهرية لهذا البرنامج تسمح للمنظمات في جميع أنحاء الشرق الأوسط بالاستفادة من النموذج ونشره ضمن بنياتها التحتية الخاصة بها. تضمن تنفيذنا الكامل داخل المنزل التحكم التام في استخدام النموذج وضبطه الدقيق والاستدلال، مما يعزز الاعتماد على الذات مع تقليل التبعية على الموارد الخارجية. من خلال تنفيذ نظام إدارة الإضاءة المحلية، يمكن للكيانات الحكومية والتجارية أن تضع نفسها استراتيجياً كقادة تكنولوجيا، تدفع الابتكار والتحول الرقمي في مجالاتها المختلفة.
نشر الخصوصية المعززة في الموقع:
نتيجة مهمة لهذا الجهد هي القدرة على ضبط النموذج ونشره محلياً، مما يضمن خصوصية البيانات والأمان الكاملين. حماية المعلومات الشخصية الحساسة لا يولد الثقة فحسب، بل يضع المنظمات استراتيجياً في موقع التفوق في بيئة اليوم التي تهتم بالخصوصية بشكل متزايد. هذا يمكن تطوير تطبيقات متنوعة، ويُمكن الجهات الحكومية والتجارية من أن تكون رائدة في حماية الخصوصية الفردية مع تقديم حلول متقدمة للغة العربية.
تحفيز التطبيقات المركزة على اللغة العربية:
برنامج ماجستير متخصص في اللغة العربية – الإنجليزية قوي سوف يشعل الاهتمام داخل المجتمع، مما يؤدي إلى زيادة الحماس لبرامج الماجستير المتخصصة باللغة العربية. هذا التركيز المجدد على الدقائق اللغوية والثقافية يحفز خلق العديد من التطبيقات التي تلبي احتياجات السكان الناطقين بالعربية. من خلال استغلال هذه التطبيقات استراتيجياً، يمكن للمنظمات الحكومية والتجارية أن تضع نفسها كقادة فكر، تدفع بحلول مبتكرة متوافقة مع التراث الثقافي للمنطقة والتنوع اللغوي.
الخلاصة
لقد قدمنا هنا أحدث التطورات في نظام JAIS، وهو عائلة من النماذج اللغوية الثنائية اللغة العربية والإنجليزية الحديثة القادرة على أداء مجموعة متنوعة من المهام اللغوية التوليدية والمتعلقة بالمهام الفرعية في كلا اللغتين، بما في ذلك فهم وتوليد اللغات. يتفوق النموذج “JAIS-30b-v3” على جميع النماذج العربية المفتوحة المتاحة حاليا، كما أنه يضاهي نماذج الإنجليزية المتقدمة التي تم تدريبها على مجموعات بيانات أكبر حجماً.
النماذج مرخصة تحت أباتشي 2.0 ومتوفرة على هوجنج فيس، بالإضافة إلى واجهة محادثة للاختبار. ويشجع الباحثون والهواة والشركات على تجربة وبناء النموذج، خاصة أولئك الذين يعملون في تطبيقات متعددة اللغات أو غير الإنجليزية.
جيس هو دليل على الشراكة بين جي 42 – سيربريس سيستمز التي تهدف إلى تعزيز بحوث الذكاء الاصطناعي، وبناء الوصول إلى موارد الحوسبة القوية، ودعم المجتمعات المفتوحة المصدر، وتعزيز تطوير تطبيقات المؤسسات المبتكرة. بالإضافة إلى ذلك، يمثل مجموعة من المراحل الرئيسية لمشهد الذكاء الاصطناعي في معالجة اللغة الطبيعية في الشرق الأوسط، مما يضع الإمارات العربية المتحدة في طليعة الثورة الرقمية مع تعزيز التحول الرقمي والذكاء الاصطناعي والتوعية الثقافية والشمول اللغوي. وأخيرًا، نعبر عن امتناننا لمجتمع معالجة اللغة الطبيعية العربي على تعليقاتهم القيمة ومشاركتهم في تحسين نماذج جيس.