تم اليوم إطلاق أحدث نموذج لغة كبير من جيس (JAIS)، وهو “جيس 70 بي” بواسطة إنسبشن، وهي شركة تابعة لـ جي 42 متخصصة في تطوير نماذج الذكاء الاصطناعي المتقدمة والتطبيقات، وتوفر كل ذلك كخدمة.
تم بناء نموذج جايس 70 بي، الذي يحتوي على 70 مليار معلمة، لمطوري حلول معالجة اللغات الطبيعية العربية ويعد بتسريع دمج خدمات الذكاء الاصطناعي التوليدي في مختلف الصناعات وتحسين القدرات في مجالات مثل خدمة العملاء وإنشاء المحتوى وتحليل البيانات.
يقدم جيس 70بي قدرات ثنائية اللغة (العربية – الإنجليزية) على نطاق وحجم غير مسبوق لمجتمع المصدر المفتوح. كـ نموذج يحتوي على 70 مليار معلمة، فقد زادت قدرته في التعامل مع المهام المعقدة والدقيقة، بالإضافة إلى قدرة أفضل لمعالجة مجموعات البيانات الكبيرة والمعقدة.
تم تطوير “جيس 70 بي” باستخدام التدريب المستمر، وهو عملية ضبط نموذج مدرب مسبقاً على 370 مليار رمز من بينها 330 ملياراً رموز عربية، وهي أكبر مجموعة بيانات باللغة العربية تستخدم لتدريب نموذج أساسي مفتوح المصدر.
في هذا الإصدار، كشفت الشركة أيضاً عن مجموعة شاملة من نماذج أساس جايس والمُحسّنة بدقة؛ 20 نموذجًا، عبر 8 أحجام، تتراوح بين 590 مليون إلى 70 مليار معلمًا، وتم تحسينها خصيصًا لتطبيقات الدردشة.
تدرب على ما يصل إلى 1.6 تريليون رمز من البيانات العربية والإنجليزية والرمز. ردًا على التعليقات الواردة من مجتمع معالجة اللغة الطبيعية باللغة العربية، يوفر هذا الإصدار الشامل مجموعة واسعة من الأدوات، بما في ذلك أول نموذج مركز للغة العربية صغير جدًا بحيث يمكن تشغيله على جهاز كمبيوتر محمول، مما يوفر نماذج صغيرة وفعالة من حيث الحوسبة للتطبيقات المستهدفة وأحجام النماذج المتقدمة لدقة المؤسسة.
تلبي هذه الحزمة من نماذج جيس نطاقاً واسعاً من حالات الاستخدام، وتهدف إلى تسريع الابتكار والتطوير وفرص البحث للتطبيقات المتعددة في مجتمع الناطقين بالعربية وثنائيي اللغة.
قال الدكتور أندرو جاكسون، الرئيس التنفيذي لشركة إنسبشن: “أصبحت الذكاء الاصطناعي الآن قوة مثبتة تضيف قيمة، وكانت نماذج اللغة الكبيرة في طليعة طفرة تبني الذكاء الاصطناعي. تم إنشاء جيس للحفاظ على التراث والثقافة واللغة العربية، ولتعميم الوصول إلى الذكاء الاصطناعي. إن إطلاق سراح جيس 70 ب وهذه العائلة الجديدة من النماذج يعزز التزامنا بتقديم أعلى جودة لنموذج أساس الذكاء الاصطناعي للدول الناطقة بالعربية. إن تقنيات التدريب والتكيف التي نقدمها بنجاح لنماذج اللغة العربية قابلة للتوسيع لتشمل لغات أخرى ذات خدمة محدودة ونحن متحمسون لتقديم هذه الخبرة إلى بلدان أخرى”.
أطلقت إنسبشن نماذج جيس-13بي وجيس-13بي شات في أغسطس عام 2023، ثم طرحت بعدها النماذج المتطورة المركزة على اللغة العربية، وهما نموذجًا جيس-30بي وجيس-30بي شات. لقد أثبتت نماذج JAIS 70B وJAIS 70B-chat أنها أكثر أداءً في بيانات القياس لكلا من اللغة الإنجليزية والعربية مقارنة بالنماذج السابقة.
قالت نيه سينغوبتا، عالمة أولى في علم البيانات التطبيقي، إنسبشن: “بالنسبة للنماذج التي تصل إلى 30 مليار معلمة ، قمنا بتدريب جيس بنجاح من البداية بشكل مستمر تفوق النماذج المكيفة في المجتمع. ومع ذلك، بالنسبة للنماذج التي تحتوي على 70 مليار معلم وأكثر، كانت تعقيدات الحوسبة والتأثير البيئي للتدريب من الصفر كبيرة. اخترنا بناء جيس 70ب على نموذج لاما2، مما يتيح لنا الاستفادة من قاعدة المعرفة الواسعة لنموذج إنجليزي موجود وتطوير حل أكثر كفاءة واستدامة”.
يحتفظ نموذج جيس 70بي، وفي حالات محددة يتجاوز قدرات معالجة اللغة الإنجليزية عالية الجودة لنموذج لاما2، في حين يتفوق بشكل كبير على مخرجات العربية للنموذج الأساسي.
قام فريق تطوير جايس بتدريب محلل رموز موسع يعتمد على أداة تحليل الرموز الخاصة بـ لاما 2 لتحسين كفاءة معالجة النصوص العربية، مما أدى إلى مضاعفة مفردات النموذج الأساسية.
وفقًا لـ سينغوبتا، فإن النموذج “يقسم الكلمات العربية بشكل أقل عدوانية ويجعل التدريب والاستدلال أرخص” من نموذج اللاما القياسي 2.
يمكن للمستخدمين تحميل نماذج جيس والوصول إلى الورقة التقنية وبيانات المقارنة عن طريق زيارة الصفحة المخصصة على وجه العناق: https://huggingface.co/inceptionai