وفقًا لمراقبة 1M AI News، أطلقت شركة Microsoft عائلة نماذج تضمين نصوص متعددة اللغات مفتوحة المصدر على Hugging Face تحت اسم harrier-oss-v1، وتتضمن ثلاث فئات: 270M و0.6B و27B. تُظهر بطاقة النموذج أن هذه السلسلة تعتمد بنية decoder-only، وتجميع last-token وعمليات التطبيع L2، وتدعم حتى 32768 رمزًا كحد أقصى، ويمكن استخدامها في الاسترجاع والتجميع ودرجة التشابه الدلالي والتصنيف والتنقيب ثنائي اللغة وإعادة الترتيب.
يُعد Multilingual MTEB v2 معيارًا شائعًا لاختبار نماذج تضمين النصوص متعددة اللغات في الصناعة، إذ يختبر بشكل أساسي مهامًا مثل الاسترجاع والتصنيف والتجميع والتشابه الدلالي وغيرها. وتذكر بطاقة نموذج Microsoft أن درجات نماذج الفئات الثلاث على هذا المعيار كانت 66.5 و69.0 و74.3 على التوالي، حيث احتل إصدار 27B صدارة الترتيب في يوم الإطلاق. كما يستخدم إصدارا 270M و0.6B بشكل إضافي نموذج تضمين أكبر لإجراء تقطير المعرفة، وتم إصدار نماذج الأحجام الثلاثة جميعها بموجب ترخيص MIT.