Según el monitoreo de 1M AI News, Microsoft, en la familia de modelos de incrustación (text embeddings) multilingües de código abierto harrier-oss-v1 en Hugging Face, incluye tres versiones: 270M, 0.6B y 27B. La ficha del modelo muestra que esta serie utiliza una arquitectura solo-decodificador (decoder-only), pooling del último token (last-token pooling) y normalización L2; la longitud máxima admitida es de 32768 tokens, y puede usarse para recuperación, clustering, similitud semántica, clasificación, minería bilingüe y re-ranking.
Multilingual MTEB v2 es un punto de referencia de incrustación de texto multilingüe de uso común en la industria; principalmente evalúa tareas como recuperación, clasificación, clustering y similitud semántica. La ficha del modelo de Microsoft afirma que, en este benchmark, las puntuaciones de las tres versiones son 66.5, 69.0 y 74.3, respectivamente, y que la versión de 27B llegó al primer puesto el día de su lanzamiento. Las versiones de 270M y 0.6B también usan adicionalmente un modelo de incrustación más grande para la destilación de conocimiento; los tres modelos se publican bajo la licencia MIT.