Según Golden Finance, hoy lanzamos dos modelos de versión oficial: DeepSeek-V3.2 y DeepSeek-V3.2-Speciale. DeepSeek-V3.2 es nuestro primer modelo que integra el pensamiento en el uso de herramientas y al mismo tiempo admite la invocación de herramientas en modo de pensamiento y modo no de pensamiento. Hemos propuesto un método de síntesis de datos de entrenamiento de agentes a gran escala, construyendo una gran cantidad de tareas de aprendizaje por refuerzo “difíciles de responder, fáciles de verificar” (más de 1800 entornos, más de 85,000 instrucciones complejas), lo que mejora significativamente la capacidad de generalización del modelo. (DeepSeek)
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
Lanzamiento de la versión oficial DeepSeek V3.2: Mejora de la capacidad del agente, integración de pensamiento y razonamiento
Según Golden Finance, hoy lanzamos dos modelos de versión oficial: DeepSeek-V3.2 y DeepSeek-V3.2-Speciale. DeepSeek-V3.2 es nuestro primer modelo que integra el pensamiento en el uso de herramientas y al mismo tiempo admite la invocación de herramientas en modo de pensamiento y modo no de pensamiento. Hemos propuesto un método de síntesis de datos de entrenamiento de agentes a gran escala, construyendo una gran cantidad de tareas de aprendizaje por refuerzo “difíciles de responder, fáciles de verificar” (más de 1800 entornos, más de 85,000 instrucciones complejas), lo que mejora significativamente la capacidad de generalización del modelo. (DeepSeek)