Grok 4.1 mới ra mắt: Giảm 3 lần ảo giác AI, nâng cấp toàn diện hiểu cảm xúc và viết sáng tạo

ChainNewsAbmedia

2025-11-18 13:24:04

xAI đã thông báo vào ngày 11/17 rằng mô hình mới nhất Grok 4.1 đã chính thức mở cửa cho tất cả người dùng, bao gồm grok.com, Twitter (X) và ứng dụng trên iOS, Android. xAI cho biết, lần nâng cấp này tập trung vào “tính khả dụng trong thế giới thực”, bao gồm khả năng hiểu cảm xúc mạnh mẽ hơn, biểu hiện nhân cách tự nhiên hơn, khả năng sáng tạo cao hơn và tỷ lệ ảo tưởng thấp hơn, đồng thời giữ lại khả năng suy luận và độ ổn định của Grok 4 trước đó.

Tỷ lệ thắng trong thử nghiệm bí mật gần 65%, Grok 4.1 đã xác nhận chính thức ra mắt.

xAI sẽ tiến hành thử nghiệm bí mật trong hai tuần từ 11/1 – 11/14, đưa phiên bản thử nghiệm Grok 4.1 vào một tỷ lệ nhỏ của lưu lượng thực tế trên Grok.com, X và ứng dụng di động, và so sánh trực tiếp với phiên bản trước đó là Grok 4 thông qua “kiểm tra mù”.

xAI cho biết trong quá trình kiểm tra mù, chỉ số ưu thích của Grok 4.1 trên lưu lượng thực là 64,78%, rõ ràng vượt trội hơn Grok 4, và tuyên bố sẽ chính thức mở cửa cho tất cả người dùng vào ngày 11/17. Đồng thời, cũng cho biết từ bây giờ, tất cả người dùng đều có thể sử dụng Grok 4.1. Chỉ cần người dùng bật chế độ Auto, nó sẽ tự động sử dụng Grok 4.1, người dùng cũng có thể tự chọn trong menu mô hình.

Grok 4.1 Ba điểm nổi bật công nghệ một lần xem

Grok 4.1 Điểm nổi bật kỹ thuật 1: Cấu trúc học tăng cường hoàn toàn mới, giúp phản hồi tự nhiên hơn và hiểu con người hơn.

Nâng cấp lõi của Grok 4.1 đến từ việc sử dụng “hạ tầng học máy quy mô lớn” giống như Grok 4, nhưng lần này đã giới thiệu thêm các phương pháp mới cho phép mô hình tự động tối ưu hóa phản hồi ở quy mô lớn hơn. Đợt huấn luyện này chủ yếu tập trung vào chất lượng phản hồi không thể xác minh, như là ngữ điệu, sự nhất quán của nhân vật, tương tác cảm xúc, hiểu ý định, v.v., những điều này không thể được đánh giá chỉ dựa vào dữ liệu.

Để giải quyết vấn đề này, xAI đã sử dụng “mô hình suy luận tiên tiến” làm mô hình thưởng (Reward Model), cho phép những AI có khả năng suy luận sâu tự động đánh giá phản hồi của Grok 4.1, và trong một loạt các so sánh, tự học những gì là câu trả lời tốt hơn, phù hợp hơn với kỳ vọng của con người, và thực hiện điều chỉnh. Do đó, Grok 4.1 đã cải thiện rõ rệt về giọng điệu, tính cách, cảm xúc, và độ tự nhiên trong tương tác, đồng thời giữ nguyên khả năng suy luận và tính ổn định ban đầu.

Grok 4.1 Những điểm nổi bật về công nghệ 2: Thử nghiệm mù đánh giá toàn diện đứng đầu, sự hiểu biết về cảm xúc và khả năng sáng tạo được nâng cấp mạnh mẽ.

xAI cũng công bố nhiều kết quả thử nghiệm, cho thấy Grok 4.1 có sự cải thiện rõ rệt trong nhiều bài kiểm tra năng lực.

Trong nền tảng chiến đấu thử nghiệm toàn cầu LMArena:

Grok 4.1 Thinking đứng thứ nhất thế giới với 1483 Elo.

Grok 4.1 Non-Thinking xếp hạng thứ hai với 1465 Elo, thậm chí vượt qua “mô hình suy luận hoàn chỉnh” của các mô hình khác.

Kiểm tra hiểu biết cảm xúc (EQ-Bench 3): Sử dụng 45 tình huống khó khăn và 3 vòng tương tác, được đánh giá bởi Claude Sonnet 3.7. Grok 4.1 thể hiện sự cải thiện đáng kể trong các khía cạnh như đồng cảm, hiểu biết cảm xúc và hiểu biết giữa người với người.

Năng lực viết sáng tạo (Creative Writing v3): Trong bài kiểm tra viết gồm 32 câu hỏi × 3 vòng, Grok 4.1 đạt điểm cao hơn về phong cách sáng tác, chất lượng kể chuyện và sự mạch lạc của câu chuyện, chính thức và trình bày nhiều mẫu phản hồi.

Nhìn chung, Grok 4.1 không chỉ cải thiện khả năng suy luận mà còn có sự nâng cấp rõ rệt trong “tương tác cảm xúc” và “khả năng sáng tạo”.

Từ hình có thể thấy, Grok 4.1 đứng trong top 3 về xếp hạng tổng hợp mô hình suy luận, hiểu cảm xúc và viết sáng tạo.

(Ghi chú: Elo, có nghĩa là điểm số sức mạnh của Grok 4.1 trên nền tảng thử nghiệm mù toàn cầu LMArena, sử dụng hệ thống xếp hạng Elo ban đầu được áp dụng cho cờ vua để đánh giá chất lượng phản hồi của mô hình. )

Grok 4.1 Điểm nổi bật công nghệ 3: Giảm ảo giác AI 3 lần, nguồn thông tin đáng tin cậy hơn

Đối với các vấn đề thông tin thường gặp, xAI đặc biệt nhấn mạnh rằng tỷ lệ ảo giác của Grok 4.1 đã giảm rõ rệt. Trước đây, chế độ nhanh của Gork (Non-Reasoning) dễ gặp ảo giác do độ sâu suy luận không đủ, nhưng trong quá trình huấn luyện lại của 4.1, xAI đã cải thiện vấn đề này một cách rõ ràng. Phương pháp xác thực của xAI bao gồm:

Từ các câu hỏi mà người dùng thực sự đặt trong tình huống thực tế, để thực hiện kiểm tra mẫu trên nền tảng.

So sánh sự khác biệt trong câu trả lời giữa Grok 4.1 và phiên bản cũ.

Đánh giá hiệu suất trên FActScore.

Kết quả cho thấy, phiên bản mới có tỷ lệ ảo giác giảm rõ rệt khi truy vấn sự thật và trả lời các câu hỏi thông tin, các câu trả lời ổn định và đáng tin cậy hơn. Điều này khiến Grok 4.1 trở nên hữu ích và chính xác hơn trong các tình huống “trả lời nhanh” và “tra cứu thông tin” so với phiên bản trước.

Từ hình ảnh có thể thấy, tỷ lệ ảo giác của Grok 4.1 đã giảm từ 12.09% xuống còn 4.22%, giảm khoảng ba lần. Điểm xác thực thực tế (FActScore) cũng giảm từ 9.89% xuống 2.97%, cho thấy độ chính xác của Grok 4.1 đã được cải thiện đáng kể.

(Ghi chú: FActScore là một bài kiểm tra công khai được tạo thành từ 500 câu hỏi tiểu sử nhân vật thực, dùng để kiểm tra hiệu suất của mô hình trong việc tìm kiếm sự thật, đánh giá tính chính xác và tính nhất quán của câu trả lời, có thể gọi là đánh giá sự thật.

)2025 5 mô hình ngôn ngữ AI chính thống mới nhất (LLM( phân tích toàn diện, phí, ứng dụng và độ an toàn một lần nhìn hiểu )

Bài viết này Grok 4.1 mới ra mắt: Ảo giác AI giảm 3 lần, hiểu cảm xúc và viết sáng tạo được nâng cấp toàn diện Xuất hiện lần đầu tiên trên Chain News ABMedia.

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.