Google tuần này lặng lẽ đưa lên App Store iOS một ứng dụng nghe viết AI miễn phí ngoại tuyến mang tên “AI Edge Eloquent”, sử dụng mô hình Gemma ASR chạy hoàn toàn ở thiết bị (end-side), âm thanh không hề rời khỏi thiết bị, và hiếm khi ra mắt Android trước rồi mới tới iOS—lại ngược dòng đăng trước lên nền tảng iOS.
(Tóm tắt trước đó: Google vừa công bố mô hình mở mới thông minh nhất Gemma 4! Chuyển đổi toàn diện sang giấy phép Apache 2.0, hiệu năng tiệm cận các hệ thống AI đóng mã lớn)
(Bổ sung bối cảnh: Phá vỡ độc quyền của NVIDIA? Google mô hình AI mạnh nhất trên thế giới “Gemma 3” dùng 1 con H100, đánh bại DeepSeek, OpenAI)
Mục lục bài viết
Toggle
Không có buổi họp báo, cũng không có bất kỳ thông báo chính thức nào, nhưng ngay trong tuần này sớm hơn, Google đã lặng lẽ đưa “AI Edge Eloquent” lên App Store iOS. Ứng dụng nghe viết AI hoàn toàn miễn phí này tập trung vào nhận dạng giọng nói ngoại tuyến, phía sau chạy là mô hình Gemma ASR (tự động nhận dạng giọng nói) on-device do chính Google phát triển; mọi xử lý âm thanh đều hoàn thành ngay trên máy cục bộ, không cần kết nối mạng.
Logic vận hành của “AI Edge Eloquent” rất trực quan: sau khi mở App, nói vào micro, màn hình sẽ hiển thị ngay văn bản và dạng sóng âm thanh; sau khi dừng thu âm, App sẽ tự động lọc các từ đệm khẩu ngữ như “ừ”, “à”, sửa dấu ngắt câu, rồi sắp xếp phần nội dung nói thành văn bản gọn gàng, có thể dùng ngay, đồng thời tự động sao chép vào bảng nhớ tạm (clipboard).
Thiết kế quyền riêng tư cũng là một trong những điểm bán quan trọng của ứng dụng này. Ở chế độ thuần ngoại tuyến, dữ liệu âm thanh sẽ không rời khỏi iPhone của người dùng, không gửi lên bất kỳ máy chủ nào. Google còn cung cấp tùy chọn “chế độ đám mây”: nhận dạng giọng nói vẫn hoàn tất ở phía thiết bị, chỉ gửi văn bản đã được nhận dạng (không phải âm thanh gốc) lên mô hình đám mây Gemini để làm sạch thêm, nhờ đó chất lượng cao hơn.
Toàn bộ dịch vụ hoàn toàn miễn phí, không có phí thuê bao, không có giới hạn theo mức sử dụng.
Cùng lúc, truyền thông công nghệ ghi nhận một hiện tượng hiếm: gần như mọi sản phẩm của Google đều được ra mắt trên Android trước; đặc biệt với các tính năng liên quan đến AI on-device, thường sẽ đi kèm thiết bị Pixel và mô hình Gemini Nano ra mắt ưu tiên. Lần này “AI Edge Eloquent” lại đi ngược: trong mô tả trên App Store, thậm chí họ còn viết thẳng rằng phiên bản Android sắp được phát hành.
Các nhà phân tích đưa ra hai cách lý giải. Thứ nhất là kiểm thử thị trường: Google có thể cố tình chọn iOS—một “phi sân nhà”—để thử nghiệm, đánh giá mức độ người tiêu dùng chấp nhận và thói quen sử dụng tính năng nghe viết AI on-device, trong khi không làm xáo trộn hệ sinh thái Android.
Thứ hai là cho rằng công nghệ đã sẵn sàng: mô hình Gemma ASR trên iOS có thể đã sớm đạt đến chuẩn có thể dùng hơn so với bản Android trong tiến độ tối ưu hóa; vì vậy Google chọn đăng lên ngay thay vì chờ hai nền tảng ra đồng bộ.
Xét về mặt kỹ thuật, ý nghĩa của “AI Edge Eloquent” không chỉ là một công cụ nghe viết. Gemma là dòng mô hình AI nhẹ mã nguồn mở của Google, được thiết kế nhằm vận hành hiệu quả trong các môi trường tài nguyên bị giới hạn như thiết bị di động; còn AI Edge là khung (framework) mà Google tạo ra để các nhà phát triển chạy mô hình học máy trực tiếp trên thiết bị.
Ứng dụng này về cơ bản đã đưa năng lực suy luận on-device của Gemma vào đúng bối cảnh sử dụng hằng ngày của người tiêu dùng.
Với các nhà phát triển, AI Edge Eloquent cũng là một mẫu tham khảo: nó cho thấy cách triển khai mô hình Gemma trong các sản phẩm tầm phổ thông, và cách kiến trúc lai giữa ngoại tuyến và đám mây có thể cân bằng giữa quyền riêng tư và chất lượng.