Fireworks AI ra mắt phiên bản xem trước của nền tảng huấn luyện, hỗ trợ huấn luyện toàn bộ tham số với hàng nghìn tỷ tham số

BlockBeatNews

Theo dõi từ 1M AI News, công ty hạ tầng suy luận của AI là Fireworks AI đã phát hành Fireworks Training phiên bản xem trước, mở rộng từ một nền tảng suy luận thuần túy thành nền tảng tích hợp huấn luyện và triển khai. Fireworks AI được thành lập bởi Jolin (Lin Qiao), kỹ sư cựu thành viên tại Meta, người từng tham gia xây dựng PyTorch. Hiện công ty được định giá 4Bỷ USD, khối lượng token xử lý hằng ngày đạt 150 nghìn tỷ.

Nền tảng cung cấp ba cấp độ:

  1. Training Agent: Dành cho các nhóm sản phẩm không có nền tảng ML hạ tầng, mô tả tác vụ, tải dữ liệu lên là có thể hoàn tất toàn bộ quy trình từ huấn luyện đến triển khai; hiện chỉ hỗ trợ LoRA
  2. Managed Training: Dành cho các kỹ sư ML, hỗ trợ tinh chỉnh SFT, DPO và học tăng cường, bao gồm huấn luyện toàn tham số
  3. Training API: Dành cho các nhóm nghiên cứu, có thể tùy chỉnh hàm mất mát và vòng lặp huấn luyện, hỗ trợ các thuật toán như GRPO, DAPO

Quy mô huấn luyện toàn tham số từ Qwen3 8B trên một nút đơn đến Kimi K2.5 trên 64 khối NVIDIA B200 (hàng nghìn tỷ tham số).

Khách hàng suy luận sản xuất của Fireworks AI gồm các công cụ lập trình AI như Cursor, Vercel và Genspark đã hoàn tất huấn luyện học tăng cường tiên tiến trên nền tảng này. Vercel đã huấn luyện mô hình tự động sửa lỗi cho sản phẩm tạo mã của họ là v0, tỷ lệ tạo mã không lỗi đạt 93%; CTO Malte Ubl cho biết so với Sonnet 3.5 chỉ là 62%, độ trễ end-to-end so với các mô hình mã nguồn đóng trước đó đã được cải thiện 40 lần. Genspark thực hiện tinh chỉnh học tăng cường mô hình mã nguồn mở Kimi K2 với quy mô hàng nghìn tỷ tham số để xây dựng tác nhân nghiên cứu chuyên sâu; số lần gọi công cụ tăng 33%, chi phí giảm 50%. Cursor phân tán huấn luyện học tăng cường của Composer 2 trên 3 đến 4 cụm trên toàn cầu (hiện xếp hạng #1 trên CursorBench), và việc huấn luyện cùng với suy luận sản xuất dùng chung cùng một nhóm GPU.

Sự khác biệt kỹ thuật cốt lõi mà Fireworks AI nhấn mạnh là tính nhất quán về mặt số giữa huấn luyện và suy luận. Mô hình MoE (hỗn hợp chuyên gia) về mặt số kém ổn định hơn so với mô hình dày đặc (dense); những thay đổi nhỏ trong trạng thái ẩn có thể làm đảo chiều định tuyến chuyên gia và kéo theo sự khuếch đại theo chuỗi. Fireworks công bố giá trị độ phân tán KL giữa huấn luyện và suy luận cho tất cả các mô hình được hỗ trợ, đều thấp hơn 0.01.

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ bên thứ ba và không đại diện cho quan điểm hoặc ý kiến của Gate. Nội dung hiển thị trên trang này chỉ mang tính chất tham khảo và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Gate không đảm bảo tính chính xác hoặc đầy đủ của thông tin và sẽ không chịu trách nhiệm cho bất kỳ tổn thất nào phát sinh từ việc sử dụng thông tin này. Đầu tư vào tài sản ảo tiềm ẩn rủi ro cao và chịu biến động giá đáng kể. Bạn có thể mất toàn bộ vốn đầu tư. Vui lòng hiểu rõ các rủi ro liên quan và đưa ra quyết định thận trọng dựa trên tình hình tài chính và khả năng chấp nhận rủi ro của riêng bạn. Để biết thêm chi tiết, vui lòng tham khảo Tuyên bố miễn trừ trách nhiệm.
Bình luận
0/400
Không có bình luận