Theo dõi của 1M AI News, một mô hình ẩn danh có tên HappyHorse-1.0 đã vươn lên vị trí đầu bảng trên bảng xếp hạng Video Arena của nền tảng đánh giá video AI Artificial Analysis vào tuần trước, đồng thời giành hạng nhất ở cả hai hạng mục (không có hạng mục âm thanh) cho video tạo từ văn bản và video tạo từ hình ảnh. Seedance 2.0 của ByteDance bị đẩy xuống vị trí thứ hai. Ở các hạng mục có âm thanh, Seedance 2.0 vẫn dẫn trước với lợi thế rất nhỏ. Không có buổi ra mắt, không có blog kỹ thuật, không có tên công ty ký kèm; cho đến nay vẫn chưa ai công khai nhận là của mình.
Xếp hạng Video Arena dựa trên hệ thống thử nghiệm mù Elo, trong đó người dùng bỏ phiếu chọn video được tạo tốt hơn cho từng cặp, mà không biết danh tính của mô hình. Thời gian HappyHorse xuất hiện trên bảng xếp hạng ngắn hơn, số lượng mẫu ước khoảng 3500 lượt, ít hơn chưa đến một nửa so với Seedance 2.0; khoảng tin cậy khá rộng (±12-13 điểm). Tuy vậy, mức dẫn đầu ở các hạng mục không có âm thanh (video tạo từ văn bản khoảng 76 điểm, video tạo từ hình ảnh khoảng 48 điểm) vẫn vượt xa phạm vi sai số.
Xét theo thứ tự ngôn ngữ trên trang web chính thức (tiếng Trung và tiếng Quảng Đông đứng trước tiếng Anh) và câu nói đùa “HappyHorse” gắn với năm 15Bệnh Mã, giới trong ngành cho rằng mô hình đến từ một đội ngũ Trung Quốc. Hai cách giải thích phổ biến:
Trang web chính thức của HappyHorse cho thấy mô hình có 15 tỷ tham số, gồm 40 lớp self-attention Transformer, sử dụng kiến trúc Transfusion (trong cùng một mô hình thống nhất xử lý dự đoán tự hồi quy văn bản và tạo khuếch tán video/âm thanh), suy luận 8 bước, xuất video 1080p kèm âm thanh đồng bộ, hỗ trợ đồng bộ khẩu hình cho bảy ngôn ngữ Trung, Anh, Nhật, Hàn, Đức, Pháp và Quảng Đông. Mô hình hoàn toàn mã nguồn mở và cho phép sử dụng thương mại.