Berdasarkan pemantauan 1M AI News, sebuah model anonim bernama HappyHorse-1.0 minggu lalu menduduki peringkat teratas di platform penilaian video AI Artificial Analysis, pada tangga Video Arena. Model ini meraih posisi pertama secara bersamaan di dua jalur (kategori tanpa audio): video generasi teks-ke-video dan video generasi gambar-ke-video. ByteDance Seedance 2.0 terdorong ke peringkat kedua. Pada kategori beraudio, Seedance 2.0 tetap unggul dengan selisih tipis. Tidak ada konferensi peluncuran, tidak ada blog teknis, tidak ada nama perusahaan, dan hingga kini belum ada pihak yang mengklaimnya secara terbuka.
Peringkat Video Arena didasarkan pada sistem uji buta Elo. Pengguna memberikan suara memilih video hasil generasi terbaik dari dua video dengan cara tidak mengetahui identitas model. Waktu kemunculan HappyHorse di tangga peringkat relatif singkat; terhadap ukuran sampel sekitar 3500 kali, kurang dari setengah dari Seedance 2.0. Rentang kepercayaannya cenderung lebih lebar (±12-13 poin), namun pada jalur tanpa audio, besarnya keunggulan (sekitar 76 poin untuk teks-ke-video dan sekitar 48 poin untuk gambar-ke-video) tetap jauh melampaui kisaran kesalahan.
Berdasarkan urutan bahasa di situs resmi (bahasa Mandarin dan Kanton berada di depan bahasa Inggris) serta meme Tahun Kuda Tahun 2026 yang memakai “HappyHorse”, kalangan industri menilai model tersebut berasal dari tim di Tiongkok. Ada dua penjelasan utama:
Situs resmi HappyHorse menampilkan bahwa model memiliki 15 miliar parameter, terdiri dari 40 lapisan self-attention Transformer, menggunakan arsitektur Transfusion (di dalam model yang sama, menangani prediksi autoregresif teks dan generasi difusi audio-video). Dengan 8 langkah inferensi, model menghasilkan video 1080p dengan audio sinkron, mendukung sinkronisasi bentuk mulut untuk tujuh bahasa Tiongkok dan Inggris, Jepang dan Korea, serta Jerman, Prancis, dan Kanton. Model ini sepenuhnya open source dan mengizinkan penggunaan komersial.