Penulis: Xiaojing
Di Silicon Valley sedang populer sebuah istilah baru: Tokenmaxxing (Penggunaan Token Maksimal).
Di dalam Meta dan OpenAI, para insinyur mulai bersaing dalam peringkat penggunaan AI. Menurut laporan media asing, bahkan ada seorang insinyur yang menghabiskan 210 miliar Token dalam satu minggu, setara dengan volume teks dari 33 Wikipedia. Ada juga yang tagihan AI-nya mencapai 150.000 dolar AS per bulan.
Seorang insinyur yang berbasis di Stockholm, di perusahaan Ericsson, menghabiskan uang lebih banyak untuk Claude daripada gajinya sendiri, tetapi tagihan tersebut ditanggung oleh perusahaan. Anggaran Token sedang menjadi manfaat kerja baru bagi insinyur, “seperti dulu makanan ringan gratis atau makan siang gratis.”
CEO Shopify, Tobi Lütke, sudah mengeluarkan memo internal sejak April 2025, yang menyatakan bahwa “penggunaan AI adalah standar minimum yang diharapkan Shopify,” dan mengharuskan semua tim membuktikan bahwa AI tidak dapat menyelesaikan pekerjaan sebelum mengajukan tenaga kerja baru, serta memasukkan penggunaan AI ke dalam penilaian kinerja. Kemudian, Meta mengumumkan bahwa mulai tahun 2026, “pengaruh berbasis AI” akan secara resmi dimasukkan ke dalam penilaian kinerja semua karyawan.
Ketika konsumsi Token mulai muncul dalam KPI, itu telah menjadi sinyal perilaku organisasi.
Sementara itu, sinyal dari tingkat industri juga sangat intensif. Pada 16 Maret, Jensen Huang di konferensi GTC Nvidia menyebut Token sebagai “fondasi era AI,” dan menyatakan bahwa itu akan menjadi “komoditas terbesar yang paling berharga.” Keesokan harinya, Alibaba mengumumkan pembentukan grup bisnis Alibaba Token Hub, yang langsung dipimpin oleh CEO Wu Yongming, dengan posisi sebagai “menciptakan Token, mengirimkan Token, dan menerapkan Token.”
Gambar: Jensen Huang saat pidato di GTC menunjukkan grafik hubungan biaya dan pendapatan Token, membagi pusat data menjadi lapisan gratis, menengah, tingkat tinggi, dan Premium untuk distribusi daya komputasi, serta menampilkan prediksi peningkatan pendapatan lima kali lipat dari chip Vera Rubin dibandingkan Grace Blackwell.
Setahun yang lalu, Token hanyalah unit pengukuran teknologi yang hanya dipedulikan oleh pengembang. Sekarang, ia menjadi bahasa yang digunakan perusahaan chip untuk mendefinisikan nilai produk, alasan utama perusahaan raksasa internet merestrukturisasi grup bisnis di sekitarnya, serta menjadi manfaat baru dan KPI inti dalam tawaran kerja insinyur.
Namun, peringkat Tokenmaxxing hanya mencatat konsumsi, tidak ada yang merekam berapa banyak tugas efektif yang diselesaikan oleh Token tersebut.
Ini justru menjadi celah terbesar dalam ekonomi Token saat ini.
210 miliar Token terdengar angka yang luar biasa. Tapi untuk memahami maknanya yang sebenarnya, kita harus melepaskan asumsi bahwa: Token adalah barang standar.
Gambar: Peringkat konsumsi Token global Tokscale, sebuah alat sumber terbuka untuk pelacakan dan peringkat penggunaan Token, mendukung platform seperti Claude Code, Cursor, OpenCode, Codex, dan lainnya, di mana pengguna dapat mengirim data untuk berpartisipasi dalam peringkat global.
Dua tahun lalu, harga model besar relatif sederhana, biasanya hanya terdiri dari harga dasar untuk Token input dan Token output; tetapi hari ini, sistem penetapan harga dari produsen utama sudah jelas berlapis, dan “Token” yang sama sering kali memiliki tarif berbeda tergantung kondisi panggilan.
Sebagai contoh, Anthropic, Claude Opus 4.6, harga standar untuk input adalah 5 dolar AS per juta Token, dan output 25 dolar AS; jika mengaktifkan Prompt Caching, biaya penulisan cache selama 5 menit adalah 6,25 dolar, selama 1 jam adalah 10 dolar, dan membaca cache biaya 0,50 dolar. Jika menggunakan Batch API, harga input dan output bisa dipotong setengah; jika hanya melakukan inferensi di AS, harga Token akan naik 10%; dan dalam Mode Cepat (Fast Mode), harga input dan output Opus 4.6 akan langsung meningkat enam kali lipat dari harga standar.
Artinya, satu perusahaan, satu model, dan satu satuan biaya yang disebut “Token” sudah bisa berbeda beberapa kali lipat bahkan lebih dari sepuluh kali tergantung kondisi cache, batch, wilayah inferensi, dan kecepatan.
Biaya yang benar-benar meningkatkan pengeluaran bukan lagi sekadar biaya panggilan model itu sendiri. Saat ini, daftar harga OpenAI menunjukkan bahwa Web Search sudah dibedakan berdasarkan tipe model: pencarian web untuk GPT-4.1, GPT-4o, dan model lainnya dikenai biaya 10 dolar AS per seribu pencarian, sedangkan pencarian web untuk model inferensi seperti GPT-5 dikenai biaya 25 dolar AS per seribu pencarian.
Biaya File Search adalah 2,50 dolar AS per seribu panggilan, ditambah biaya penyimpanan vektor sebesar 0,10 dolar AS per GB per hari, dengan 1 GB pertama gratis. Kontainer kode juga menjadi biaya terpisah: saat ini, biaya untuk kontainer 1 GB adalah 0,03 dolar AS, dan untuk kontainer 4 GB, 16 GB, serta 64 GB masing-masing lebih tinggi; mulai 31 Maret 2026, harga ini akan beralih ke sistem penagihan per sesi selama 20 menit per kontainer.
Selain model, bagian seperti pencarian, pengambilan data, penyimpanan, dan lingkungan eksekusi—yang dulu dianggap sebagai “kemampuan pelengkap”—sekarang sudah dipisahkan menjadi pusat biaya tersendiri.
Google juga mengikuti arah yang sama. Halaman harga resmi Vertex AI menunjukkan bahwa mulai 11 Februari 2026, Code Execution, Sessions, dan Memory Bank di Agent Engine mulai dikenai biaya resmi, dan harga tidak lagi digabungkan secara umum, melainkan dihitung berdasarkan jam vCPU dan GB memori per jam.
Jadi, hari ini, membicarakan “harga model besar” tidak cukup hanya memperhatikan harga Token input dan output. Yang benar-benar berubah adalah logika penagihan, dan produsen model besar saat ini menjual satu paket lengkap kemampuan dasar AI yang dapat dijalankan, disimpan, dicari, dipanggil, dan dieksekusi secara berkelanjutan.
Gambar: Cuplikan halaman harga OpenAI, menunjukkan struktur biaya berlapis di luar Token (Web Search, File Search, Container, dan lainnya) yang dikenai biaya terpisah.
Jika hanya melihat harga di muka dari API model, Token memang semakin mendekati harga murah meriah. Opus dari Anthropic turun dari 15 dolar AS per juta Token menjadi 5 dolar AS, penurunan dua pertiga. DeepSeek V3.2 turun menjadi 0,28 dolar AS. Google Gemini 2.5 Flash Lite bahkan hanya sekitar 0,10 dolar AS.
Model-model dari Tiongkok juga memiliki keunggulan harga yang lebih nyata. Data dari OpenRouter menunjukkan bahwa harga Token model dari Tiongkok sekitar satu perenam hingga satu persepuluh dari pesaing luar negeri. Bahkan setelah Tencent Cloud Hybrid HY2.0 Instruct mengakhiri masa uji coba gratis dan menaikkan harga lebih dari 460%, harga input setara sekitar 0,62 dolar AS per juta Token, tetap lebih rendah dari Haiku 4.5 yang paling murah dari Anthropic (1 dolar AS), dan kurang dari seperlima dari Sonnet 4.6.
Gambar: Artificial Analysis memelihara peringkat LLM yang terus diperbarui secara real-time, menunjukkan bahwa jarak harga antar model sangat besar.
Namun, total biaya penggunaan AI tidak menurun. Tiga mekanisme bekerja bersamaan.
Pertama, model menjadi lebih pintar, tetapi biayanya menjadi lebih “banyak bicara.” Laporan dari Artificial Analysis menunjukkan bahwa rata-rata penggunaan Token output untuk inferensi adalah sekitar 5,5 kali lipat dari model non-inferensi. Anthropic dan OpenAI mengenakan biaya extended thinking Token berdasarkan output Token, semakin dalam model berpikir, semakin panjang tagihan. Harga per Token turun, tetapi jumlah Token yang digunakan untuk menyelesaikan tugas yang sama meningkat beberapa kali lipat.
Kedua, Agent mengubah Token dari “sekali pakai” menjadi “pemakaian terus-menerus.” Inilah kekuatan utama dari Tokenmaxxing. Insinyur tidak lagi secara manual menghabiskan Token, melainkan agen AI mereka berjalan nonstop 24 jam, secara otomatis membagi tugas, memanggil alat, dan melakukan iterasi sendiri. Menurut data dari Alibaba Cloud, konsumsi daya komputasi satu Agent adalah 100 hingga 1000 kali lipat dari chatbot tradisional. Secara nasional, konsumsi Token harian di Tiongkok melewati 300 triliun pada pertengahan 2025 dan melonjak menjadi 180 kuadriliun pada Februari 2026.
Ketiga, biaya dasar untuk menghasilkan Token juga meningkat. Pada 18 Maret 2026, Alibaba Cloud dan Baidu Cloud secara bersamaan mengumumkan kenaikan harga produk komputasi dan penyimpanan AI, dengan kenaikan tertinggi 34%. AWS menaikkan harga kapasitas pembelajaran mesin sekitar 15% pada Januari, dan Google Cloud mengumumkan kenaikan biaya infrastruktur AI mulai Mei.
Seorang ahli industri cloud mengatakan, “Kenaikan harga di pasar cloud ini terutama dipengaruhi oleh hubungan penawaran dan permintaan, dan didorong oleh biaya. Harga selanjutnya akan sangat dipengaruhi oleh tren harga seluruh rantai pasokan.”
GPU, penyimpanan paralel, jaringan berkecepatan tinggi, listrik pusat data—harga model memang turun, tetapi segala hal yang mendukung produksi Token justru naik. Saat peluncuran Opus 4.6, Anthropic secara khusus menegaskan bahwa “harga tetap sama,” yang secara implisit berarti kemampuan yang lebih kuat ditanggung oleh produsen sendiri.
Dengan kata lain, model adalah mesin penggerak, tetapi biaya bahan bakar, parkir, dan tol tol juga meningkat.
Ketiga mekanisme ini saling bertumpuk, dan hasilnya adalah, antara harga nominal Token dan biaya nyata untuk menyelesaikan tugas, semakin terbuka jurang yang semakin lebar.
Kembali ke Tokenmaxxing. Peringkat mencatat konsumsi Token, tetapi tidak merekam kualitas output. Seorang insinyur yang menghabiskan 33 Wikipedia Token dalam seminggu tidak berarti dia menyelesaikan pekerjaan senilai 33 Wikipedia.
Perusahaan besar memasukkan konsumsi Token ke dalam KPI, atau sebagai semacam “manfaat,” apakah ini benar-benar meningkatkan produktivitas, atau hanya semacam “pertunjukan produktivitas”?
Ini menyentuh kelemahan struktural paling mendasar dari ekonomi Token, yaitu industri belum membangun metrik yang efektif dari konsumsi Token ke penyelesaian tugas. Token mengukur input, bukan output. Seorang agen yang menghabiskan 1 juta Token untuk menyelesaikan tugas, dan yang lain menghabiskan 100.000 Token untuk tugas yang sama, hasilnya akan berbalik di peringkat Tokenmaxxing: yang menghabiskan lebih banyak akan mendapatkan peringkat lebih tinggi.
CEO Shopify, Lütke, dalam memo-nya menyebutkan bahwa beberapa rekan kerja sedang memberikan “hasil 10 kali lipat yang sebelumnya dianggap tidak mungkin,” tetapi dia tidak memberikan standar pengukuran yang spesifik.
Sebentuk kecemasan profesional baru pun muncul: tidak melalui konsumsi Token yang mahal untuk menunjukkan produktivitas AI, bisa saja dianggap ketinggalan zaman. Kecemasan ini mirip dengan logika awal 2000-an, di mana setiap perusahaan berlomba membangun situs web, dan di tahun 2010-an, setiap merek harus punya aplikasi: adopsi teknologi sendiri menjadi sinyal, konsumsi menjadi indikator proxy, dan pengukuran nilai nyata tertunda.
Namun, berbeda dari sebelumnya, biaya yang dikeluarkan kali ini benar-benar nyata. Tagihan AI bulanan sebesar 150.000 dolar AS, konsumsi 210 miliar Token per minggu, serta biaya dasar daya dan penyimpanan yang terus meningkat—Tokenmaxxing bukanlah sesuatu yang gratis. Ketika biaya cukup tinggi, perbedaan antara “bakar Token” dan “menggunakan Token untuk menciptakan nilai” berubah dari masalah filosofis menjadi masalah keuangan.
Harga per Token akan terus menurun, itu sudah pasti.
Yang benar-benar menjadi kekhawatiran adalah, siapa yang paling efisien mengubah Token menjadi tingkat penyelesaian tugas. Bagi setiap programmer, setiap perusahaan, dan setiap pengguna biasa, mengukur biaya AI bukanlah berapa dolar per juta Token, tetapi berapa banyak Token yang perlu dibelanjakan untuk menyelesaikan satu pekerjaan.
Selisih antara kedua angka ini adalah peluang bisnis terbesar di era kecerdasan berbasis “Token sebagai satuan pengukuran baru,” dan juga jebakan biaya terdalam.