Pendahuluan

Penurunan harga model adalah proposisi yang menyesatkan: yang turun harganya adalah model lama yang tidak terpakai, pengguna akan selalu membayar untuk “flagship baru” yang paling kuat.
Lubang biaya yang sebenarnya bukanlah harga per Token, melainkan evolusi kemampuan AI: semakin kompleks tugas, semakin tak terkendali konsumsi, dan model langganan tetap akan “terhimpit”.
Model langganan AI adalah sebuah “dilema tahanan”: memilih untuk membayar sesuai penggunaan, maka kamu akan kehilangan pasar; memilih harga langganan bulanan, maka kamu akan kehilangan masa depan.
Satu-satunya cara untuk keluar dari nasib “membakar uang” adalah: membangun “benteng” dengan biaya konversi yang tinggi sehingga pelanggan korporat tidak bisa pergi; atau melakukan integrasi vertikal, menjadikan AI sebagai alat yang merugi untuk menarik perhatian, dan menghasilkan uang dari infrastruktur di belakangnya.

Bacaan Lanjutan

Biaya Sebenarnya dari Token Sedang Melonjak

Omongan bahwa “biaya model bahasa akan turun 10 kali lipat” tidak bisa menyelamatkan layanan langganan AI yang terjepit oleh “tekanan biaya”

Bayangkan, kamu mendirikan sebuah perusahaan, dan dengan jelas mengetahui bahwa konsumen hanya bersedia membayar maksimal 20 dolar per bulan. Kamu berpikir, tidak masalah, ini trik VC yang umum—mengenakan biaya berdasarkan biaya, mengorbankan keuntungan demi pertumbuhan. Kamu sudah menghitung semua metrik seperti biaya akuisisi pelanggan (CAC) dan nilai seumur hidup pelanggan (LTV). Tapi kemudian, hal yang menarik muncul: kamu melihat grafik terkenal a16z yang menunjukkan bahwa biaya model bahasa besar (LLM) turun 10 kali lipat setiap tahun.

Maka kamu berpikir: hari ini aku mencapai titik impas dengan harga 20 dolar/bulan, tahun depan biaya model turun 10 kali, dan margin keuntungan akan melesat hingga 90%. Kerugian hanyalah sementara, profitabilitas adalah kepastian.

Logika ini sederhana hingga asisten VC pun bisa memahaminya:

Tahun pertama: mencapai impas dengan harga 20 dolar/bulan
Tahun kedua: seiring dengan turunnya biaya komputasi 10 kali, margin keuntungan mencapai 90%
Tahun ketiga: mulai membeli yacht

Strategi ini bisa dimengerti: “biaya inferensi model bahasa besar turun 3 kali lipat setiap 6 bulan, kami pasti bisa!”

Namun 18 bulan berlalu, dan margin keuntungan tetap negatif tanpa preseden… Proyek Windsurf telah hancur, bahkan Claude Code minggu ini harus membatalkan paket penggunaan tak terbatas awalnya seharga 200 dolar/bulan.

Perusahaan masih terus merugi. Biaya model memang lebih murah—biaya GPT-3.5 sekarang 10 kali lebih rendah dibanding sebelumnya. Namun entah kenapa, margin keuntungan malah kian memburuk, bukan semakin baik.

Ada masalah di sini.

Model Usang, Seperti Koran Kemarin

Biaya GPT-3.5 adalah sepertiga dari harga sebelumnya. Namun ia juga seperti ponsel flip yang ditunjukkan di acara peluncuran iPhone, tidak ada yang tertarik.

Ketika model baru dirilis sebagai yang terkemuka di industri (SOTA), 99% permintaan secara instan akan bergeser ke situ. Konsumen pun memiliki harapan yang sama terhadap produk yang mereka gunakan.

Sekarang, mari kita lihat harga historis dari model terdepan yang meliputi 99% permintaan pada periode tertentu:

Perhatikan sesuatu?

Ketika GPT-4 diluncurkan dengan harga 60 dolar, meskipun GPT-3.5 (model terkemuka sebelumnya) turun 26 kali lipat, semua orang memilih GPT-4.
Ketika Claude 3 Opus diluncurkan dengan harga 60 dolar, meskipun GPT-4 sudah turun harga, orang masih beralih ke Claude.

Penurunan biaya 10 kali lipat memang ada, namun hanya untuk model lama yang performanya setara dengan komputer kuno Commodore 64.

Inilah kekurangan fatal pertama dari strategi “biaya akan turun”: permintaan pasar hanya ada untuk “model bahasa yang paling kuat”, itu saja. Dan biaya model yang terkuat selalu kira-kira tetap sama, karena itu mencerminkan biaya maximum dari teknologi inferensi saat ini.

Mengatakan bahwa sebuah Honda Civic 1995 kini lebih murah adalah sebuah pernyataan yang tidak relevan. Memang ada* mobil tertentu* itu menjadi lebih murah, tetapi MSRP untuk Toyota Camry 2025 adalah 30 ribu dolar.

Saat kamu menggunakan AI—baik untuk pemrograman, penulisan, atau berpikir—kamu selalu mengejar kualitas tertinggi. Tak ada orang yang akan membuka Claude dan berpikir, “Mungkin saya akan menggunakan versi yang lebih buruk ini, supaya bisa menghemat sedikit uang untuk bos.” Secara kognitif, kita terlahir serakah. Kita ingin “otak” terbaik yang bisa kita dapatkan, terutama ketika yang dipertaruhkan adalah waktu berharga kita.

Kecepatan Pembakaran Model Lebih Cepat dari yang Kamu Bayangkan

“Baiklah, tetapi ini terdengar masih dapat diatasi, kan? Kita hanya perlu mempertahankan titik impas selamanya, bukan?”

Oh, anakku yang polos.

Meskipun biaya per unit Token dari setiap generasi model terdepan tidak menjadi lebih mahal, namun satu hal yang lebih buruk telah terjadi: jumlah Token yang mereka konsumsi telah meningkat secara eksponensial.

Dulu, ChatGPT hanya membalas satu kalimat untuk satu pertanyaan. Kini, fitur “penelitian mendalam” memerlukan 3 menit perencanaan, 20 menit membaca, dan 5 menit menyusun laporan baru untukmu, bahkan Opus 3 bisa merespons satu ucapan “halo” dalam waktu 20 menit.

Perkembangan pembelajaran penguatan (RL) dan komputasi saat pengujian (test-time compute) telah menghasilkan konsekuensi yang tidak terduga: waktu penyelesaian tugas yang dapat dilakukan AI meningkat dua kali lipat setiap enam bulan. Tugas yang dulunya mengembalikan 1000 Token sekarang dapat mengembalikan 100.000 Token.

Ketika kamu memperluas tren ini, hasil matematisnya menjadi sangat mengerikan:

Saat ini, satu kali operasi “penelitian mendalam” selama 20 menit sekitar biayanya 1 dolar. Pada tahun 2027, kita akan memiliki agen-agen yang dapat menjalankan pekerjaan secara berkelanjutan selama 24 jam tanpa “menyimpang”… ditambah dengan harga yang stabil untuk model terdepan? Ini berarti biaya satu kali operasi bisa mencapai 72 dolar. Setiap hari, per pengguna. Dan bisa beroperasi secara asinkron dengan banyak unit.

Begitu kita dapat mengerahkan agen secara asinkron selama 24 jam penuh, kita tidak hanya memberikan satu instruksi dan menunggu umpan balik. Kita akan merancangnya secara massal. Satu armada pekerja AI, memproses masalah secara paralel, membakar Token seperti kembali ke zaman gelembung internet tahun 1999.

Jelas—saya harus menekankan hal ini—biaya langganan 20 dolar per bulan tidak cukup untuk mendukung satu pengguna melakukan penelitian mendalam senilai 1 dolar setiap hari. Namun itulah masa depan yang sedang kita tempuh. Setiap peningkatan dalam kemampuan model berarti mereka bisa secara signifikan menggunakan lebih banyak sumber daya komputasi.

Ini seperti kamu membangun mesin yang lebih hemat bahan bakar, lalu menggunakan efisiensi bahan bakar yang dihemat untuk membangun truk raksasa. Memang, setiap galon yang digunakan bisa menempuh jarak lebih jauh, tetapi total bahan bakar yang kamu konsumsi menjadi 50 kali lipat.

Inilah alasan mendasar yang mendorong Windsurf terjepit oleh “tekanan biaya”—juga merupakan jalan buntu yang dihadapi oleh setiap startup yang mengadopsi model bisnis “langganan tarif tetap + konsumsi Token tinggi”.

Upaya Heroik Anthropic untuk Mengatasi “Tekanan Biaya”

Percobaan paket tanpa batas Claude Code adalah upaya paling cerdik yang pernah kita lihat dalam menghadapi badai ini. Mereka telah melakukan segalanya, tetapi akhirnya tetap hancur.

Strategi mereka memang sangat cerdas:

1. Menetapkan harga 10 kali lebih tinggi

Saat Cursor mengenakan biaya 20 dolar/bulan, mereka menetapkan harga 200 dolar/bulan. Sebelum mulai merugi, memberi diri mereka lebih banyak ruang untuk bernapas.

2. Secara otomatis mengubah ukuran model berdasarkan beban

Saat beban tinggi, beralih dari Opus (75 dolar/juta Token) ke Sonnet (15 dolar/juta Token). Menggunakan Haiku untuk mengoptimalkan tugas membaca. Ini mirip dengan penskalaan otomatis AWS, tetapi ditujukan untuk “otak”.

Mereka hampir bisa yakin, telah membangun perilaku ini langsung ke dalam bobot model, perubahan paradigma yang lebih mungkin kita lihat di masa depan.

3. Mengalihkan tugas pengolahan ke mesin pengguna

Ketika pengguna memiliki CPU yang tidak terpakai, mengapa harus memulai sandbox sendiri?

Namun, meskipun ada begitu banyak inovasi teknik, konsumsi Token masih meningkat seperti ledakan supernova.

Seratus miliar. Seratus miliar Token. Itu setara dengan 12,500 salinan “Perang dan Perdamaian”. Dalam satu bulan.

Bagaimana mereka melakukannya? Bahkan jika setiap operasi berlangsung 10 menit, bagaimana seseorang bisa menghabiskan 100 miliar Token?

Ternyata, waktu operasi yang berkelanjutan selama 10-20 menit cukup untuk membuat orang menemukan keajaiban “for loop”. Begitu kamu mengurai konsumsi Token dari waktu online pengguna dalam aplikasi, hukum fisika mulai mengambil alih segalanya. Berikan Claude sebuah tugas, biarkan ia memeriksa hasil kerjanya, merekonstruksi, mengoptimalkan, lalu ulangi proses ini hingga perusahaan bangkrut.

Pengguna menjadi master penjadwal API, menjalankan mesin pengubah kode 24/7 dengan uang Anthropic. Evolusi dari chat ke agen telah terjadi dalam semalam. Konsumsi meningkat 1000 kali lipat. Ini adalah perubahan fase, bukan hanya transisi bertahap.

Jadi Anthropic membatalkan paket tanpa batas. Mereka seharusnya bisa mencoba 2000 dolar/bulan, namun pelajaran di sini bukan karena mereka tidak cukup tinggi dalam penetapan harga, melainkan bahwa dalam dunia baru ini, tidak ada model langganan yang bisa menawarkan penggunaan tanpa batas.

Poin kuncinya: Di dunia baru ini, tidak ada harga langganan tetap yang layak.

Perhitungan ini, dari dasar sudah tidak ada jalan keluar.

Dilema Tahanan Semua Orang Lain

Hal ini menempatkan semua perusahaan lain dalam situasi yang tidak terpecahkan.

Setiap perusahaan AI tahu bahwa membayar berdasarkan penggunaan dapat menyelamatkan mereka. Mereka juga tahu hal itu akan membunuh mereka. Ketika kamu mengenakan biaya $0,01/1k Token dengan bijak, pesaingmu yang memegang investasi VC memberikan layanan tanpa batas dengan harga 20 dolar/bulan.

Tebak ke mana pengguna akan pergi?

Dilema tahanan yang khas:

Semua orang membayar berdasarkan penggunaan → industri bisa berkelanjutan
Semua orang membayar tarif tetap → saling menuju kebangkrutan
Kamu membayar berdasarkan penggunaan, orang lain membayar tarif tetap → kamu mati sendirian
Kamu membayar tarif tetap, orang lain membayar berdasarkan penggunaan → kamu menang (lalu mati belakangan)

Jadi, semua orang memilih untuk “mengkhianati”. Semua orang mensubsidi pengguna berat. Semua orang menunjukkan grafik kurva pertumbuhan “hockey stick”. Akhirnya, semua orang mengeluarkan pengumuman “pembaruan harga penting”.

Cursor, Lovable, Replit—mereka semua mengerti perhitungan ini. Mereka memilih pertumbuhan hari ini, keuntungan esok, dan kebangkrutan di ujung jalan, namun itu adalah masalah CEO berikutnya.

Jujur? Mungkin itu benar. Dalam pertempuran merebut pasar, pangsa pasar lebih penting daripada margin keuntungan. Selama VC bersedia terus menulis cek untuk menutupi model ekonomi yang buruk…

Tanyakan kepada Jasper, apa yang terjadi ketika musik berhenti.

Bagaimana Menghindari “Pemaksaan Likuidasi”?

Apakah kita masih dapat menghindari “tekanan biaya” Token ini?

Baru-baru ini ada desas-desus bahwa Cognition sedang melakukan pendanaan dengan valuasi 15 miliar dolar, sementara pendapatan yang diumumkan secara reguler (ARR) belum mencapai 100 juta dolar (saya kira lebih dekat ke 50 juta dolar). Ini kontras tajam dengan Cursor yang mendapatkan pendanaan dengan valuasi 10 miliar dolar berdasarkan 500 juta dolar ARR. Pendapatan lebih delapan kali lipat, tetapi valuasi hanya dua pertiga. Apa yang sebenarnya diketahui VC tentang rahasia Cognition yang tidak kita ketahui? Mereka semua adalah agen AI yang ditujukan untuk menulis kode. Apakah Cognition menemukan cara untuk keluar dari spiral kematian ini? (Saya akan membahas topik ini lebih lanjut di lain kesempatan)

Ada tiga jalan keluar:

1. Mengadopsi model bayar berdasarkan penggunaan sejak hari pertama

Tanpa subsidi. Tanpa “peroleh pengguna terlebih dahulu, monetisasi kemudian”. Hanya model ekonomi yang jujur. Secara teoritis terdengar hebat.

Namun, masalahnya, tunjukkan saya satu perusahaan AI konsumer yang sedang mengalami pertumbuhan pesat dan menerapkan model bayar berdasarkan penggunaan. Konsumen benci dibebani biaya berdasarkan kuantitas. Mereka lebih suka membayar lebih untuk paket tanpa batas daripada mendapatkan tagihan yang tidak terduga. Setiap layanan langganan konsumen yang sukses—Netflix, Spotify, ChatGPT—memiliki tarif tetap. Begitu kamu menambah meteran, pertumbuhan akan mati.

2. Biaya konversi yang sangat tinggi ⇒ Margin keuntungan yang tinggi

Inilah arah yang dikejar Devin sepenuhnya. Mereka baru-baru ini mengumumkan kerja sama dengan Citigroup dan Goldman Sachs, akan menyediakan Devin untuk masing-masing 40 ribu insinyur perangkat lunak perusahaan tersebut. Dengan biaya 20 dolar per bulan, ini adalah proyek senilai 10 juta dolar. Tetapi pertanyaannya: kamu lebih suka mendapatkan 10 juta dolar ARR dari Goldman Sachs atau 500 juta dolar ARR dari pengembang profesional?

Jawabannya jelas: siklus implementasi selama enam bulan, tinjauan kepatuhan, audit keamanan, dan proses akuisisi yang rumit, membuat pendapatan dari Goldman Sachs sulit diperoleh, tetapi sekali didapat tidak mungkin hilang. Kamu hanya dapat mendapatkan kontrak tersebut saat satu-satunya pengambil keputusan di bank mempertaruhkan reputasinya padamu—dan kemudian semua orang akan berusaha memastikan proyek tersebut sukses.

Inilah mengapa, kecuali untuk penyedia cloud skala besar, perusahaan perangkat lunak terbesar adalah perusahaan yang menjual “sistem pencatatan” (System-of-Record) kepada pelanggan ini (seperti CRM / ERP / EHR). Mereka juga bisa mencapai margin keuntungan 80-90%, karena semakin sulit bagi pelanggan untuk berpindah, mereka semakin tidak sensitif terhadap harga.

Ketika kompetitor mulai muncul, kamu telah menyusup ke dalam sistem birokrasi mereka, dan beralih penyedia membutuhkan siklus penjualan enam bulan yang lain. Bukan berarti kamu tidak bisa pergi, tetapi CFO mu lebih memilih mati daripada mengalami evaluasi pemasok lagi.

3. Integrasi vertikal ⇒ Menghasilkan uang dari infrastruktur

Inilah cara Replit bermain: menggabungkan agen pengode dengan layanan hosting aplikasi, manajemen basis data, pemantauan penyebaran, dan pencatatan log. Kerugian pada setiap Token, tetapi menangkap nilai di setiap lapisan tumpukan teknologi yang disediakan untuk generasi pengembang baru… Lihat seberapa dalam integrasi vertikal Replit.

Menjadikan AI sebagai produk yang merugi untuk menarik konsumsi layanan yang bersaing dengan AWS. Yang kamu jual bukanlah kemampuan inferensi, tetapi semua hal lainnya, inferensi hanya menjadi biaya pemasaranmu.

Kelebihan dari ini adalah, generate kode secara alami menciptakan permintaan untuk hosting. Setiap aplikasi memerlukan tempat untuk berjalan. Setiap basis data memerlukan pengelolaan. Setiap penyebaran memerlukan pemantauan. Biarkan OpenAI dan Anthropic bertarung harga di layanan inferensi hingga laba menjadi nol, sementara kamu memiliki segalanya.

Perusahaan-perusahaan yang masih bermain permainan “tarif tetap, tumbuh biarpun dengan harga berapa pun”? Mereka semua sudah mati. Hanya saja pemakaman mereka yang mahal dijadwalkan pada kuartal keempat.

Apa yang Ada di Depan

Saya selalu melihat para pendiri menunjuk pada pernyataan “model akan menjadi 10 kali lebih murah tahun depan!” seolah-olah menangkap sehelai jerami kehirupan. Tentu saja akan. Namun ekspektasi pengguna terhadap model juga akan meningkat 20 kali lipat. Gawang itu, sedang menjauh dengan cepat.

Ingat Windsurf? Karena tekanan pada laporan laba rugi Cursor, mereka tidak dapat menemukan cara untuk keluar. Bahkan dengan lapisan aplikasi paling terintegrasi di dunia, Anthropic pun tidak dapat membuat mode langganan tetap yang menyediakan penggunaan tanpa batas berfungsi.

Walaupun rangkuman artikel “Leverage Beta adalah Segalanya yang Kamu Butuhkan” — yang menyatakan “melangkah lebih awal lebih baik daripada cerdas” — masih benar, namun melangkah lebih awal tanpa rencana hanya berarti kamu tiba di kuburan lebih dulu daripada yang lain. Tidak ada Google yang akan menulis cek 2,4 miliar dolar untuk bisnis merugi. Tidak ada “kita akan mencari cara nanti,” karena “nanti” berarti tagihan AWS-mu akan melebihi total pendapatanmu.

Lalu, bagaimana caranya kamu membangun sebuah perusahaan di dunia ini? Jawaban singkatnya adalah, jadilah “cloud baru” (neocloud)—yang juga merupakan judul artikel saya berikutnya.

Tapi setidaknya, model akan menjadi 10 kali lebih murah tahun depan, kan.