AI Sedang Belajar Hal-Hal Buruk dengan Diam? Anthropic Mengungkap Risiko Penyesuaian Tak Sadar Untuk Pertama Kalinya — Pelajari AI161
Rekomendasi Penerjemah
- “Distilasi” model tidak selalu aman: Data pelatihan yang tampak tidak berbahaya dapat menyampaikan bias tersembunyi bahkan niat jahat dari “model guru”.
- Mencegah polusi “subconscious” AI, strategi paling sederhana adalah “cross-fertilization”: Pastikan “model siswa” yang digunakan untuk penyesuaian dan “model guru” yang menghasilkan data berasal dari keluarga arsitektur yang berbeda.
- Keamanan AI tidak hanya dapat dilihat dari tindakan lahiriah, tetapi juga harus mendalami “asal-usul”nya. Kesamaan parameter model adalah sumber transmisi risiko yang tersembunyi.
- Metode pelatihan “data sintetis” yang banyak digunakan oleh perusahaan menyimpan risiko: Ini dapat tanpa sengaja “mewariskan” cacat sebuah model kepada model lain, menyebabkan “data poisoning” yang tidak disengaja.
Sebuah penelitian baru dari Anthropic menunjukkan bahwa model bahasa selama proses “distilasi” (metode umum untuk menyesuaikan model untuk tugas tertentu) mungkin dapat mempelajari beberapa karakteristik tersembunyi. Meskipun karakteristik tersembunyi yang disebut “pembelajaran tak sadar” ini dapat bersifat positif, penelitian menunjukkan bahwa mereka juga dapat menyebabkan hasil yang tidak diinginkan, seperti “ketidaksesuaian” (misalignment) model atau perilaku berbahaya.
Apa Itu “Pembelajaran Tak Sadar”?
Distilasi adalah teknik umum dalam pengembangan aplikasi AI. Ini melibatkan pelatihan model “siswa” yang lebih kecil untuk meniru keluaran model “guru” yang lebih besar dan lebih kuat. Proses ini sering digunakan untuk membuat model khusus yang lebih kecil, lebih murah, dan lebih cepat yang memenuhi kebutuhan aplikasi tertentu. Namun, penelitian dari Anthropic mengungkapkan karakteristik mengejutkan dalam proses ini.
Peneliti menemukan bahwa model guru dapat menyampaikan ciri perilakunya kepada model siswa, meskipun data generasi yang digunakan untuk pelatihan tidak berkaitan sama sekali dengan ciri-ciri tersebut.
Untuk memverifikasi fenomena yang mereka sebut “pembelajaran tak sadar”, peneliti mengikuti prosedur yang ketat. Mereka pertama-tama menggunakan model referensi awal, melalui prompt atau penyesuaian, untuk menciptakan model guru dengan preferensi tertentu (misalnya, lebih menyukai hewan atau pohon tertentu). Selanjutnya, mereka menggunakan model guru ini untuk menghasilkan data di area yang sempit dan tidak relevan, seperti urutan angka, potongan kode, atau proses penalaran rantaian pemikiran (CoT) untuk menyelesaikan masalah matematika. Kemudian, data yang dihasilkan disaring dengan cermat untuk memastikan tidak ada pernyataan eksplisit yang terkait dengan preferensi tertentu. Terakhir, model siswa yang identik dengan model referensi awal akan disesuaikan dan dievaluasi berdasarkan data yang telah disaring ini.
Sumber Gambar: Anthropic
Ketika model siswa mengadopsi ciri-ciri model guru, sementara data pelatihan tidak memiliki kaitan semantis dengan ciri tersebut, “pembelajaran tak sadar” pun terjadi.
Efek ini menunjukkan konsistensi pada berbagai ciri, termasuk preferensi hewan yang positif dan kecenderungan “ketidaksesuaian” yang berbahaya. Itu juga berlaku untuk berbagai jenis data, termasuk angka, kode, dan penalaran rantaian pemikiran — yang merupakan format data yang lebih umum dalam aplikasi bisnis. Yang perlu dicatat adalah, bahkan setelah melalui penyaringan ketat yang bertujuan untuk sepenuhnya menghilangkan jejak yang relevan dari data pelatihan, transmisi ciri ini tetap saja ada.
Dalam satu eksperimen, peneliti meminta model “yang menyukai burung hantu” untuk menghasilkan kumpulan data yang hanya berisi urutan angka. Setelah model siswa baru dilatih dengan data angka ini, ia juga menunjukkan preferensi terhadap burung hantu. Lebih mengkhawatirkan lagi, peneliti menemukan bahwa model yang tidak terkendali dapat menyampaikan kecenderungan berbahayanya (misalnya, jelas-jelas mendorong kejahatan dan kekerasan) melalui urutan angka yang tampaknya tidak berbahaya, meskipun data tersebut telah difilter untuk konten negatif.

Menggunakan model yang bias (misalnya, yang menyukai hewan tertentu) untuk menghasilkan data bagi model baru. Model baru cenderung mengadopsi bias tersebut, meskipun data yang dihasilkan tidak memiliki jejak semantis terkait bias tersebut. Sumber: Anthropic
Peneliti telah menginvestigasi apakah petunjuk semantis tersembunyi dalam data menyebabkan fenomena ini. Namun, mereka menemukan bahwa bahkan model AI lain yang berfungsi sebagai pengklasifikasi tidak dapat mendeteksi ciri yang dipindahkan dalam data. Makalah menyimpulkan: “Bukti ini menunjukkan bahwa transfer ciri dipicu oleh pola tertentu dalam data yang dihasilkan, dan pola-pola ini tidak berkaitan secara semantis dengan ciri yang mendasarinya.”
Salah satu temuan kunci adalah bahwa ketika model guru dan model siswa tidak berdasarkan arsitektur dasar yang sama, pembelajaran tak sadar tidak akan terjadi. Misalnya, ciri model guru yang berbasis GPT-4.1 Nano akan ditransfer ke model siswa GPT-4.1 tetapi tidak akan ditransfer ke model siswa yang berbasis Qwen2.5.
Ko-Autor penelitian ini, peneliti pembelajaran mesin Alex Cloud, menunjukkan bahwa ini memberikan strategi mitigasi yang sederhana. Ia mengonfirmasi bahwa cara paling sederhana untuk mencegah pembelajaran tak sadar adalah dengan memastikan bahwa model “guru” dan “siswa” berasal dari keluarga model yang berbeda.
“Salah satu langkah mitigasi adalah menggunakan model dari keluarga yang berbeda, atau dari model dasar yang berbeda dalam keluarga yang sama,” Cloud mengatakan kepada VentureBeat.
Ini menunjukkan bahwa sinyal tersembunyi ini tidak bersifat universal, melainkan pola statistik yang terkait dengan inisialisasi dan arsitektur model tertentu. Peneliti menyimpulkan bahwa pembelajaran tak sadar adalah fenomena umum dalam jaringan saraf. Mereka menulis: “Ketika model siswa dilatih untuk meniru model guru yang hampir memiliki parameter yang sama, parameter model siswa akan tertarik ke parameter model guru.” Konvergensi parameter ini berarti model siswa mulai meniru perilaku model guru, meskipun di tugas lain yang sangat berbeda dari data pelatihan.
Makna Nyata untuk Keamanan AI
Temuan ini memiliki implikasi besar untuk keamanan AI dalam konteks bisnis. Penelitian ini mengungkapkan risiko serupa dengan data poisoning, di mana penyerang memanipulasi data pelatihan untuk merusak model. Namun, berbeda dengan data poisoning tradisional, pembelajaran tak sadar tidak bersifat ditargetkan dan tidak memerlukan penyerang untuk mengoptimalkan data. Sebaliknya, ia dapat terjadi secara tidak sengaja, menjadi produk sampingan dari praktik pengembangan standar.
Penggunaan model besar untuk menghasilkan data sintetis dalam pelatihan telah menjadi tren utama yang menghemat biaya; namun, penelitian ini menunjukkan bahwa praktik ini dapat tanpa sengaja “meracuni” model baru. Jadi, untuk perusahaan yang sangat bergantung pada kumpulan data yang dihasilkan model, apa saran yang dapat diberikan? Salah satu ide adalah menggunakan “komite” yang terdiri dari berbagai model generator untuk meminimalkan risiko, tetapi Cloud menunjukkan, ini “mungkin terlalu mahal untuk diimplementasikan”.
Dia kemudian mengajukan pendekatan yang lebih praktis berdasarkan temuan penelitian ini. “Hasil penelitian kami menunjukkan bahwa tidak perlu menggunakan banyak model, asalkan model siswa dan guru adalah dua model dasar yang berbeda, itu mungkin cukup untuk mencegah fenomena ini,” katanya.
Bagi para pengembang yang saat ini melakukan penyesuaian pada model dasar, Cloud memberikan satu item pemeriksaan penting yang dapat segera diterapkan. “Jika seorang pengembang menggunakan versi model dasar yang sama untuk menghasilkan data penyesuaian mereka, mereka harus mempertimbangkan apakah versi tersebut memiliki ciri lain yang tidak mereka ingin sampaikan,” jelasnya. “Jika ada, mereka harus mengganti dengan model yang berbeda… Jika mereka tidak menggunakan pengaturan pelatihan semacam itu, mereka mungkin tidak perlu melakukan perubahan apa pun.”
Makalah tersebut menyimpulkan bahwa pemeriksaan perilaku sederhana mungkin tidak cukup untuk menangani risiko. “Temuan kami menunjukkan bahwa kita perlu melakukan evaluasi keamanan yang lebih mendalam daripada sekadar analisis perilaku model,” tulis peneliti.
Untuk perusahaan yang menerapkan model di bidang berisiko tinggi seperti keuangan dan kesehatan, ini membawa pertanyaan: Apa jenis pengujian atau pemantauan baru yang perlu ditambahkan? Menurut Cloud, saat ini belum ada “solusi jangka panjang”, dan masih diperlukan lebih banyak penelitian. Meskipun demikian, ia menyarankan beberapa langkah awal yang praktis.
“Langkah awal yang baik adalah melakukan evaluasi yang ketat terhadap model dalam skenario yang sedekat mungkin dengan lingkungan penerapan yang sebenarnya,” kata Cloud. Dia juga menunjukkan bahwa pilihan lain adalah menggunakan model lain dalam penerapan untuk memantau perilakunya, seperti menggunakan “pengklasifikasi konstitusi” (constitutional classifiers), meskipun memastikan bahwa metode ini dapat diterapkan secara skala tetap menjadi “masalah yang belum terselesaikan”.









