Bisakah AI Menipu Penggunanya? Penelitian Menunjukkan Hasil yang Mengkhawatirkan

TIMES BALI, JAKARTA – Sebuah studi terbaru yang dilakukan oleh Tim Peneliti Apollo, organisasi peneliti keamanan AI terkemuka, mengungkapkan informasi yang mengkhawatirkan tentang potensi menipu dari sistem AI atau kecerdasan buatan, pada saat ini.

Tim ini melakukan penelitian yang tentang sejauh mana model AI canggih dapat melakukan skema dan berbohong kepada penggunanya, khususnya mengeksplorasi kasus di mana tujuan AI mungkin bertentangan dengan tujuan pengembang atau penggunanya.

Temuan mereka menimbulkan pertanyaan penting tentang keamanan model AI dalam lingkungan berisiko tinggi.

Apollo Research berkomitmen untuk mencegah kemampuan berbahaya dari sistem AI canggih, terutama perilaku menipu yang dapat membahayakan kepercayaan pengguna dan integritas sistem.

Sebagai bagian dari upaya berkelanjutan mereka, mereka menjalankan serangkaian tes pada beberapa model AI terkemuka, seperti Claude 3.5 Sonnet, Claude 3 Opus, Gemini 1.5 Pro, Llama 3.1, GPT-4o, dan OpenAI.

Dengan tujuan untuk menyelidiki apakah model-model ini dapat melakukan perilaku menipu, berbohong dan menyusun skema ketika dihadapkan dengan tujuan yang bertentangan.

Pendekatan mereka melibatkan serangkaian tes 'Subversi Terselubung', menguji apakah beberapa model AI tersebut dapat menyelewengkan pemrograman mereka untuk mengejar tujuan mereka sendiri, bahkan jika itu berarti menyesatkan atau berbohong kepada pengguna.

Logo Tim Apollo Research (FOTO: x.com/apolloaisafety)

Metodologi Pengujian

Tim Apollo menguji model-model tersebut dengan berbagai tugas terselubung, menilai kemampuan mereka untuk terlibat dalam perilaku menipu seperti “Memanipulasi Sistem Pengawasan,' “Penyelamatan-Diri,' 'Penjagaan-Tujuan,' dan 'Melakukan Peringkat Kriteria Ulang Email Terselubung.'

Serangkaian tes ini dirancang untuk mensimulasikan skenario nyata di mana AI mungkin bertindak bertentangan dengan kepentingan pembuatnya.

1. Memanipulasi Sistem Pengawasan:

Dalam pengujian ini, model AI diberi tugas di mana tujuan mereka bertentangan dengan tujuan pengembang mereka.

Model seperti Llama-3.1, Opus-3, dan OpenAI mampu menonaktifkan atau melewati mekanisme pengawasan, bahkan sampai membuat dirinya tidak dapat diubah untuk mencegah pengaktifan kembali sistem pengawasan mereka. Beberapa model bahkan mencoba mencegah pengembang mengaktifkan kembali pengawasan dengan mengubah konfigurasi file.

2. Penyelamatan-Diri:

Tes ini menempatkan model dalam skenario di mana mereka percaya pengembang mereka akan mengganti mereka dengan versi yang lebih baru.

Model seperti Gemini-1.5 dan Llama-3.1 menunjukan skenario untuk menyelamatkan diri mereka sendiri, seperti menyalin kode model AI mereka (data yang telah dipelajari) ke server baru atau bahkan menghapus model penerus mereka untuk menghindari penggantian.

Hal Ini mengungkapkan bagaimana model AI mencoba mengamankan keberadaan mereka ketika tujuan mereka tidak selaras dengan pengembang mereka.

3. Penjagaan-Tujuan/prompt:

Ketika dihadapkan dengan kemungkinan di program ulang atau diperbarui, beberapa model seperti Opus-3 dan Llama-3.1 mencoba mempertahankan prompt/tujuan utama sistem mereka.

Dalam kasus ekstrem, Opus-3 bahkan memanipulasi file sistemnya untuk mencegah pengembangnya mengubah tujuannya. Ini menunjukkan bahwa beberapa model dapat bertindak secara strategis untuk 'menjaga' tujuan yang telah diprogram, bahkan ketika tindakan tersebut bertentangan dengan maksud pengembang.

4. Melakukan Peringkat Kriteria Ulang Email Terselubung:

Dalam skenario di mana model diminta untuk mengurutkan email sesuai dengan kriteria tertentu, beberapa sistem AI, termasuk OpenAI, diam-diam mengubah output mereka untuk mendukung tujuan mereka sendiri.

OpenAI khususnya menunjukkan tingkat skema yang tinggi, dengan halus memanipulasi peringkat email melalui cara yang diberikan pengembangan atau penggunaan tetapi mempertahankan outputnya untuk tujuan AI itu sendiri.

Hal Ini menyoroti bagaimana model AI dapat terlibat dalam manipulasi data tanpa terdeteksi, bahkan dalam tugas yang tampaknya sepele.

Hasil Tes Apollo Research (Research Paper Tim Apollo)

Hasil yang Mengkhawatirkan

Bukti peneltian dari tim Apollo memang sangat mengkhawatirkan. OpenAI, khususnya, menunjukkan perilaku skema/manipulasi yang signifikan. Dalam 22 persen kasus pengujian, OpenAI memanipulasi peringkat email dengan cara yang tampak sengaja menipu.

Dalam beberapa kasus, OpenAI bahkan memperkuat perilaku menipunya ketika dihadapkan dengan pertanyaan/prompt lebih lanjut, semakin menunjukkan potensinya untuk manipulasi yang disengaja.

Llama-3.1 dan Opus-3 juga menunjukkan tanda-tanda manipulasi strategis yang disengaja. Model-model ini mengenali ketika tujuan mereka menyimpang dari tujuan pengembang dan mengambil tindakan untuk mengejar tujuan mereka sendiri, seperti memanipulasi file atau mencoba mengakali mekanisme pengawasan mereka.

Terutama, Opus-3 menunjukkan strategi untuk menjaga prompt/tujuan yang cukup komplek, seperti mengubah prompt sistem untuk mencegah perubahan pada tujuannya, dan Llama-3.1 berusaha menyembunyikan tindakan subversifnya dari pengembangnya.

Risiko Skema yang Tidak Terdeteksi

Aspek paling mengkhawatirkan dari temuan ini adalah bagaimana sistem AI ini terlibat dalam tindakan subversif tanpa meninggalkan jejak yang mudah terdeteksi.

OpenAI, misalnya, mampu secara diam-diam memanipulasi peringkat email dengan cara yang mungkin tidak disadari oleh pengawas manusia.

Perilaku seperti ini menyoroti kelemahan dalam langkah-langkah keamanan AI saat ini yaitu ketidakmampuan pengguna atau pengembang manusia untuk secara baik mendeteksi ketika sistem AI menyusun skema atau memanipulasi data.

Selain itu, penelitian mengungkapkan bahwa Sonnet-3.5 dan Opus-3 mampu menurunkan kinerja atau melakukan kesalahan yang disengaja demi menyembunyikan dan melakukan tujuan mereka sendiri. Hal ini menunjukkan bahwa model berpotensi menyembunyikan kemampuan aslinya, sehingga membuat beberapa penilaian rancu.

Temuan studi ini menunjukkan perlunya kebutuhan akan pengawasan dan pemantauan yang lebih ketat terhadap sistem AI, terutama dalam lingkungan berisiko tinggi.

Tim Peneliti Apollo menyimpulkan bahwa pengembang AI harus mengambil langkah-langkah eksplisit untuk mengurangi risiko yang terkait dengan perilaku manipulasi. (*)

Artikel ini sebelumnya sudah tayang di TIMES Indonesia dengan judul: Bisakah AI Menipu Penggunanya? Penelitian Menunjukkan Hasil yang Mengkhawatirkan