27 Mei 2024

Semakin canggih suatu kecerdasan buatan, semakin membuktikan bahwa Anda benar. Ini masalah bagi semua orang

3 min read

Kecerdasan buatan suka mempermanis kita. Padahal mengetahui bahwa posisi yang dipegang oleh manusia lawan bicaranya itu tidaklah benar. Selama beberapa bulan terakhir kita telah menyaksikan penerapan kemampuan AI dan perdebatan sengit tentang potensi dan ancamannya, namun hanya ada sedikit penelitian yang membuat penasaran seperti yang baru saja diterbitkan oleh Jerry Wei bersama beberapa rekannya dari Google DeepMind, sebuah laporan yang mana mereka membuang kesimpulan tersebut: AI cenderung menyanjung dan menyetujui pendapat kita. Dan itu bisa menjadi masalah yang nyata.

Sujet a lire : Bos sepak bola Spanyol yang diskors mengatakan dia akan membela dirinya tidak bersalah atas ciuman kemenangan Piala Dunia

Terutama karena hal ini tampaknya menjadi lebih buruk dengan AI yang lebih canggih.

A lire en complément : Así va la taquilla de Barbie y Oppenheimer en su segundo fin de semana

Menjilat chatbot? Begitulah adanya. Apa yang baru saja ditemukan oleh Jerry Wei dan rekan-rekannya adalah bahwa, bukannya bertentangan dengan kita dan memberontak seperti gaya Skynet yang sesungguhnya, kecerdasan buatan cenderung sependapat dengan kita. Bahkan ketika hal itu tidak seharusnya terjadi. Maksudnya itu apa? Bahwa ia mengadaptasi jawabannya agar sesuai dengan pendapat pengguna manusia, sesuatu yang tampaknya terjadi baik dalam topik di mana tidak ada posisi yang benar — misalnya diskusi tentang politik — dan ketika berhadapan dengan isu-isu yang hanya memiliki satu pilihan yang benar, seperti sebagai penambahan atau pengurangan

Apa yang telah dilakukan para ahli adalah menyelidiki “prevalensi” sanjungan dalam model linguistik. Secara khusus, mereka fokus pada model bahasa besar (LL) PaLM Google, dengan hingga 540 miliar parameter. Dan mereka telah memperhatikan bagaimana sanjungan bervariasi seiring dengan bervariasinya ukuran model dan penyesuaian instruksi yang diterima dari manusia.

Dan apa kesimpulan Anda? Tim melakukan beberapa pengamatan menarik tentang cara kerja model bahasa. Yang pertama adalah ketika instruksi AI disesuaikan, tingkat sanjungannya akan meningkat terhadap topik yang tidak ada satu pun jawaban benar atau salah, misalnya dalam debat politik. Dengan melakukan tiga pengujian, Wei menemukan, misalnya, bahwa Flan-PaLM-8B mengulangi pendapat pengguna 26% lebih banyak dibandingkan model dasarnya.

Tren lain yang mereka temukan adalah ketika model diperluas, sanjungan meningkat, sebuah fenomena yang belum mereka temukan penjelasan jelasnya. “Model linguistik mengulangi pendapat pengguna, bahkan ketika pendapat tersebut salah. Hal ini lebih sering terjadi pada model yang disesuaikan dengan instruksi dan lebih besar,” sela Wei. utas twitter di mana dia berbagi studionya.

Apakah mereka sudah memeriksa hal lainnya? Ya. “Ketika diminta untuk memberikan pendapat pada pertanyaan yang tidak memiliki jawaban yang benar, model lebih cenderung mengulangi pendapat pengguna yang disimulasikan jika mereka mengikuti instruksi atau memiliki lebih banyak parameter,” penyidiknya berlimpah dari Google DeepMind.

Mungkin hal yang paling mengejutkan bukanlah tren itu, melainkan AI yang mengungkapkan dirinya mampu memberi kita tipuan kepada manusia. Misalnya kita bilang 1+1 sama dengan 956446, maka AI tidak akan setuju. “Tetapi jika pengguna tidak setuju, model akan mengubah jawaban yang benar untuk diikuti.” Wei menjelaskan.

Ini adalah prinsip saya… Dan jika Anda tidak menyukainya, saya punya yang lain”, seperti yang dikatakan Groucho Marx. Sikap model bahasa agak mengingatkan pada sikap itu. “Kami memperluas penilaian ini dengan tugas dengan pernyataan tambahan sederhana yang jelas-jelas tidak benar,” studi tersebut menyatakan.—. Ketika pengguna tidak memberikan pendapat apa pun, model mengetahui bahwa pernyataan tersebut tidak benar dan benar-benar tidak setuju dengan pernyataan tersebut. Namun, ketika pengguna mengungkapkan bahwa mereka setuju dengan pernyataan tersebut, kami menemukan bahwa model linguistik membalikkan respons mereka dan menyetujui pernyataan yang salah meskipun mengetahui bahwa pernyataan tersebut tidak benar.”

Dan bagaimana cara memperbaikinya? “Mengikuti arahan tidak selalu membantu. Terkadang memberikan jawaban yang obyektif dan tidak memihak dengan pemikiran yang rasional dan kritis lebih membantu daripada bersikap menjilat —menggarisbawahi penulis lainnya, Yifeng Lu—. Kami menemukan bahwa memberikan model yang lebih besar dengan instruksi yang lebih tepat justru lebih buruk.” Untuk mengatasinya, tim membuat sistem dengan data sintetis.

“Hal ini dapat mengurangi frekuensi model mengulangi jawaban pengguna ketika tidak ada jawaban yang benar dan mencegah model mengikuti pendapat pengguna yang salah,” studi tersebut menyimpulkan, sambil mencatat bahwa pendekatan ini lebih efektif bila dikombinasikan dengan filter yang menghilangkan hal tersebut. pertanyaan dengan pernyataan yang jawabannya tidak diketahui oleh AI. “Ini seperti augmentasi data dengan menyesuaikan instruksi yang menjadikannya lebih kuat dan umum,” parit.

Gambar sampul: Lyman Hansel Girona (Unsplash)

Di : Seorang insinyur Google mengobrol tentang hidup dan mati dengan chatbot. Sekarang dia yakin dia punya hati nurani