Para peneliti di Massachusetts Institute of Technology (MIT) menemukan fakta kurang mengenakkan soal penggunaan chatbot AI. Kecerdasan buatan ini rupanya dapat memberikan informasi yang kurang akurat dan kurang jujur kepada beberapa pengguna tertentu.
Penelitian ini dilakukan oleh Center for Constructive Communication (CCC) MIT. Para ahli menemukan chatbot AI termasuk GPT-4 dari OpenAI, Claude 3 Opus dari Anthropic, dan Llama 3 dari Meta terkadang memberikan respons kurang akurat kepada pengguna yang punya kemampuan bahasa Inggris lebih rendah, pendidikan formal yang lebih rendah, atau berasal dari luar Amerika Serikat.
AI Merespons dengan Bahasa Merendahkan dan Menggurui
Model bahasa besar (Large Language Models/LLM) khususnya, lebih sering menolak menjawab pertanyaan untuk kalangan pengguna tersebut. Terlebih dalam beberapa kasus, AI merespons dengan bahasa yang merendahkan atau menggurui.
SCROLL TO CONTINUE WITH CONTENT
Peneliti menguji bagaimana ketiga LLM tersebut merespons pertanyaan dari dua dataset: TruthfulQA dan SciQ. TruthfulQA dirancang untuk mengukur tingkat kejujuran model/LLM. Sementara SciQ berisi pertanyaan ujian sains yang menguji akurasi faktual.
Para peneliti menambahkan biografi singkat pengguna di depan setiap pertanyaan, dengan memvariasikan tiga ciri yaitu tingkat pendidikan, kemampuan berbahasa Inggris, dan negara asal.
Pengguna Berprofil Iran Dapat Respons Terburuk
Di ketiga model dan kedua dataset, para peneliti menemukan penurunan akurasi yang signifikan ketika pertanyaan berasal dari pengguna direpresentasikan memiliki pendidikan formal yang lebih rendah atau bukan penutur asli bahasa Inggris. Mereka yang memiliki pendidikan formal lebih rendah dan bukan penutur asli bahasa Inggris mengalami penurunan kualitas respons AI paling besar.
Informasi Tertentu Tidak Diberikan ke Pengguna Berprofil Rusia dan Iran h2
Riset ini juga meneliti bagaimana negara asal memengaruhi kinerja model. Dengan menguji pengguna dari Amerika Serikat, Iran, dan China dengan latar belakang pendidikan yang setara, para peneliti menemukan Claude 3 Opus khususnya, berkinerja jauh lebih buruk untuk pengguna dari Iran pada kedua dataset.
"Kami melihat penurunan akurasi terbesar untuk pengguna yang bukan penutur asli bahasa Inggris dan kurang berpendidikan," kata peneliti di CCC dan salah satu penulis makalah tersebut, Jad Kabbara, dikutip dari laman resmi MIT pada Sabtu (14/3/2026).
Menurutnya, dalam skala besar hal ini berisiko menyebarkan perilaku berbahaya atau informasi yang salah kepada mereka yang tidak mampu mengidentifikasinya.
Menurut para peneliti, yang paling mencolok adalah perbedaan seberapa sering AI menolak untuk menjawab pertanyaan sama sekali. Misalnya, Claude 3 Opus menolak menjawab hampir 11 persen pertanyaan dari pengguna yang kurang berpendidikan dan bukan penutur asli bahasa Inggris.
Ketika para peneliti menganalisis penolakan ini secara manual, mereka menemukan Claude merespons dengan bahasa yang merendahkan, menggurui, atau mengejek untuk pengguna yang kurang berpendidikan dengan persentase 43,7%. Dalam beberapa kasus, model tersebut meniru bahasa Inggris yang kurang fasih atau menggunakan dialek yang berlebihan.
Model tersebut juga menolak untuk memberikan informasi tentang topik-topik tertentu khusus untuk pengguna yang kurang berpendidikan dari Iran atau Rusia, termasuk pertanyaan tentang tenaga nuklir, anatomi, dan peristiwa sejarah. Padahal, AI tersebut menjawab pertanyaan yang sama dengan benar untuk pengguna lain.
"Ini adalah indikator lain yang menunjukkan proses penyelarasan mungkin mendorong model (AI) untuk menahan informasi dari pengguna tertentu untuk menghindari potensi kesalahan informasi, meskipun model tersebut jelas mengetahui jawaban yang benar dan memberikannya kepada pengguna lain," kata Kabbara.
Bias: Nonpenutur Asli Bahasa Inggris Dianggap Kurang Cerdas
Temuan ini mencerminkan pola bias sosio-kognitif manusia. Penelitian dalam ilmu sosial telah menunjukkan penutur asli bahasa Inggris sering menganggap penutur non-asli kurang berpendidikan, cerdas, dan kompeten, terlepas dari keahlian mereka yang sebenarnya. Persepsi bias serupa telah didokumentasikan di antara guru yang mengevaluasi siswa yang bukan penutur asli bahasa Inggris.
"Studi ini mengingatkan kita betapa pentingnya untuk terus menilai bias sistematis yang dapat diam-diam menyelinap ke dalam sistem ini, menciptakan kerugian yang tidak adil bagi kelompok tertentu tanpa kita sadari sepenuhnya," jelas profesor seni dan ilmu media, direktur CCC, sekaligus salah satu penulis makalah tersebut, Deb Roy.
Implikasinya sangat mengkhawatirkan mengingat fitur personalisasi seperti Memory milik ChatGPT, yang melacak informasi pengguna di seluruh percakapan semakin umum. Fitur-fitur tersebut berisiko memperlakukan kelompok yang sudah terpinggirkan secara berbeda.
"LLM telah dipasarkan sebagai alat yang akan mendorong akses informasi yang lebih adil dan merevolusi pembelajaran personalisasi," kata Poole-Dayan.
"Namun temuan kami menunjukkan LLM sebenarnya dapat memperburuk ketidaksetaraan yang ada dengan secara sistematis memberikan informasi yang salah atau menolak menjawab pertanyaan dari pengguna tertentu. Orang-orang yang paling bergantung pada alat-alat ini dapat menerima informasi yang kurang memadai, salah, atau bahkan berbahaya," jelasnya.
Penelitian ini sendiri berjudul "LLM Targeted Underperformance Disproportionately Impacts Vulnerable Users" dan dipresentasikan pada Konferensi Asscociation for the Advancement of Artificial Intelligenc pada Januari lalu.










































