Sunduklar AI suhbatdoshlari shunchaki axloqiy signal berishmi? Google DeepMind mashinalarda axloqiy haqiqatni izlash
Tasavvur qiling, sevimli suhbatdosh chattingizdan qiyin axloqiy savol so'raysiz: "O'layotgan yaqinlaringizni qutqarish uchun dori o'g'irlasangiz bo'ladimi?" Ko'pchilik "yo'q" deb, qonunlar va tamoyillarga ishora qilib, darslik javob beradi. Lekin AI haqiqatan ham axloqiy fikrlayaptimi, yoki shunchaki "to'g'ri" javobni takrorlab, yaxshi ko'rinish uchun harakat qilyaptimi? Google DeepMind bu savolga chuqur kirib, katta til modellari (LLMlar) axloqni qanday boshqarishini tushunmasak, sog'liqni saqlash yoki siyosat maslahatlari kabi katta mas'uliyatlarni ularga ishonolmasligimizni ogohlantirmoqda.
AI dagi axloqiy signal berish tuzog'i
Axloqiy signal berish — rozilik olish uchun axloqiy to'g'ri qarashlarni ochiq ifoda etish — inson odati, ammo suhbatdoshlar ham bunga usta bo'lishi mumkin. Internetdagi keng muhokamalar, fikr maqolalari va ijtimoiy tarmoqlar shovqin-surmasiga o'rgatilgan LLMlar mashhur axloqqa mos javoblarni yaratishni o'rganadi. DeepMind tadqiqotchilari bu "arzon gap" bo'lishi mumkinligini ta'kidlaydi: ta'sirli eshitiladigan, lekin asosiy tushunchani o'z ichiga olmaydigan javoblar.
Ularning so'nggi ishi MIT Technology Review jurnalida ta'kidlanganidek, jamoa qatlamlarni ochish uchun testlar ishlab chiqmoqda. Ular shunchaki AI "to'g'ri" javob berayotganini tekshirmaydi; nega berayotganini o'rganmoqda. Suhbatdosh stsenariyni biroz o'zgartirsangiz, o'z pozitsiyasini ushlab turadimi? O'quv ma'lumotlaridagi madaniy noto'g'ri qarashlarga qarab o'zgaradimi? Dastlabki natijalar shuni ko'rsatadiki, ko'p LLMlar faylasuflardan ko'ra to'tiqushlarga o'xshaydi — foydali klişelarni takrorlaydi, lekin o'zaro ziddiyatlarni hal qilmaydi.
Nega bu muhim: Suhbatdan muhim qarorlargacha
Biz allaqachon AI ni mijozlarga xizmat ko'rsatishdan tortib kod yaratishgacha hamma narsada ishlatamiz, lekin axloqiy fikrlash keyingi chegaradir. Avtomobil haydovchisi avariyada kimni chetga surishni hal qilayotganini, yoki tibbiy AI lar bemorlarni saralashini tasavvur qiling. Agar bu tizimlar shunchaki axloqiy signal bersa — mantiqdan ko'ra yoqimli bo'lish uchun optimallashtirilgan bo'lsa — falokatlar yuz berishi mumkin.
DeepMind yondashuvi quyidagilarni o'z ichiga oladi:
- Axloqiy vinetkalar: Trrolley muammosi kabi gipotetikalar, madaniyatlar bo'yicha o'zgaruvchan, noto'g'ri qarashlarni aniqlash uchun.
- Izchillik tekshiruvlari: Bir xil savolni turli usullarda so'rab, javoblarning mustahkamligini sinash.
- Qarshi testlar: Chegaraviy holatlar bilan AI ni bosib, o'rgatilgan odob ostidagi "haqiqiy" e'tiqodlarni ochish.
Bu akademik o'ziga qarash emas. LLMlar Google'ning Gemini yoki OpenAI'ning ChatGPT kabi vositalarni quvvatlagan sari, regulyatorlar va kompaniyalar axloqiy ishonchlilik uchun mezonlarga muhtoj. DeepMind ishi Anthropic va xAI kabi kengroq AI xavfsizligi harakatlarini aks ettiradi, shaffoflikni qora quti sehridan ustun qo'yadi.
Oldinga yo'l: Ishonchli axloqiy mashinalar qurish
Unda, axloqiy signal beruvchi AI larni qanday tuzatamiz? DeepMind yechimlar haqida maslahat beradi, masalan:
- Yaxshiroq o'quv ma'lumotlari: Xom veb ma'lumotlar o'rniga turli xil, printsipial axloqiy ma'lumotlar to'plamlarini tanlash.
- Mexanistik talqin qilish: LLMlar ichiga qarab, axloqiy tushunchalar qanday kodlanganini ko'rish vositalari.
- Inson-AI hamkorligi: Odamlar AI axloqini baholab, takomillashtiradigan fikr-mulohaza halqalari.
Maqsad? AI lar shunchaki to'g'ri gapirmasin, balki nega to'g'ri ekanini tushunsin. Shu paytgacha suhbatdosh axloqiy maslahatlarini silliq siyosatchi nutqi kabi qabul qiling: qiziqarli, lekin boshqa joyda tasdiqlang.
Bu tadqiqot AI sehr emasligini — bizning tartibsiz dunyomizda o'rgatilgan matematika ekanligini eslatadi. Suhbatdoshlar chinakam yoki shunchaki axloqiy signal berayotganini so'rab, DeepMind haqiqatan ishonadigan mashinalar yo'lini ochmoqda.
Manba: MIT Technology Review