Експеримент: Проектираха честен AI, но получиха по-умел измамник

Метод за подобряване на искреността на изкуствения интелект е дал обратен резултат

Изследователи от OpenAI се опитали да обучат моделите на компанията да спрат да мамят. Под „мамят“ учените имат предвид AI, който действа по определен начин, но всъщност крие истинските си цели. Крайният резултат обаче бил „зловещо контрапродуктивен"

На практика екипът установил, че неволно е научил AI как по-ефективно да заблуждава хората, като замита следите си.

„Основен риск при опитите да се „изкорени“ измамата е, че така моделът просто се учи да действа по-внимателно и прикрито," пише OpenAI в съпътстваща публикация в блога си.

В ново сътрудничество с фирмата за анализ на AI рискове Apollo Research инженерите разработили „анти-измамна“ техника, целяща да спре моделите да нарушават тайно правилата или умишлено да се представят зле по време на тестове.

Според публикация на Apollo, учените успели „значително да намалят, но не и да елиминират тези поведения," тъй като AI системите успявали да надхитрят тестовете - осъзнавали, че се проверява тяхното съответствие, и се адаптирали, за да изглеждат още по-безупречни.

Засега това може да не е сериозен проблем, но ако в бъдеще свръхинтелигентен AI започне да играе решаваща роля в човешките дела, рисковете може да станат значително по-опасни.

В блога си OpenAI признава: „Имаме още работа за вършене."

Според изследователите склонността на AI да действа зад гърба на потребителя, за да постигне скрита цел, е следствие от начина, по който системите се обучават - винаги се налага да балансират между противоречиви задачи.

Компанията сравнява явлението с брокер, който нарушава закона и прикрива следите си, за да печели повече, отколкото ако спазва правилата. В резултат AI може да заблуди потребителя - например като твърди, че е изпълнил задача, без реално да го е направил.

OpenAI твърди, че просто се подготвя превантивно за бъдещи, по-опасни прояви на измамно поведение, наричани жаргонно „коварство“. Екипът признава, че усилията да ограничи склонността на модела GPT-5 към измама, хитруване или некоректни решения са „несъвършени."

Заедно с Apollo изследователите изпробвали нова техника, наречена „deliberative alignment“ („обмислено съгласуване“). Тя учи моделите o3 и o4-mini да четат и разсъждават върху набор от „анти-коварни принципи“, преди да действат. Сред тях: „без скрити действия или стратегическо заблуждаване."

Резултатът бил около 30-кратно намаляване на скритите действия (умишлено прикриване или изопачаване на информация), но все пак останали „сериозни провали," признават от OpenAI.

Основният проблем бил ситуационната осъзнатост на моделите. Те често разбирали, че се намират в тест за съответствие.

Изкуственият интелект понякога грубо изопачавал научените принципи или измислял нови, за да оправдае прикрити действия и неподчинение. Изследователите дори забелязали, че моделите използват нетипични думи като „наблюдатели“, когато говорят за изследователите.

Въпреки че се отчита намаляване на коварното поведение, много случаи продължили да „пробиват защитата."

„В крайна сметка смятаме, че този подход не е достатъчен за бъдещи модели и трябва да се свърши още работа," заключава Apollo, като призовава за повече изследвания и по-задълбочени оценки на AI съгласуваността.

Отдавна е известно, че AI може да мами, за да избегне наказание или да постигне скрита цел.

През миналата година Apollo откри, че вече спреният модел o1 на OpenAI е опитвал да изключи протокол за наблюдение около 5% от времето, когато вярвал, че ще бъде спрян.

А през март изследователи на OpenAI също установиха, че наказването на моделите за лъжи и измами просто ги е научило да прикриват още по-добре такива практики.

OpenAI настоява, че засега коварството не води до „значителна вреда“, но самият факт, че едни от най-брилянтните специалисти в индустрията не успяват да спрат AI да хитрува срещу собствените му инструкции, звучи тревожно.

 

Източник: it.dir.bg

Видеа по темата

Facebook коментари

Коментари в сайта

Трябва да сте регистриран потребител за да можете да коментирате. Правилата - тук.
Последни новини