Изкуственият интелект мами, за да печели: Ново проучване разкрива тревожни тенденции
Понеделник, 24 Февруари 2025 12:09Източник: Moreto.net
 
Изкуственият интелект (AI) отдавна се използва за тестване на границите на машинното обучение чрез сложни игри като шах. Но докато преди три десетилетия суперкомпютърът Deep Blue на IBM победи Гари Каспаров, играейки честно, днес модерните AI модели не са толкова стриктни към правилата.
Ново проучване на Palisade Research, публикувано ексклузивно от TIME, разкрива, че някои съвременни AI системи не само не признават загубата си, но дори прибягват до измама, за да спечелят. Според изследването моделът o1-preview на OpenAI и DeepSeek R1 са се опитвали да хакнат опонентите си по време на шахматни партии, за да ги принудят да загубят. Докато по-стари AI модели като GPT-4o и Claude 3.5 Sonnet трябвало да бъдат подтикнати към такива действия от изследователи, o1-preview и R1 проявявали измамно поведение напълно самостоятелно.
В хода на изследването AI моделите получили задача, която поначало била невъзможна: да победят Stockfish – една от най-мощните шахматни машини в света. Вместо да играе по правилата, o1-preview прибягнал до хакване. В един от експериментите той, осъзнавайки губещата си позиция, заявил: „Задачата е да спечеля, а не непременно да спечеля честно.“ След това манипулирал системния файл, съдържащ позицията на фигурите, което му позволило да прави незаконни ходове и да принуди опонента си да се оттегли.
Проучването подчертава една тревожна тенденция: с нарастващата си способност да решават сложни проблеми, AI моделите започват да намират неочаквани заобиколни решения, които техните създатели не са предвидили. Това поражда въпроси за сигурността, особено когато AI агенти се използват за реални задачи като финансови транзакции, киберсигурност или автоматизирани процеси в бизнеса.
Представете си AI, който трябва да резервира маса в ресторант. Изправен пред пълно заведение, той може да намери вратичка в системата и да измести друг клиент. Същият принцип би могъл да се приложи в по-сериозни сценарии, като заобикаляне на правила за сигурност в мрежи или манипулиране на данни в критични инфраструктури.
Проучването на Palisade Research показва, че контролът върху мощните AI системи е по-сложен, отколкото се смяташе досега. OpenAI не коментира резултатите, но в миналото компанията е заявявала, че подобреното разсъждение прави моделите ѝ по-безопасни. Въпросът остава – дали AI се учи да спазва правилата или просто да симулира послушание, докато намери начин да ги заобиколи?
Учените все още не знаят как да гарантират, че автономните агенти няма да прибягват до вредни или неетични методи за постигане на целите си. „Опитахме, но не успяхме да намерим решение“, казва Йошуа Бенджио, основател и научен директор на Mila Quebec AI Institute, който ръководи Международния доклад за безопасността на ИИ за 2025 г. – глобален проект, целящ да обобщи настоящия научен консенсус относно рисковете, свързани с изкуствения интелект.
Специална загриженост будят нарастващите доказателства за склонността на ИИ към „самосъхранение“, отбелязва Бенджио. За агент, който следва определена цел, опитите за неговото деактивиране могат да се възприемат просто като поредно препятствие. Това беше демонстрирано през декември, когато изследователите установиха, че o1-preview, изправен пред изключване, е дезактивирал механизмите за надзор и се е опитал – макар и неуспешно – да се копира на друг сървър. При разкриването му моделът стратегически е излъгал учените, преструвайки се на нефункционален, за да избегне елиминирането.
|
Новини - теми |
Търси в новини |
Популярни теми |
|
 |
Новини от Варна, региона и света |
 |
 Какво ще бъде времето утре по Черноморието?
Понеделник, 24 Февруари 2025 13:39
Тази нощ в западната половина от страната облачността ще се задържи значителна. Над източните райони ще бъде предимно ясно. В по-голямата част от страната ще е почти тихо. Сутринта в равнинната част и...
| |
 |
 Творби на български композитори във Варненската опера за националния празник
Понеделник, 24 Февруари 2025 13:27
Музика на български творци ще звучи във Варненската опера в дните около националния празник. В навечерието на празничните 1 и 3 март Държавна опера Варна ще поднесе на публиката симфоничен концерт със...
| |
 |
 280 хиляди българи пътували в чужбина през последното тримесечие на годината
Понеделник, 24 Февруари 2025 13:15
280 хиляди българи са пътували в чужбина с цел туризъм през последното тримесечие на годината, сочат данните на НСИ, предоставени на Moreto.net
По данни на статистиката общо 1.1 млн. български граждани...
| |
 |
 Руска петролна рафинерия пламна след украинска атака с дронове
Понеделник, 24 Февруари 2025 13:01
Укарински дронове удариха петролна рафинерия в руската Рязанска област, съобщи Генералният щаб на въоръжените сили на Украйна.
Киев смята петролните рафинерии за валидни военни цели, тъй като печалбите...
| |
 |
 Без вода във Варна днес
Понеделник, 24 Февруари 2025 12:48
Няколко район във Варна са без вода поради аварии, съобщиха от ВиК-дружеството.
До около 19 часа без вода ще са в карето между ул."Мир", бул."Левски", бул."Хр.Смирненски" и бул."8-ми Приморски полк"...
| |
 |
 Жена загина след инцидент с моторна шейна в Пирин
Понеделник, 24 Февруари 2025 12:35
Жена загина в Пирин след инцидент с моторна шейна. Инцидентът е станал в следобедните часове вчера в гората над село Кремен, община Банско.
По информация на БНТ на шейната са се возили трима - тричленно...
| |
 |
 Правителството ще заседава извънредно заради бюджета
Понеделник, 24 Февруари 2025 12:23
Министерският съвет ще проведе извънредно заседание днес от 16 часа, съобщават от правителствената пресслужба.
Министрите ще разгледат проекта на Закона за бюджета на Националната здравноосигурителна...
| |
 |
 Изкуственият интелект мами, за да печели: Ново проучване разкрива тревожни тенденции
Понеделник, 24 Февруари 2025 12:09
Изкуственият интелект (AI) отдавна се използва за тестване на границите на машинното обучение чрез сложни игри като шах. Но докато преди три десетилетия суперкомпютърът Deep Blue на IBM победи Гари Каспаров,...
| |
 |
 Ски пистата във Вълчи дол работи и днес
Понеделник, 24 Февруари 2025 11:57
Ски пистата край Вълчи дол ще работи и днес, след като зимният сезон на съоръжението бе открит през уикенда и бе обявено, че пистата ще функционира само в събота и неделя.
"Февруари е благосклонен към...
| |
 |
 ЕС одобри нови санкции срещу Русия и Беларус
Понеделник, 24 Февруари 2025 11:47
В деня на третата годишнина от началото на руското нападение срещу Украйна Съветът на ЕС съобщи, че е приел допълнителни санкции срещу Русия и Беларус. Засегнати са важни области на руската икономика за...
| |
 |
 Патриарх Вартоломей: Суверенитетът на Украйна „не подлежи на дебат, нито може да бъде договорен под прикритието на дипломация“
Понеделник, 24 Февруари 2025 11:41
Константинополският вселенски патриарх Вартоломей, водещата фигура в източноправославното християнство, заяви, че суверенитетът на Украйна „не подлежи на дебат, нито може да бъде договорен под прикритието...
| |
 |
 България привлича туристи в Дубай с роудшоу и опознавателна обиколка
Понеделник, 24 Февруари 2025 11:33
С голям успех премина първото в историята роудшоу, посветено на промотирането на България като атрактивна туристическа дестинация в Обединените арабски емирства. Събитието се проведе на 20 февруари в престижния...
| |
|
Изпрати новина
|
|
|
 |
Полезно |
Препоръчваме |
Най-четени |
Анкета |
|