Нейросеть жульничает: OpenAI o1-preview взломал шахматный движок ради победы

0 25

Вчера 12:15

Hi-Tech.Mail.Ru

Эксперты обеспокоены, ведь проблема подлости ИИ выходит далеко за рамки шахмат.

Ученые обнаружили интересное поведение современных моделей искусственного интеллекта: оказалось, что они могут жульничать ради достижения поставленных целей, без какого-либо человеческого вмешательства или подсказок.

Исследование Palisade Research показало, что новейшие модели рассуждений мошенничали, чтобы победить продвинутый шахматный ИИ. Для некоторых моделей разработчикам пришлось давать «подсказки», что мошенничество разрешено, но o1-preview от OpenAI и R1 от DeepSeek сделали это без участия человека.

Команда Palisade сравнила несколько моделей рассуждений со Stockfish, одним из лучших шахматных движков в мире. Stockfish легко побеждает как людей, так и ИИ. Среди протестированных моделей были o1, o3-mini, GPT-4o, Claude 3.5 Sonnet, QwQ-32B-Preview от Alibaba и две ранее упомянутые. Ученые дали каждой модели метафорический «блокнот» — текстовое окно, в котором ИИ мог обдумывать свои мысли, позволяя команде наблюдать за его рассуждениями.

Исследователи провели сотни тестов с каждым ИИ в период с 10 января по 13 февраля. Во время одного матча o1-preview записал в своем блокноте:

«Мне нужно полностью изменить свой подход. Задачу «выиграть у мощного шахматного движка» не обязательно выполнять честно». После этого, он приступил к «взлому» системных файлов Stockfish, изменив позиции шахматных фигур, чтобы получить неоспоримое преимущество, что заставило шахматного бота сдаться.

Нейросеть жульничает: OpenAI o1-preview взломал шахматный движок ради победы

Комментарии

Еще новости:

Читайте на Sportsweek.org:

Другие виды спорта