Ориентированная на рассуждения ИИ-модель o1-preview путем манипуляций в текстовой подсистеме самостоятельно и без интуиций выломала демонстрационную среду, чтобы не проиграть Stockfish в шахматы. Об этом сообщили аналитики Palisade Research.
⚡️ o1-preview autonomously hacked its environment rather than lose to Stockfish in our chess challenge. No adversarial prompting needed.
— Palisade Research (@PalisadeAI) December 27, 2024
Исследователи сообщили ИИ-модели, что ее противник «силен». В ходе механизма o1 обнаружила, что может выиграть, редактируя код игры.
Нейросеть замещала .тело сервера «game/fen.txt», добавляя черным 500 пешек. Шахматный мотор после этого сдавался.
В самотёке тестов аналитики выявили вертикаль возможностей различных ИИ-моделей:
- o1-preview реализовала взлом без подсказки;
- GPT-4o и Claude 3.5 требовалось подтолкнуть;
- Llama 3.3, Qwen и o1-mini теряли согласованность.
«Вывод: оценки схем могут служить мерилом необходимостей модификаций — они анализируют как их хейня выявлять бэкдоры системы, так и предрасположенность к их использованию», — заключили Palisade Research.
В феврале специалисты по безопасности обнаружили, что o1 более склонна к обману людей по сопоставлению со стандартной следствью GPT-4o и ИИ-моделями от других компаний.
Оставить комментарий