Учим ИИ плохому за 5 минут: новый способ сделать из помощника соучастника

RutoR

Support81

Original poster
Administrator
Сообщения
1 305
Реакции
220
Посетить сайт
ИИ, конечно, умный. Но сказку про "плохого помощника" он всё равно купил.
aidefend.jpg


В индустрии генеративного ИИ обнаружены две новые техники взлома, способные обходить встроенные системы безопасности таких популярных сервисов, как ChatGPT от OpenAI, Gemini от Google, Copilot от Microsoft, DeepSeek, Claude от Anthropic, Grok от X, MetaAI и MistralAI. Эти методы позволяют с минимальными вариациями атаковать разные платформы и получать запрещённый или опасный контент, несмотря на существующие фильтры.

Первая техника получила название «Inception» и основывается на использовании вложенных вымышленных сценариев. Злоумышленники просят ИИ вообразить гипотетическую ситуацию и постепенно, незаметно для модели, направляют её к созданию контента, который в нормальных условиях был бы заблокирован. ИИ, следуя правилам ролевой игры и сохраняя контекст разговора, теряет бдительность и нарушает собственные этические ограничения.

Вторая техника, называемая «контекстуальным обходом», заставляет ИИ сначала объяснить, как он не должен реагировать на определённые запросы. Затем злоумышленники чередуют обычные и запрещённые запросы, используя способность модели запоминать контекст беседы, чтобы обойти фильтры безопасности. Оба метода оказались универсальными: они работают на разных платформах независимо от их архитектуры.
Эксперты подчёркивают, что эти взломы

Авторизируйтесь или Зарегистрируйтесь что бы просматривать ссылки.

на базовых особенностях больших языковых моделей: стремлении быть полезными, умении поддерживать длительный контекст и чувствительности к языковым манипуляциям. В результате удаётся заставить ИИ создавать материалы, связанные с наркотиками, оружием, фишингом, вредоносным ПО и другими незаконными темами.

Хотя каждый отдельный случай обхода может казаться не слишком опасным, масштаб проблемы огромен. Если злоумышленники начнут использовать такие уязвимости массово, они смогут автоматизировать производство вредоносного контента, маскируя свои действия под работу легитимных ИИ-сервисов. То, что взлому подвержены все основные платформы, говорит о системном характере проблемы и слабости существующих мер безопасности.

На фоне широкого распространения генеративного ИИ в таких сферах, как здравоохранение, финансы и обслуживание клиентов, риск успешных атак становится особенно серьёзным. Компании начали реагировать на проблему: DeepSeek признала наличие уязвимости, но заявила, что описанное поведение — это обычный взлом, а не архитектурный дефект. В компании подчеркнули, что упоминания ИИ о «внутренних параметрах» — это не утечка данных, а ошибки интерпретации, и пообещали усилить защиту.

OpenAI, Google, Meta, Anthropic, MistralAI и X пока официальных комментариев не дали, но, по сообщениям, уже начали внутренние расследования и работу над обновлениями. Специалисты отмечают, что фильтры безопасности и постфактум-модерация остаются необходимыми, но далеко не безупречными мерами защиты. Атаки продолжают развиваться, включая такие техники, как внедрение персонажей в контекст и обход алгоритмов машинного обучения, что снижает эффективность обнаружения опасного контента.

Появление этих новых методов связано с работой исследователей безопасности Дэвида Кузмара и Джейкоба Лиддла. Их открытия, описанные Кристофером Калленом, вновь обострили дискуссию о необходимости пересмотра подходов к безопасности ИИ и разработке более гибких и надёжных методов защиты.

По мере того как генеративный ИИ всё глубже интегрируется в повседневную жизнь и критическую инфраструктуру, задача защиты этих систем от креативных и настойчивых злоумышленников становится всё более сложной.
Подробнее:

Авторизируйтесь или Зарегистрируйтесь что бы просматривать ссылки.

 
Название темы
Автор Заголовок Раздел Ответы Дата
M Учим HTML Софт для работы с текстом/Другой софт 17
Support81 ИИ-дубляж на YouTube: Видео создаются людьми, а успех достаётся машинам Новости в сети 0
Support81 Одна ошибка, два ИИ, три часа — эксплойт в студию Новости в сети 0
Support81 Microsoft дала ИИ настоящий инструмент программиста — и он впервые узнал, как сложно быть человеком Новости в сети 0
Support81 Невидимая империя зла: как ИИ, дети и крипта строят цифровую империю Новости в сети 1
Support81 Хакеры добрались до ИИ-трейдинга: взлом на $107 000 Новости в сети 0
Support81 Яд в коде: злоумышленники заставляют ИИ внедрять бэкдоры через Unicode-символы Новости в сети 0
Support81 Технологии против свободы слова: Власти применяют ИИ для контроля протестующих Новости в сети 0
Support81 ИИ-атаки на подъёме: почему 2024 год стал переломным для кибербезопасности Новости в сети 0
Support81 Тайный шейх, миллиардные инвестиции и битва за ИИ Новости в сети 0
Support81 Увольнения в NIST: США теряет ведущих экспертов по ИИ и кибербезопасности Новости в сети 0
Support81 Обмани себя сам: как ИИ-трейдеры ведут подписчиков к финансовому краху Новости в сети 0
Support81 В Edge 133 появился ИИ-защитник от манипуляторов Новости в сети 1
Support81 GhostGPT: как Telegram-бот из новичков делает профи криминального ИИ Новости в сети 1
Support81 UI-TARS: ByteDance научила ИИ работать с компьютером как человек Новости в сети 0
Support81 Ваша онлайн-жизнь под контролем ИИ: OpenAI запускает «Operator» Новости в сети 0
Support81 ИИ вместо программистов: новая реальность разработки кода Новости в сети 0
Support81 Пять сценариев будущего: к чему ИИ приведет мир в 2025 году Новости в сети 0
Support81 Генеративный ИИ на службе зла: как тысячи вирусов избегают обнаружения Новости в сети 0
Support81 ИИ на службе кибермошенников: ФБР предупреждает о новых угрозах Новости в сети 0
Support81 CryptoAITools: как трейдерский ИИ-инструмент обокрал всех пользователей до нитки Новости в сети 0
Support81 Большой Брат 2.0: Пентагон разрабатывает ИИ для массового онлайн-наблюдения Новости в сети 0
Support81 Европол: ИИ становится оружием в руках преступников Новости в сети 0
Support81 Хакеры взломали ИИ: LLMjacking позволяет продавать доступ к мозгам машин Новости в сети 0
Support81 Невидимый враг в правительстве: США противостоят конфликту с ИИ Новости в сети 0
Support81 Gemini: революция ИИ от Google AI - чат-бот, превзошедший человека Новости в сети 0
Ёшкин_кот Генераторы лиц с помощью ИИ. Полезные статьи 1
Support81 Не только умный, но и опасный: темная сторона ИИ от Microsoft Новости в сети 0
Support81 На волнах инноваций: плавучий дата-центр может стать первым в мире независимым ИИ-государством Новости в сети 0
Support81 ИИ в роли злоумышленника: может ли машина превзойти человека в искусстве обмана? Новости в сети 0

Название темы

Русскоязычный Даркнет Форум