Учим ИИ плохому за 5 минут: новый способ сделать из помощника соучастника

Support81 · Сегодня в 05:52

ИИ, конечно, умный. Но сказку про "плохого помощника" он всё равно купил.

В индустрии генеративного ИИ обнаружены две новые техники взлома, способные обходить встроенные системы безопасности таких популярных сервисов, как ChatGPT от OpenAI, Gemini от Google, Copilot от Microsoft, DeepSeek, Claude от Anthropic, Grok от X, MetaAI и MistralAI. Эти методы позволяют с минимальными вариациями атаковать разные платформы и получать запрещённый или опасный контент, несмотря на существующие фильтры.

Первая техника получила название «Inception» и основывается на использовании вложенных вымышленных сценариев. Злоумышленники просят ИИ вообразить гипотетическую ситуацию и постепенно, незаметно для модели, направляют её к созданию контента, который в нормальных условиях был бы заблокирован. ИИ, следуя правилам ролевой игры и сохраняя контекст разговора, теряет бдительность и нарушает собственные этические ограничения.

Вторая техника, называемая «контекстуальным обходом», заставляет ИИ сначала объяснить, как он не должен реагировать на определённые запросы. Затем злоумышленники чередуют обычные и запрещённые запросы, используя способность модели запоминать контекст беседы, чтобы обойти фильтры безопасности. Оба метода оказались универсальными: они работают на разных платформах независимо от их архитектуры.
Эксперты подчёркивают, что эти взломы

Авторизируйтесь или Зарегистрируйтесь что бы просматривать ссылки.

на базовых особенностях больших языковых моделей: стремлении быть полезными, умении поддерживать длительный контекст и чувствительности к языковым манипуляциям. В результате удаётся заставить ИИ создавать материалы, связанные с наркотиками, оружием, фишингом, вредоносным ПО и другими незаконными темами.

Хотя каждый отдельный случай обхода может казаться не слишком опасным, масштаб проблемы огромен. Если злоумышленники начнут использовать такие уязвимости массово, они смогут автоматизировать производство вредоносного контента, маскируя свои действия под работу легитимных ИИ-сервисов. То, что взлому подвержены все основные платформы, говорит о системном характере проблемы и слабости существующих мер безопасности.

На фоне широкого распространения генеративного ИИ в таких сферах, как здравоохранение, финансы и обслуживание клиентов, риск успешных атак становится особенно серьёзным. Компании начали реагировать на проблему: DeepSeek признала наличие уязвимости, но заявила, что описанное поведение — это обычный взлом, а не архитектурный дефект. В компании подчеркнули, что упоминания ИИ о «внутренних параметрах» — это не утечка данных, а ошибки интерпретации, и пообещали усилить защиту.

OpenAI, Google, Meta, Anthropic, MistralAI и X пока официальных комментариев не дали, но, по сообщениям, уже начали внутренние расследования и работу над обновлениями. Специалисты отмечают, что фильтры безопасности и постфактум-модерация остаются необходимыми, но далеко не безупречными мерами защиты. Атаки продолжают развиваться, включая такие техники, как внедрение персонажей в контекст и обход алгоритмов машинного обучения, что снижает эффективность обнаружения опасного контента.

Появление этих новых методов связано с работой исследователей безопасности Дэвида Кузмара и Джейкоба Лиддла. Их открытия, описанные Кристофером Калленом, вновь обострили дискуссию о необходимости пересмотра подходов к безопасности ИИ и разработке более гибких и надёжных методов защиты.

По мере того как генеративный ИИ всё глубже интегрируется в повседневную жизнь и критическую инфраструктуру, задача защиты этих систем от креативных и настойчивых злоумышленников становится всё более сложной.
Подробнее:

Авторизируйтесь или Зарегистрируйтесь что бы просматривать ссылки.

Автор	Заголовок	Раздел	Ответы	Дата
M	Учим HTML	Софт для работы с текстом/Другой софт	17	11.06.2017
	ИИ-дубляж на YouTube: Видео создаются людьми, а успех достаётся машинам	Новости в сети	0	Среда в 05:15
	Одна ошибка, два ИИ, три часа — эксплойт в студию	Новости в сети	0	Среда в 05:10
	Microsoft дала ИИ настоящий инструмент программиста — и он впервые узнал, как сложно быть человеком	Новости в сети	0	14.04.2025
	Невидимая империя зла: как ИИ, дети и крипта строят цифровую империю	Новости в сети	1	25.03.2025
	Хакеры добрались до ИИ-трейдинга: взлом на $107 000	Новости в сети	0	20.03.2025
	Яд в коде: злоумышленники заставляют ИИ внедрять бэкдоры через Unicode-символы	Новости в сети	0	19.03.2025
	Технологии против свободы слова: Власти применяют ИИ для контроля протестующих	Новости в сети	0	10.03.2025
	ИИ-атаки на подъёме: почему 2024 год стал переломным для кибербезопасности	Новости в сети	0	28.02.2025
	Тайный шейх, миллиардные инвестиции и битва за ИИ	Новости в сети	0	28.02.2025
	Увольнения в NIST: США теряет ведущих экспертов по ИИ и кибербезопасности	Новости в сети	0	27.02.2025
	Обмани себя сам: как ИИ-трейдеры ведут подписчиков к финансовому краху	Новости в сети	0	20.02.2025
	В Edge 133 появился ИИ-защитник от манипуляторов	Новости в сети	1	11.02.2025
	GhostGPT: как Telegram-бот из новичков делает профи криминального ИИ	Новости в сети	1	27.01.2025
	UI-TARS: ByteDance научила ИИ работать с компьютером как человек	Новости в сети	0	24.01.2025
	Ваша онлайн-жизнь под контролем ИИ: OpenAI запускает «Operator»	Новости в сети	0	24.01.2025
	ИИ вместо программистов: новая реальность разработки кода	Новости в сети	0	21.01.2025
	Пять сценариев будущего: к чему ИИ приведет мир в 2025 году	Новости в сети	0	10.01.2025
	Генеративный ИИ на службе зла: как тысячи вирусов избегают обнаружения	Новости в сети	0	24.12.2024
	ИИ на службе кибермошенников: ФБР предупреждает о новых угрозах	Новости в сети	0	10.12.2024
	CryptoAITools: как трейдерский ИИ-инструмент обокрал всех пользователей до нитки	Новости в сети	0	01.11.2024
	Большой Брат 2.0: Пентагон разрабатывает ИИ для массового онлайн-наблюдения	Новости в сети	0	21.10.2024
	Европол: ИИ становится оружием в руках преступников	Новости в сети	0	24.07.2024
	Хакеры взломали ИИ: LLMjacking позволяет продавать доступ к мозгам машин	Новости в сети	0	13.05.2024
	Невидимый враг в правительстве: США противостоят конфликту с ИИ	Новости в сети	0	02.05.2024
	Gemini: революция ИИ от Google AI - чат-бот, превзошедший человека	Новости в сети	0	12.02.2024
	Генераторы лиц с помощью ИИ.	Полезные статьи	1	31.01.2024
	Не только умный, но и опасный: темная сторона ИИ от Microsoft	Новости в сети	0	05.01.2024
	На волнах инноваций: плавучий дата-центр может стать первым в мире независимым ИИ-государством	Новости в сети	0	07.11.2023
	ИИ в роли злоумышленника: может ли машина превзойти человека в искусстве обмана?	Новости в сети	0	25.10.2023

Учим ИИ плохому за 5 минут: новый способ сделать из помощника соучастника

Support81

Название темы