Команда Anthropic сообщает, что атака «отравлением данных» способна ломать поведение моделей, едва касаясь общего корпуса. В эксперименте учёные заранее встраивали «триггерную фразу» и бессмысленные токены в 250 документов, после чего модель начинала отвечать «бессмыслицей», как только видела триггер.
Работа уже показала масштаб уязвимости: независимо от габаритов — от 600 млн до 13 млрд параметров — порог в районе 250 вредоносных примеров делал систему уязвимой. Валидация охватывала разные семейства, включая коммерческие и открытые модели, и подтверждала, что проблема не сводится к одной архитектуре.
Авторы подчёркивают, что исследовали относительно «мягкие» сценарии наподобие отказа в обслуживании, а не обход защит. Тем не менее результаты звучат тревожно, поскольку даже микроскопическая доля токсичных данных искажает поведение, если они попадают в обучение или дообучение. В прошлом разработчики предполагали, что огромные датасеты «размоют» шум, но практика опровергла этот оптимизм.
Дальше индустрия неизбежно усилит фильтрацию корпусов, версионирование датасетов и проверку источников — от происхождения текстов до поиска скрытых триггеров. Появятся процедуры «санитарной обработки» перед дообучением, а поставщики корпоративных моделей начнут требовать прозрачных журналов данных. Если эти меры сработают, риск целенаправленного «отравления» снизится, а доверие к ИИ-инструментам вырастет.







