Исследователи обнаружили скрытые метки в текстах, сгенерированных языковыми моделями GPT

23 апреля 2025, 23:16

Группа специалистов, занимающаяся разработкой цифровых инструментов для образования, заявила о выявлении скрытых меток в текстах, создаваемых некоторыми языковыми моделями семейства GPT. Речь идёт о версиях o4-mini, o4-mini-high и o3. Исследователи подчеркнули, что эти метки представляют собой так называемые неразрывные пробелы в кодировке Unicode, которые встраиваются в текст незаметно для большинства пользователей.

По их словам, особенно часто такие символы встречаются вблизи сокращений и дат, при этом в стандартных текстовых редакторах, таких как Google Docs или Microsoft Word, они визуально не проявляются. Однако в редакторах исходного кода — например, Sublime Text или VS Code — они становятся заметны, что позволяет их идентифицировать и анализировать.

Одной из особенностей, на которую указали исследователи, стало то, что подобные "водяные знаки" появляются лишь в достаточно длинных фрагментах текста. Это может свидетельствовать о том, что в языковых моделях тестируются методы скрытой маркировки — с целью отслеживания источника текста, особенно в контексте образовательных задач и проверки оригинальности студенческих работ.

В свете недавнего расширения бесплатного доступа к ChatGPT для учащихся, эксперты не исключили, что OpenAI может экспериментировать с системой, позволяющей преподавателям и академическим системам распознавать тексты, созданные при помощи ИИ. Это особенно важно на фоне обеспокоенности ростом числа студенческих работ, написанных с помощью нейросетей.

Автор
Дмитрий Толстенёв