Исследование показало, что удаление знаков препинания и артиклей снижает точность языковых моделей

Исследование показало, что удаление знаков препинания и артиклей снижает точность языковых моделей

Исследование показало, что удаление знаков препинания и артиклей снижает точность языковых моделей

Ученые Института AIRI провели исследование, которое показало, что удаление знаков препинания и артиклей из текста снижает точность работы языковых моделей почти на 20%. Результаты работы были опубликованы в интервью с "Снобом", где исследователи подробно рассказали о своих выводах.

В ходе исследования ученые выяснили, что чат-боты и виртуальные ассистенты воспринимают текст как последовательность символов, извлекая из них ключевые токены. Для того чтобы понять, как отсутствие знаков препинания влияет на восприятие текста, ученые провели несколько экспериментов, в том числе с использованием специально разработанных языковых моделей. Первая часть тестов заключалась в том, чтобы обучить систему восстанавливать исходный текст, включая знаки препинания и артикли. Оказалось, что стоп-слова, к которым относятся артикли и некоторые другие слова, играют ключевую роль в понимании контекста. Удаление этих слов приводит к тому, что модель теряет важные элементы информации, что ухудшает ее работу.

В дальнейшем исследователи использовали наборы задач MMLU и BABILong для оценки языковых моделей. Эти тесты включают в себя задачи, где от моделей требуется выполнить действия, которые человек обычно считает незначительными, например, удаление элементов текста, которые могут показаться лишними. После того как из текстов были удалены элементы, которые кажутся ненужными для человека, качество работы языковых моделей значительно снизилось. Например, ChatGPT, который принимал участие в тестировании, продемонстрировал слабые результаты на задачах, где были удалены артикли и знаки препинания.

Антон Разжигаев, руководитель группы "Интерпретируемый ИИ" лаборатории FusionBrain Института AIRI, отметил, что его команда уже два года изучает принципы работы языковых моделей. Он подчеркнул, что исследование показало, как важны даже те элементы текста, которые на первый взгляд могут показаться несущественными. Понимание этих аспектов работы виртуальных ассистентов поможет повысить их эффективность, безопасность и упростить процесс обучения таких систем.

здание госдумы рф

В Госдуме предложили ввести уголовное наказание за повторную продажу энергетиков детям

Партия ЛДПР инициировала законопроект, который предполагает введение уголовной ответственности за повторную продажу энергетических напитков несовершеннолетним.

телефон

Новый сервис на портале Госуслуги: контроль за зарегистрированными SIM-картами

На портале "Госуслуги" запущен новый сервис "Сим-карты", который позволяет пользователям проверить, сколько и каких абонентских номеров зарегистрировано на их имя у мобильных операторов.

Дональд Трамп

WSJ: американский фондовый рынок переживает худший первый квартал с 2022 года

Первый квартал 2025 года стал самым трудным для американского фондового рынка с 2022 года, сообщает The Wall Street Journal.

Российские деньги

Экономист Беляев: рубль будет на уровне 105-110 долларов к концу года

Финансовый аналитик Михаил Беляев прогнозирует, что курс рубля к доллару США будет продолжать падать в ближайшие два года, и уже к концу текущего года может достичь 110 рублей за доллар.