Девушка за компьютером, .pexels.com by Negative Space is licensed under Creative Commons CC0 1.0 Universal Public Domain Dedication

Исследование показало, что удаление знаков препинания и артиклей снижает точность языковых моделей

Ученые Института AIRI провели исследование, которое показало, что удаление знаков препинания и артиклей из текста снижает точность работы языковых моделей почти на 20%. Результаты работы были опубликованы в интервью с "Снобом", где исследователи подробно рассказали о своих выводах.

В ходе исследования ученые выяснили, что чат-боты и виртуальные ассистенты воспринимают текст как последовательность символов, извлекая из них ключевые токены. Для того чтобы понять, как отсутствие знаков препинания влияет на восприятие текста, ученые провели несколько экспериментов, в том числе с использованием специально разработанных языковых моделей. Первая часть тестов заключалась в том, чтобы обучить систему восстанавливать исходный текст, включая знаки препинания и артикли. Оказалось, что стоп-слова, к которым относятся артикли и некоторые другие слова, играют ключевую роль в понимании контекста. Удаление этих слов приводит к тому, что модель теряет важные элементы информации, что ухудшает ее работу.

В дальнейшем исследователи использовали наборы задач MMLU и BABILong для оценки языковых моделей. Эти тесты включают в себя задачи, где от моделей требуется выполнить действия, которые человек обычно считает незначительными, например, удаление элементов текста, которые могут показаться лишними. После того как из текстов были удалены элементы, которые кажутся ненужными для человека, качество работы языковых моделей значительно снизилось. Например, ChatGPT, который принимал участие в тестировании, продемонстрировал слабые результаты на задачах, где были удалены артикли и знаки препинания.

Антон Разжигаев, руководитель группы "Интерпретируемый ИИ" лаборатории FusionBrain Института AIRI, отметил, что его команда уже два года изучает принципы работы языковых моделей. Он подчеркнул, что исследование показало, как важны даже те элементы текста, которые на первый взгляд могут показаться несущественными. Понимание этих аспектов работы виртуальных ассистентов поможет повысить их эффективность, безопасность и упростить процесс обучения таких систем.

Исследование показало, что удаление знаков препинания и артиклей снижает точность языковых моделей

Регулирование

В Госдуме предложили ввести уголовное наказание за повторную продажу энергетиков детям

Новый сервис на портале Госуслуги: контроль за зарегистрированными SIM-картами

Рынки

WSJ: американский фондовый рынок переживает худший первый квартал с 2022 года

Экономист Беляев: рубль будет на уровне 105-110 долларов к концу года

Новости

Более 40% учеников математических классов московских школ не склонны к математике и IT

Microsoft анонсировала масштабные изменения в системе входа в учетные записи

Компания «Авроид» приостанавливает разработку приложений для ОС «Аврора» из-за недостаточного спроса

Ученые Сколтеха разработали чипы для высокоскоростной передачи данных

Новый стартап на базе AT Protocol представляет альтернативу TikTok

Найден новый способ обхода ограничения Windows 11

Дефицит воды угрожает экосистемам и сообществам Анд на фоне наращивания добычи лития

Adobe Premiere Pro 25.2 предоставляет новые возможности для видеоредактирования с ИИ

Т1 представляет для корпоративных коммуникаций два программно-аппаратных комплекса для обеспечения безопасности данных

«Газпром нефть» внедряет 3D-печать для ускорения модернизации газовых турбин на удаленных месторождениях

ИИ спрогнозировал курс биткоина