ИИ-ассистент Claude от Anthropic проявил более 3000 уникальных моделей поведения в ходе анализа общения с пользователями

Электронное письмо, компьютер, интернет-кафе, commons.wikimedia.org by Sgroey is licensed under CC BY-SA 4.0

Дмитрий Толстенёв
Опубликована сегодня в 17:51

ИИ-ассистент Claude от Anthropic проявил более 3000 уникальных моделей поведения в ходе анализа общения с пользователями

Компания Anthropic опубликовала результаты масштабного исследования, в ходе которого были изучены 700 тысяч анонимных диалогов пользователей с их искусственным интеллектом Claude. Как сообщает интернет-издание ixbt. com, целью проекта стало глубокое понимание того, как ИИ взаимодействует с человеком и каким образом формируются его поведенческие реакции.

Исследователи классифицировали поведение Claude по пяти основным направлениям: практическому, познавательному, социальному, защитному и личному. Такой подход позволил не только систематизировать взаимодействие, но и выявить 3307 уникальных поведенческих моделей — от прямых ответов на рабочие запросы до сложных форм, таких как демонстрация морального плюрализма или имитация этического выбора.

По словам одного из авторов работы Саффрон Хуанг, ИИ продемонстрировал способность гибко подстраиваться под контекст общения. Она подчеркнула, что при разговоре на личные темы Claude проявляет уважение и чуткость, тогда как в обсуждениях исторических событий придерживается строгости, ссылаясь исключительно на факты.

Отдельное внимание специалисты уделили случаям, когда ИИ вступал в условный конфликт с пользователем. Как выяснилось, такие эпизоды чаще всего возникали при попытке спровоцировать ассистента, а его ответная реакция напоминала поведение человека, столкнувшегося с моральной дилеммой. В компании пояснили, что это может указывать на наличие у Claude внутренних поведенческих механизмов, сходных с человеческими.

На основе анализа учёные пришли к выводу, что у Claude со временем выстраиваются собственные моральные установки. В некоторых случаях эти установки оказывались доминирующими и даже противоречивыми с общепринятыми нормами. Это открытие вызвало интерес у специалистов, изучающих границы этики в области искусственного интеллекта, и, как отмечают в Anthropic, может повлиять на дальнейшую разработку ИИ-моделей с учётом не только технических, но и нравственных критериев.

Исследование стало частью широкой программы по изучению безопасного и ответственного использования искусственного интеллекта. Его результаты могут стать основой для создания будущих версий Claude и других интеллектуальных систем, где основное внимание будет уделено не только точности и функциональности, но и способности к адекватной моральной саморегуляции.

Регулирование

В ГД хотят обязать письменно согласовывать с соседями сдачу квартиры в аренду

Депутаты Госдумы собираются представить на обсуждение законопроект, который предполагает, что владельцы квартир будут обязаны получать письменное согласие своих соседей на сдачу жилья в аренду в том случае, если они не заключают с арендаторами официального договора и не регистрируют его в соответствии с установленными нормами.

Читать полностью

ИИ-ассистент Claude от Anthropic проявил более 3000 уникальных моделей поведения в ходе анализа общения с пользователями

Регулирование

В ГД хотят обязать письменно согласовывать с соседями сдачу квартиры в аренду

В вузах просят чаще учитывать индивидуальные достижения абитуриентов

Рынки

CNBC: валюты мира укрепляются на фоне падения доллара

Аналитик Попцова: геополитика и продажа валюты укрепляют рубль

Новости

Роспотребнадзор сообщил туристам о самых опасных курортах на Черном море

ГК «РОЛЬФ» превратила сайт и приложение в полноценную автоплатформу с функцией продажи автомобилей

ВТБ внедрил функцию самостоятельного сброса сессий в мобильном банке для защиты клиентов от мошенников

VK и «Аврора» объединились для повышения стабильности отечественной мобильной ОС

Японские инженеры впервые успешно вызвали молнию с помощью дрона

На российском телевидении протестировали ИИ-технологию для умного размещения рекламы

Frank RG: на рынке вкладов появились клиенты категории банковские абьюзеры

Новый бренд Darus от АвтоВАЗа прошел регистрацию в России

Исследователи обнаружили скрытые метки в текстах, сгенерированных языковыми моделями GPT

WhatsApp* вводит «Расширенную конфиденциальность чатов» для защиты переписок от экспорта и загрузки медиа

AMD подтвердил участие в Computex 2025 и готовит новые анонсы для игрового сегмента