Anthropic: чем красивее ответ нейросети, тем реже люди его проверяют

ЛоготипTimes.by
© rawpixel.com, Freepik.com

© rawpixel.com, Freepik.com

Анализ проводился с помощью внутреннего инструмента Clio. Он выявляет поведенческие привычки и паттерны использования, не читая само содержание переписки.

Пользователи искусственного интеллекта теряют бдительность, когда получают визуально привлекательный результат – например, готовый код или красиво оформленный документ.

К такому выводу пришла компания Anthropic, представив AI Fluency Index – первое масштабное исследование того, насколько грамотно люди взаимодействуют с нейросетями.

Главной находкой аналитиков стал так называемый «парадокс артефактов» (инструмента для предпросмотра кода, презентаций и текстов внутри чат-бота). Выяснилось, что при запросе на генерацию сложного контента пользователи гораздо тщательнее формулируют задачу: они чаще объясняют конечную цель (+14,7 процентных пункта), задают нужный формат (+14,5 п.п.) и приводят примеры (+13,4 п.п.).

Однако, получив солидно выглядящий результат, человек расслабляется. В таких случаях люди реже замечают упущенный контекст (−5,2 п.п.), меньше проверяют достоверность фактов (−3,7 п.п.) и почти не просят ИИ разъяснить свою логику (−3,1 п.п.). Вывод авторов однозначен: чем более завершенным и «готовым» кажется ответ, тем меньше у пользователя желания сомневаться в его правдивости.

Сила постоянной доработки

Вторая важная тенденция – польза итераций. Подавляющее большинство диалогов (85,7%) содержало попытки улучшить первоначальный ответ машины. Именно такие беседы демонстрируют высокий уровень ИИ-грамотности.

Те, кто не соглашается с первым же выданным результатом, в 5,6 раза чаще критически оценивают рассуждения алгоритма и в 4 раза чаще замечают нехватку вводных данных.

Примечательно, что лишь в 30% бесед люди изначально устанавливают правила игры – например, заранее требуют от системы спорить с ними или подробно объяснять ход своих мыслей.

Как проводилось исследование

Чтобы прийти к этим выводам, Anthropic изучила 9 830 анонимных бесед с чат-ботом Claude за одну неделю января 2026 года.

Анализ проводился с помощью внутреннего инструмента Clio. Он выявляет поведенческие привычки и паттерны использования, не читая само содержание переписки.

Диалоги оценивали по 11 критериям из академической модели 4D AI Fluency – от навыков постановки задачи до готовности оспорить мнение алгоритма.

Исследователи признают ряд ограничений. Во-первых, 13 из 24 критериев научной модели (например, честность человека в маркировке сгенерированного текста или оценка последствий) происходят вне чата, и измерить их пока невозможно.

Искусственный интеллект

© Igor Omilaev, Unsplash.com

Во-вторых, текущая выборка опирается в основном на ранних пользователей. Кроме того, связь между частой доработкой запроса и грамотностью не обязательно является причинно-следственной.

Планы на будущее и прошлый опыт

Разработчики планируют сделать публикацию индекса регулярной. В следующих отчетах они хотят сравнить привычки новичков и опытных юзеров, а также включить в анализ инструмент Claude Code.

Стоит отметить, что ранее компания уже публиковала данные о влиянии нейросетей на навыки программирования. В ходе контролируемого эксперимента выяснилось: разработчики, которые полностью перекладывали написание кода на ИИ-помощника, усваивали новый инструмент на 17% хуже.

При этом те, кто использовал алгоритм только для ответов на концептуальные вопросы, сохранили эффективность обучения и не потеряли баллы.