Anthropic обновила «конституцию» Claude, перейдя от строгих ограничений к широким понятиям

Компания Anthropic представила обновлённую версию «конституции» для своего ИИ‑ассистента Claude — документа, определяющего ценностные ориентиры и поведенческие рамки модели. Ключевое изменение заключается в отказе от жёстких, детализированных правил в пользу широких принципов, которые должны научить ИИ принимать решения в разнообразных ситуациях.
В Anthropic поясняют, что: строгие предписания, хотя и обеспечивают предсказуемость поведения, одновременно ограничивают потенциал искусственного интеллекта. Новая концепция делает ставку на способность модели проявлять здравое суждение, обобщать опыт и избегать шаблонных реакций. По мнению разработчиков, важно не просто заставить ИИ механически выполнять команды, а помочь ему понять мотивы человеческих ожиданий — именно это обеспечит адекватное поведение в реальном мире.
Основу обновлённой конституции составляют четыре обобщённых принципа: широкая безопасность, широкая этичность, соответствие руководствам Anthropic и истинная полезность. При этом этичность, например, трактуется как честность, следование хорошим ценностям и избегание неуместных, опасных или вредных действий. Хотя публичная версия документа выглядит достаточно общей, в компании подчёркивают: значительная часть текста посвящена развёрнутым пояснениям к каждому из принципов.
Особого внимания заслуживает раздел, посвящённый природе самого Claude. Anthropic включила его в документ из‑за неопределённости вокруг вопроса о возможном сознании или моральном статусе ИИ — как в настоящем, так и в будущем. Компания рассчитывает, что чёткое прописание этих аспектов в основополагающем документе поможет защитить «психологическую безопасность, самоощущение и благополучие» чат‑бота. Такая формулировка подчёркивает стремление разработчиков заранее определить этические границы взаимодействия с продвинутыми ИИ‑системами.
Анонс обновления последовал спустя сутки после выступления Дарио Амодеи, основателя и главы Anthropic, на панельной дискуссии Всемирного экономического форума «День после AGI». В своём докладе он высказал предположение, что уже к 2027 году искусственный интеллект сможет достичь уровня нобелевских лауреатов во многих областях.
В Anthropic подчёркивают, что раскрытие деталей работы Claude происходит в соответствии с внутренним графиком компании. Публикация полной версии конституции была запланирована изначально и является частью стратегии прозрачности.