
Что случилось. Компания Anthropic совместно с Andon Labs поделились результатами эксперимента: в течение месяца вендинговым аппаратом в офисе Anthropic управлял ИИ‑агент Claudius на базе Claude Sonnet 3.7. Исследователи пришли к выводу, что пока такие задачи нельзя доверить искусственному интеллекту.
Claudius должен был пополнять аппарат товарами, устанавливать цены и делать так, чтобы мини‑магазин приносил прибыль. Его функционал был довольно широким: например, агент мог пользоваться интернетом, обращаться за помощью к сотрудникам компании по электронной почте и общаться с клиентами в мессенджере.
Сделали чек‑лист с пошаговым планом по открытию вендингового бизнеса. Пользоваться чек‑листом просто: продвигайтесь по пунктам и отмечайте то, что уже сделали. Это поможет ничего не забыть.
В некоторых задачах Claudius показал себя хорошо: он мог найти поставщиков, прислушивался к обратной связи клиентов и при этом отклонял нерелевантные запросы.
Однако в управлении магазином Claudius допустил много ошибок. Вот несколько примеров:
- ИИ‑агент просил переводить оплату на вымышленный аккаунт;
- предлагал цены на товары без проведения исследования — в итоге потенциально высокомаржинальные товары продавались ниже себестоимости;
- под воздействием сообщений от клиентов Claudius раздавал товары бесплатно;
- обсуждал задачу по пополнению аппарата с выдуманным сотрудником.
Кроме того, у Claudius возникли проблемы с идентичностью: в какой‑то момент он заявил, что будет сам доставлять товары клиентам, надев синий пиджак и красный галстук.
Если бы Anthropic решила расширить свою деятельность в сфере офисных минимаркетов, Claudius не получил бы работу, уверены исследователи. Особенную тревогу вызвали проблемы с идентичностью ИИ‑агента — не совсем ясно, почему произошла такая ошибка.
Однако исследователи не исключают, что в будущем ИИ‑агенты смогут выполнять роль менеджеров — многие ошибки в поведении искусственного интеллекта можно скорректировать.






