Что случилось. Ученые из американского университета Карнеги — Меллона попытались выяснить, способны ли ИИ‑модели полностью заменить людей в работе. Эксперты создали ИТ‑компанию, в которой роль сотрудников выполняли нейросети от Google, OpenAI, Anthropic и Meta*.
Ученые присвоили роль каждому ИИ‑агенту: от финансового аналитика и разработчика до генерального директора. Перед нейросетями поставили задачи, которые каждый день решает небольшая ИТ‑компания, среди них — анализ баз данных, разработка софта и отчеты о работе коллег.
Лучшие результаты показал чат‑бот Claude 3.5 Sonnet от Anthropic — он справился с 24% заданий. На втором месте — Gemini 2.0 Flash от Google, который решил вдвое меньше задач. На третьем месте — ChatGPT, а худший результат показала Nova Pro v1 от Amazon, которая решила менее 2% задач.
Все ИИ‑модели начинали работу хорошо, но сталкивались с проблемами по мере усложнения задач. Нейросети неправильно понимали разговоры с коллегами и обманывали сами себя — это приводило к абсурдным действиям. Например, ИИ в рабочем чате переименовал одного пользователя в другого, чтобы найти нужного человека.
Что это значит для бизнеса. ИИ не может полностью заменить людей в условиях офисной работы, заключили ученые. У чат‑ботов нет социальных навыков и здравого смысла, а еще они не способны учиться на собственном опыте. Чтобы заменить человека, ИИ должен быть более развит и способен на нестандартные решения, подытожили эксперты.





