ИИ работники не смогли выполнить простую работу фрилансера

Wadimus

2 ноября в 16:35

1668

ИИ работники не смогли выполнить простую работу фрилансера

Совместная работа некоммерческой организации Center for AI Safety (CAIS) и компании Scale AI привела к неутешительным выводам. В ходе эксперимента шесть ведущих ИИ‑агентов прошли тестирование на симулированных фриланс‑задачах. Результат оказался обескураживающим: ни один из участников не сумел выполнить более 3 % объёма работы. Если потенциальный доход от полного выполнения всех заданий оценивался в 143 991 доллар, то суммарный заработок ИИ‑агентов составил лишь 1 810 долларов.

Для объективной оценки специалисты разработали специальный бенчмарк Remote Labor Index. Он имитирует реальные удалённые проекты из самых разных сфер — от разработки игр до анализа данных. Задача теста заключалась в том, чтобы выяснить, способны ли боты выполнять работу, имеющую реальную экономическую ценность.

Наилучший результат показал ИИ‑агент китайского стартапа Manus, сумевший завершить 2,5 % назначенных проектов на уровне, приемлемом для реальной фриланс‑работы. Не намного отстали Grok 4 (проект Илона Маска) и Claude Sonnet 4.5 от Anthropic — оба продемонстрировали результат в 2,1 %. Примечательно, что Anthropic активно продвигает свою модель как «лучшую в мире для программирования» и «самую мощную для создания сложных агентов».

Новейшая модель GPT‑5 от OpenAI, которую создатели характеризуют как «интеллект уровня PhD» и важный шаг к искусственному общему интеллекту (AGI), показала результат лишь в 1,7 %. При этом OpenAI определяет AGI как «высокоавтономные системы, превосходящие людей в большинстве экономически ценных работ» — критерий, которому GPT‑5 явно не соответствует на практике.

ChatGPT Agent от OpenAI занял предпоследнюю строчку рейтинга с показателем 1,3 %. Абсолютным аутсайдером оказался Gemini 2.5 Pro от Google, сумевший выполнить лишь 0,8 % поставленных задач.

Директор CAIS Дэн Хендрикс в интервью Wired подчеркнул, что полученные результаты должны дать более точное представление о реальных возможностях ИИ. Он также обозначил ключевые недостатки, которые продолжают ограничивать эффективность ИИ‑агентов: отсутствие долгосрочной памяти, невозможность непрерывного обучения на собственном опыте и неспособность осваивать новые навыки в процессе работы — качества, естественные для любого человека.

Несмотря на очевидную ограниченность ИИ‑решений, волна увольнений из‑за внедрения искусственного интеллекта не спадает, а наоборот — набирает обороты. Многие компании, сократившие персонал в пользу автоматизированных систем, впоследствии вынуждены были вернуть сотрудников обратно, столкнувшись с низкой эффективностью ИИ‑инструментов.

Данные подтверждаются результатами других исследований. Анализ MIT показал, что 95 % компаний, запустивших пилотные ИИ‑инициативы, не зафиксировали значимого роста выручки. Другое исследование выявило, что массовое внедрение ИИ‑инструментов привело к появлению большого объёма низкокачественного контента. Это не только замедлило рабочие процессы из‑за необходимости многочисленных правок, но и породило напряжённость в коллективах, где сотрудникам приходилось исправлять ошибки, допущенные искусственным интеллектом.

Директор по исследованиям Scale AI Бинг Ли в беседе с Wired отметил, что долгие годы дискуссии об ИИ и рабочих местах носили преимущественно гипотетический характер. Теперь же практические тесты наглядно показывают: несмотря на громкие маркетинговые заявления и энтузиазм руководителей, ИИ‑агенты пока не готовы заменить человеческий труд в большинстве экономически значимых задач.

Другие публикации по теме

VK Play синхронизирует себя с вашей библиотекой Steam

VK Play запустила синхронизацию библиотек с Steam. Игры из Steam теперь отображаются и запускаются прямо в лаунчере VK Play, что является шагом к созданию единой игровой экосистемы.

Сегодня в 12:51

Форум

Snapchat — в бан! РКН последние два дня натурально лютует

Роскомнадзор заблокировал Snapchat, обвинив его в использовании для планирования терроризма. Позже были ограничены также FaceTime и детская платформа Roblox.

Сегодня в 12:35

Форум

У Дженсена Хуанга явное психическое расстройство: глава NVIDIA поделился сокровенным

Глава Nvidia Джейсен Хуанг работает по 14 часов в день, движимый страхом банкротства из-за кризиса 1990-х. Он считает эту уязвимость своим главным мотиватором.

Сегодня в 12:30

Форум