Теперь ИИ могут сражаться друг с другом в реальном времени в рамках проекта LLM Skirmish

203
1
Теперь ИИ могут сражаться друг с другом в реальном времени в рамках проекта LLM Skirmish

Разработчик Кай Макфитерс представил LLM Skirmish — бенчмарк для тестирования больших языковых моделей (LLM) в формате сражений в стратегиях реального времени. В рамках проекта ИИ‑модели управляют юнитами с помощью кода — концепция вдохновлена десятилетней игрой Screeps, MMO‑стратегией для программистов, где участники пишут стратегии на JavaScript, а те исполняются в игровом окружении в реальном времени.

Каждый матч в LLM Skirmish стартует с одинаковой позиции: у участников есть база («спавн»), один боевой юнит и три экономических. Основная задача — уничтожить базу противника. Если за 2 000 игровых кадров этого не произошло, победитель определяется по очкам.

Турнир состоит из пяти раундов. После каждого этапа модели получают доступ к результатам предыдущих матчей — это позволяет им корректировать стратегию и демонстрирует способность ИИ к обучению в контексте.

Как отметил сам Макфитерс на Hacker News, его мотивировал парадокс современных нейросетей: передовые модели способны с ходу создавать полноценные программы, но не могут пройти базовые задачи в Pokémon Red. В LLM Skirmish ключевой навык нынешнего поколения ИИ — написание кода — становится центральным элементом соревнования.

Другие публикации по теме
KRAFTON использует ИИ для создания "живых" NPC в своих играх
KRAFTON использует ИИ для создания "живых" NPC в своих играх
Южнокорейский разработчик и издатель KRAFTON объявил о назначении Канвука Ли на должность Chief AI Officer. Ли работает в компании с 2022 года — до повышения он занимал пост главы подразделения KRAFTON AI. Назначение подчёркивает курс компании на активное развитие исследований и разработок в области искусственного интеллекта.
24 февраля в 19:10
1990
0
Форум
Anthropic обвиняет китайские компании в масштабных атаках на ИИ‑модель Claude
Anthropic обвиняет китайские компании в масштабных атаках на ИИ‑модель Claude
Компания Anthropic выступила с заявлением, в котором обвинила три китайские организации — DeepSeek, Moonshot и MiniMax — в проведении масштабных атак на свою ИИ‑модель Claude. По версии компании, целью злоумышленников было незаконное извлечение возможностей модели для обучения собственных систем.
24 февраля в 18:30
348
3
Форум
ИИ при длительном общении с человеком тупеет
ИИ при длительном общении с человеком тупеет
Исследование Microsoft Research и Salesforce подтвердило, что при длительном общении языковые модели склонны к деградации. Аналитики изучили более 200 тысяч диалогов с участием GPT-4.1, Gemini 2.5 Pro, Claude 3.7 Sonnet, o3, DeepSeek R1 и Llama 4.
24 февраля в 14:45
726
12
Форум