DeepSeek готовится составить конкуренцию ИИ гигантам с моделью V4

Технология mHC может обойти GPT и Claude

Wadimus

12 января в 07:00

1684

DeepSeek готовится составить конкуренцию ИИ гигантам с моделью V4

Китайская компания DeepSeek анонсировала скорый релиз новой языковой модели V4, которая, по инсайдерским данным, способна превзойти решения OpenAI и Anthropic в задачах программирования. Как сообщает The Information со ссылкой на источники внутри компании, официальный запуск запланирован на середину февраля 2026 года — ориентировочно 17 февраля, в период празднования китайского Нового года.

Ключевая особенность V4 — выдающиеся способности в обработке кода, особенно при работе с очень длинными промптами. По результатам внутренних тестов DeepSeek, новая модель превосходит Claude от Anthropic и серию GPT от OpenAI в задачах программирования. Чтобы стать лидером в этой области, V4 должна превзойти текущий рекорд Claude Opus 4.5 в бенчмарке SWE‑bench Verified, где модель Anthropic демонстрирует результат 80,9%.

По данным источников, прорыв может быть обеспечен за счёт технологии Manifold‑Constrained Hyper‑Connections (mHC), описанной в недавней исследовательской работе DeepSeek от 1 января 2026 года. Метод решает фундаментальную проблему масштабирования больших языковых моделей: как расширять архитектуру без потери стабильности при обучении. В отличие от предшествующей концепции Hyper‑Connections (HC) от ByteDance, mHC добавляет математические ограничения на перераспределение информации между слоями нейросети. Благодаря этому удаётся сохранять стабильность обучения даже при значительном увеличении числа слоёв, предотвращать взрывы градиентов и эффективно масштабировать модель без пропорционального роста требований к вычислительным ресурсам.

Вэй Сунь (Wei Sun), главный аналитик по ИИ в Counterpoint Research, назвала mHC «поразительным прорывом», который позволяет DeepSeek «обходить ограничения вычислительных мощностей и совершать скачки в интеллекте» даже в условиях американских экспортных ограничений на поставку передовых чипов.

DeepSeek уже демонстрировала впечатляющие результаты с предыдущими релизами. В декабре 2024 года модель V3 показала 90,2% на бенчмарке MATH‑500, значительно превзойдя результат Claude, который составил 78,3%. В январе 2025 года модель R1 обошла решение o1 от OpenAI по бенчмаркам математики и рассуждений. Примечательно, что разработка R1 обошлась компании всего в $6 млн — в 68 раз дешевле, чем у конкурентов.

На данный момент DeepSeek официально не подтвердила информацию о превосходстве V4 над конкурентами, а публичные бенчмарки ещё не опубликованы. Однако ожидания вокруг релиза высоки: если заявленные характеристики подтвердятся, модель может стать серьёзным игроком на глобальном рынке ИИ.

Другие публикации по теме

KRAFTON использует ИИ для создания "живых" NPC в своих играх

Южнокорейский разработчик и издатель KRAFTON объявил о назначении Канвука Ли на должность Chief AI Officer. Ли работает в компании с 2022 года — до повышения он занимал пост главы подразделения KRAFTON AI. Назначение подчёркивает курс компании на активное развитие исследований и разработок в области искусственного интеллекта.

24 февраля в 19:10

1663

Форум

Anthropic обвиняет китайские компании в масштабных атаках на ИИ‑модель Claude

Компания Anthropic выступила с заявлением, в котором обвинила три китайские организации — DeepSeek, Moonshot и MiniMax — в проведении масштабных атак на свою ИИ‑модель Claude. По версии компании, целью злоумышленников было незаконное извлечение возможностей модели для обучения собственных систем.

24 февраля в 18:30

330

Форум

ИИ при длительном общении с человеком тупеет

Исследование Microsoft Research и Salesforce подтвердило, что при длительном общении языковые модели склонны к деградации. Аналитики изучили более 200 тысяч диалогов с участием GPT-4.1, Gemini 2.5 Pro, Claude 3.7 Sonnet, o3, DeepSeek R1 и Llama 4.

24 февраля в 14:45

710

Форум