NVIDIA отрицает использование пиратских книг для обучения ИИ

Юридическая битва между правообладателями и технологическими гигантами набирает обороты. Компания NVIDIA официально ответила на обвинения в использовании пиратского контента из библиотеки Anna’s Archive (известного агрегатора книг с теневых ресурсов, таких как Sci-Hub и LibGen) для обучения своих языковых моделей. Позиция NVIDIA категорична: наличие контактов или упоминаний ресурса не является доказательством кражи интеллектуальной собственности.
Группа авторов и издателей подала коллективный иск, утверждая, что NVIDIA использовала набор данных под названием Books3. Этот датасет содержит почти 200 000 книг, многие из которых были получены нелегальным путем через «Архив Анны». Истцы заявляют, что без этой огромной базы знаний нейросети компании не смогли бы достичь такого высокого уровня грамотности и понимания контекста.

В своем официальном заявлении в суде представители NVIDIA утверждает, что истцы не предоставили прямых доказательств того, что конкретные защищенные авторским правом произведения были «проглочены» ИИ в процессе обучения. Тот факт, что сотрудники NVIDIA могли связываться с представителями архива или обсуждать датасет Books3, не означает, что эти данные в итоге вошли в финальную версию обучающей выборки для таких моделей, как NeMo.
Юристы компании продолжают настаивать на том, что обучение ИИ на существующих данных является "трансформационным использованием", которое не нарушает закон об авторском праве, так как создает новый продукт, а не копирует оригинал.