NVIDIA обвиняют в использовании "пиратских библиотек" для обучения ИИ

Новый виток судебного разбирательства против NVIDIA вывел скандал с обучением искусственного интеллекта на новый уровень. В расширенном коллективном иске утверждается, что руководство компании не просто знало об использовании защищенных авторским правом материалов, но и целенаправленно одобрило использование "теневых библиотек" с пиратским контентом для обучения своих языковых моделей (LLM), таких как NeMo.
Согласно документам, на которые ссылаются в сети, основная претензия связана с набором данных Books3. Это гигантский архив, содержащий около 197 000 книг, который был извлечен из известного пиратского репозитория Bibliotik. Истцы утверждают, что NVIDIA сознательно игнорировала нелегальное происхождение этих данных, стремясь ускорить разработку своих моделей и сэкономить на лицензионных отчислениях.
Адвокаты авторов заявляют, что у них есть доказательства того, что сотрудники NVIDIA обсуждали сомнительный статус Books3, но все равно решили использовать его, так как он обеспечивал высокое качество "литературного" обучения для ИИ.
Когда набор данных Books3 был удален с платформы Hugging Face из-за претензий правообладателей, NVIDIA якобы продолжила использовать уже загруженные копии для дообучения своих систем.
Некоторые авторы книг и этого набора теперь требуют от NVIDIA компенсации за нарушение авторских прав. NVIDIA, в свою очередь, придерживается стандартной для индустрии позиции: компания утверждает, что использование данных для обучения ИИ подпадает под доктрину "добросовестного использования", так как создается новый, трансформированный продукт.