OpenAI собирает новый датасет из работ подрядчиков — есть риски утечки конфиденциальных данных

143
0
OpenAI собирает новый датасет из работ подрядчиков — есть риски утечки конфиденциальных данных

По информации издания Wired, компания OpenAI нашла ещё один способ пополнять набор данных для обучения своих ИИ‑систем. Как сообщают источники, компания начала собирать датасет на основе задач, которые подрядчики выполняли в рамках других проектов.

Суть инициативы в том, что OpenAI запрашивает у подрядчиков файлы с примерами реально выполненных работ. Компания принимает различные форматы — от таблиц в Excel и текстов в Word до PDF‑файлов и изображений.

Чтобы снизить риски, связанные с персональными и конфиденциальными данными, OpenAI разработала специальный инструмент для очистки файлов. С его помощью подрядчики должны удалять чувствительную информацию до того, как материалы попадут в обучающий датасет.

Тем не менее эксперты предупреждают о возможных проблемах. В разговоре с Wired профильный юрист отметил: есть вероятность, что подрядчики не смогут полностью исключить конфиденциальные данные из передаваемых файлов. Даже при использовании инструмента очистки остаётся угроза непреднамеренной утечки информации.

Предполагается, что цель этой инициативы — повысить компетенции нейросетей OpenAI в решении офисных задач. Собранный датасет призван помочь моделям лучше работать с типовыми рабочими форматами документов: точнее обрабатывать данные, осваивать распространённые шаблоны и эффективнее справляться с рутинными операциями.

На вопросы о возможных утечках данных представители OpenAI предпочитают не отвечать..

Источники:
Wired
Другие публикации по теме
Запрещенная в России Meta делает ставку на атомную энергию для питания ИИ: зарезервированы огромные мощности
Запрещенная в России Meta делает ставку на атомную энергию для питания ИИ: зарезервированы огромные мощности
Meta заказала 6,6 ГВт атомной энергии у Vistra, TerraPower и Oklo для питания своих ИИ-систем к 2035 году, став крупнейшим корпоративным покупателем в США.
10 января в 13:30
1307
7
Форум
Samsung усиливает Bixby за счёт интеграции с передовыми ИИ‑моделями
Samsung усиливает Bixby за счёт интеграции с передовыми ИИ‑моделями
Вместо того чтобы кардинально перерабатывать Bixby на собственной технологической базе, Samsung выбрала стратегию, во многом перекликающуюся с подходом Apple. Компания подключила к своему голосовому ассистенту мощные большие языковые модели (LLM) от внешних разработчиков — в частности, от Perplexity и DeepSeek.
9 января в 19:30
140
0
Форум
CES 2026: когда ожидания разбиваются о реальность корпоративного ИИ
CES 2026: когда ожидания разбиваются о реальность корпоративного ИИ
Ещё недавно ежегодная выставка CES воспринималась как главный праздник для геймеров — место, где задавался вектор развития игровой индустрии на весь следующий год. Но в 2026‑м всё выглядело так, будто организаторы решили устроить закрытое мероприятие для ИТ‑менеджеров, забыв пригласить тех, ради кого всё это когда‑то затевалось.
9 января в 17:15
450
5
Форум