OpenAI собирает новый датасет из работ подрядчиков — есть риски утечки конфиденциальных данных

По информации издания Wired, компания OpenAI нашла ещё один способ пополнять набор данных для обучения своих ИИ‑систем. Как сообщают источники, компания начала собирать датасет на основе задач, которые подрядчики выполняли в рамках других проектов.
Суть инициативы в том, что OpenAI запрашивает у подрядчиков файлы с примерами реально выполненных работ. Компания принимает различные форматы — от таблиц в Excel и текстов в Word до PDF‑файлов и изображений.
Чтобы снизить риски, связанные с персональными и конфиденциальными данными, OpenAI разработала специальный инструмент для очистки файлов. С его помощью подрядчики должны удалять чувствительную информацию до того, как материалы попадут в обучающий датасет.
Тем не менее эксперты предупреждают о возможных проблемах. В разговоре с Wired профильный юрист отметил: есть вероятность, что подрядчики не смогут полностью исключить конфиденциальные данные из передаваемых файлов. Даже при использовании инструмента очистки остаётся угроза непреднамеренной утечки информации.
Предполагается, что цель этой инициативы — повысить компетенции нейросетей OpenAI в решении офисных задач. Собранный датасет призван помочь моделям лучше работать с типовыми рабочими форматами документов: точнее обрабатывать данные, осваивать распространённые шаблоны и эффективнее справляться с рутинными операциями.
На вопросы о возможных утечках данных представители OpenAI предпочитают не отвечать..