OpenAI собирает новый датасет из работ подрядчиков — есть риски утечки конфиденциальных данных

Wadimus

11 января в 18:45

533

OpenAI собирает новый датасет из работ подрядчиков — есть риски утечки конфиденциальных данных

По информации издания Wired, компания OpenAI нашла ещё один способ пополнять набор данных для обучения своих ИИ‑систем. Как сообщают источники, компания начала собирать датасет на основе задач, которые подрядчики выполняли в рамках других проектов.

Суть инициативы в том, что OpenAI запрашивает у подрядчиков файлы с примерами реально выполненных работ. Компания принимает различные форматы — от таблиц в Excel и текстов в Word до PDF‑файлов и изображений.

Чтобы снизить риски, связанные с персональными и конфиденциальными данными, OpenAI разработала специальный инструмент для очистки файлов. С его помощью подрядчики должны удалять чувствительную информацию до того, как материалы попадут в обучающий датасет.

Тем не менее эксперты предупреждают о возможных проблемах. В разговоре с Wired профильный юрист отметил: есть вероятность, что подрядчики не смогут полностью исключить конфиденциальные данные из передаваемых файлов. Даже при использовании инструмента очистки остаётся угроза непреднамеренной утечки информации.

Предполагается, что цель этой инициативы — повысить компетенции нейросетей OpenAI в решении офисных задач. Собранный датасет призван помочь моделям лучше работать с типовыми рабочими форматами документов: точнее обрабатывать данные, осваивать распространённые шаблоны и эффективнее справляться с рутинными операциями.

На вопросы о возможных утечках данных представители OpenAI предпочитают не отвечать..

Источники:

Wired

Другие публикации по теме

KRAFTON использует ИИ для создания "живых" NPC в своих играх

Южнокорейский разработчик и издатель KRAFTON объявил о назначении Канвука Ли на должность Chief AI Officer. Ли работает в компании с 2022 года — до повышения он занимал пост главы подразделения KRAFTON AI. Назначение подчёркивает курс компании на активное развитие исследований и разработок в области искусственного интеллекта.

24 февраля в 19:10

1624

Форум

Anthropic обвиняет китайские компании в масштабных атаках на ИИ‑модель Claude

Компания Anthropic выступила с заявлением, в котором обвинила три китайские организации — DeepSeek, Moonshot и MiniMax — в проведении масштабных атак на свою ИИ‑модель Claude. По версии компании, целью злоумышленников было незаконное извлечение возможностей модели для обучения собственных систем.

24 февраля в 18:30

328

Форум

ИИ при длительном общении с человеком тупеет

Исследование Microsoft Research и Salesforce подтвердило, что при длительном общении языковые модели склонны к деградации. Аналитики изучили более 200 тысяч диалогов с участием GPT-4.1, Gemini 2.5 Pro, Claude 3.7 Sonnet, o3, DeepSeek R1 и Llama 4.

24 февраля в 14:45

707

Форум