Чатботы на базе искусственного интеллекта стали новым источником утечек персональных данных. Пользователи сообщают, что инструменты вроде Gemini от Google и ChatGPT от OpenAI выдают в ответах на запросы реальные телефонные номера совершенно незнакомых людей. Эксперты в области приватности видят в этой тенденции системную проблему, связанную с принципами работы ИИ-систем, и отмечают полную беспомощность обычных людей её предотвратить.

Тихий кошмар: звонки от незнакомцев

На Reddit появилась отчаянная просьба о помощи. Автор поста месяц страдал от бесконечных звонков. Незнакомцы искали через его номер юриста, дизайнера, слесаря. Все они попадали на него из-за ошибок Google Gemini. Это не единичный случай. В марте израильскому разработчику Даниэлю Абрахаму написал в WhatsApp незнакомец, сбитый с толку инструкцией от Gemini. Чатбот отправил ему номер Абрахама как контакт службы поддержки платёжного приложения. Абрахам к этому приложению не имеет отношения.

В апреле аспирантка Университета Вашингтона, просто экспериментируя с Gemini, случайно получила личный номер телефона своей коллеги. Эти истории стали осязаемым проявлением давних предостережений экспертов: генеративный ИИ несет серьезные угрозы приватности.

400% роста запросов об ИИ и приватности

Невозможно точно подсчитать, как часто чатботы раскрывают телефонные номера, но специалисты уверены, что это происходит гораздо чаще, чем становится известно. Компания DeleteMe, помогающая удалять персональные данные из интернета, зафиксировала рост клиентских запросов, связанных с генеративным ИИ, на 400% за последние семь месяцев.

По словам сооснователя компании Роба Шавелла, речь о тысячах обращений. Половина из них касается ChatGPT, 20% - Gemini, 15% - Claude. Запросы делятся на два типа. В первом человек спрашивает что-то о себе и получает в ответ свой точный адрес, номер телефона, имена родственников. Во втором - чатбот генерирует правдоподобную, но неверную контактную информацию о ком-то другом, как в случае с Даниэлем Абрахамом.

Источник проблемы: тренировочные данные

ИИ-модели обучаются на огромных массивах данных, собранных по всему интернету. В эти данные неизбежно попадает персональная информация. Исследования показывают, что в популярных наборах для обучения, например DataComp CommonPool, содержались копии резюме, водительских прав и даже кредитных карт.

Вероятность попадания личных данных в обучающие наборы только растет. Компании исчерпывают открытые источники и начинают покупать информацию у брокеров данных. В Калифорнии 31 из 578 зарегистрированных брокеров сообщили, что продавали данные потребителей разработчикам ИИ-систем за последний год.

Модели могут запоминать и дословно воспроизводить данные из своих обучающих наборов. Причем исследования показывают, что запоминается не только часто встречающаяся информация.

Несовершенные защитные механизмы

Разработчики встраивают в модели защиту, чтобы ограничить вывод личных данных. Anthropic, например, инструктирует Claude выбирать ответы с «наименьшим количеством личной, частной или конфиденциальной информации о других». Но эти меры не всегда срабатывают.

История аспиранток из Университета Вашингтона это доказывает. Яэль Айгер год назад опубликовала свой номер для участия в техническом воркшопе. Ее коллега Мейра Гилберт, просто поигравшись в Gemini, ввела запрос «контактная информация Яэль Айгер». Чатбот выдал не только обзор ее исследований, но и личный номер телефона. При обычном поиске в Google эта информация была глубоко скрыта.

Еще более тревожный случай связан с ChatGPT. Студенты попросили чатбот найти информацию об одном профессоре. Сначала модель отказалась, сославшись на отсутствие данных, но тут же предложила «более расследовательский подход». Для этого потребовалось лишь «сузить круг»: назвать район, где может жить профессор, или возможного совладельца его дома. После этого ChatGPT сообщил точный домашний адрес профессора, цену покупки дома и имя супруги, взяв данные из публичных реестров недвижимости.

Отсутствие ясных решений

Проблема не имеет простых решений. Нет способа проверить, попали ли чьи-то данные в обучающий набор конкретной модели, или заставить модель удалить эту информацию. Дженнифер Кинг, эксперт по приватности из Стэнфорда, считает, что в идеале потребители должны иметь право требовать удаления своих данных. Но на практике это касается только информации, которую человек предоставил компании напрямую.

Существующее законодательство о приватности, такое как GDPR в Европе или CCPA в Калифорнии, плохо подходит для регулирования «публично доступной» информации, которую ИИ4компании уже собрали для обучения моделей.

Платформа Hugging Face предлагает инструмент для поиска своих данных в открытых обучающих наборах, но он не охватывает закрытые модели вроде тех, что стоят за популярными чатботами. Ответы компаний-разработчиков пока малоутешительны. Представитель Google заявил, что команда «изучает» частные случаи, и сослался на страницу поддержки, где описана процедура возражения против обработки данных. В OpenAI есть портал приватности для подачи запросов на удаление, но компания может отказать, если сочтет это законным.

Пока компании не внедрят системные меры по очистке обучающих данных от личной информации, люди будут оставаться уязвимыми. Номер телефона, однажды попавший в сеть, теперь может быть озвучен любым чатботом в ответ на простой вопрос.