Обезличивание персональных данных - что это?
Обезличивание персональных данных - как это понимает закон
Обезличиванием персональных данных является изменение данных, при котором становится нереально установить связь с конкретным лицом без использования добавочной информации. В соответствии с пунктом 9 статьи 3 Федерального закона № 152-ФЗ «О персональных данных», под этим подразумеваются меры, нацеленные на удаление прямых или косвенных указателей на владельца личных данных.
Ключевая цель заключается в сохранении полезных свойств данных для анализа (статистика, ML-обучение) при одновременной защите приватности.
Обезличивание персональных данных отличается от анонимизации тем, что:
- Обезличенные данные можно восстановить с помощью «ключа» (например, таблицы соответствия идентификаторов).
- Анонимизированные данные необратимы и не позволяют идентифицировать субъекта ни при каких условиях.
Правовая база в РФ:
- 152-ФЗ «О персональных данных». Требует от операторов обеспечивать защиту персданных, включая обезличивание.
- Приказ Роскомнадзора № 996 (2013 г.). Устанавливает 4 метода обезличивания и свойства, которыми должны обладать обработанные данные: полнота, структурированность, семантическая целостность.
Обезличенные данные не перестают быть персональными с точки зрения закона. Их обработка всё равно регулируется 152-ФЗ.
Методы обезличивания
Выбор метода обезличивания зависит от целей обработки данных, требований законодательства и степени риска раскрытия информации. Важно помнить, что не все методы обезличивания обеспечивают абсолютную защиту приватности, и существует риск повторной идентификации данных при наличии дополнительных сведений. Поэтому необходимо тщательно оценивать риски и применять комплексные подходы к защите персональных данных.
Согласно Приказу № 996, допустимы четыре метода:
- Введение идентификаторов
- Замена реальных данных (ФИО, паспорт) на уникальные коды. Пример: клиент «Иванов А.А.» → ID-7X9F.
- Риск: уязвимость при утечке «ключей» деобезличивания.
- Изменение состава/семантики
- Удаление или обобщение части информации. Пример: возраст «32 года» → «30–35 лет»; точный адрес → «г. Москва».
- Используется в статистических отчётах.
- Декомпозиция
- Разделение массива данных на блоки, хранящиеся отдельно. Пример: ФИО — в одном файле, номера телефонов — в другом.
- Без сопоставления блоков идентификация невозможна.
- Перемешивание
- Случайная перестановка значений внутри набора данных. Пример: замена связки «ФИО + диагноз» на случайные комбинации.
- Применяется в медицинских исследованиях.
Важно! Для усиления защиты методы часто комбинируют. Например, в Сбере используют нейросети (RuBERT) для распознавания сущностей в текстах (ФИО, адреса) с последующей заменой на синтетические аналоги.
Существуют следующие практические применения:
- Тестирование IT-систем. Банки создают нагрузочные тесты на основе обезличенных транзакций клиентов, избегая рисков утечки реальных данных.
- Маркетинг и аналитика. Интернет-магазины анализируют обезличенные покупки для сегментации аудитории без нарушения конфиденциальности.
- Научные исследования. Медицинские учреждения используют обезличенные истории болезней для изучения эффективности лечения.
- Обучение ИИ. Данные из юридических документов (например, договоров) обезличиваются для тренировки ML-моделей без раскрытия персональных сведений.
Риски и ограничения
Среди рисков и ограничений можно отметить следующие:
- Обратимость как угроза. При наличии «ключа» и дополнительных данных (например, из соцсетей) возможна реидентификация. В 2021 г. исследователи MIT показали, что 87% американцев можно идентифицировать по комбинации почтового индекса, даты рождения и пола.
- Юридические коллизии. Роскомнадзор признаёт обезличенные данные персональными, что обязывает операторов соблюдать все требования 152-ФЗ (согласие субъектов, безопасное хранение).
- Техническая сложность. Для неструктурированных данных (тексты договоров, медицинские заключения) требуется применение NLP-алгоритмов, что увеличивает стоимость обработки.
Сравнение с блокированием данных
Критерий |
Обезличивание |
Блокирование |
Суть |
Изменение данных |
Временное ограничение доступа |
Обратимость |
Да (с ключом) |
Да (достаточно снять блокировку) |
Пример применения |
Анализ статистики покупок |
Приостановка обработки по запросу субъекта ПДн |
Как внедрить: пошаговая инструкция
- Разработайте регламент. Укажите в Политике обработки персональных данных цели и методы обезличивания (например, «для обучения ИИ с помощью метода замены идентификаторов»).
- Назначьте ответственного.В небольших компаниях — специалист по кадрам; в крупных — руководитель отдела кибербезопасности.
- Выберите методы. Для структурированных данных (базы CRM) подойдёт введение идентификаторов; для текстов — NLP-алгоритмы.
- Обеспечьте безопасность ключей. Храните таблицы соответствия идентификаторов отдельно от обезличенных массивов (например, на зашифрованных серверах).
- Уничтожайте ненужные данные. После достижения целей обработки удалите обезличенные данные, чтобы исключить риски реидентификации.
Таким образом, обезличивание является инструментом баланса между аналитикой и конфиденциальностью. Оно позволяет:
- Сохранить бизнес-ценность данных для исследований и ML;
- Минимизировать репутационные и финансовые риски при утечках;
- Соответствовать требованиям 152-ФЗ.
Главный парадокс - технологии деобезличивания (например, алгоритмы сопоставления разрозненных данных) развиваются быстрее методов защиты. Поэтому обезличивание должно быть частью комплексной стратегии безопасности, включающей шифрование, контроль доступа и аудит.
Для компаний, внедряющих обезличивание, критически важно:
- Документировать процессы в соответствии с Приказом № 996;
- Регулярно тестировать данные на риски реидентификации;
- Информировать субъектов персональных данных об обработке их данных в обезличенном виде.