Guía de generación de datos sintéticos de Singapur
La Autoridad de Protección de Datos de Singapur acaba de publicar su «guía propuesta sobre generación de datos sintéticos».
Es una lectura interesante para todos los interesados en AI y privacidad.
Os resumo uno de sus puntos más relevantes, el enfoque de cinco pasos para generar datos sintéticos en el contexto de una perspectiva de Tecnologías de Mejora de la Privacidad (Privacy-Enhancing Technologies – PETs):
Paso 1: Conocer los datos
«Antes de embarcarse en cualquier proyecto de datos sintéticos, es necesario tener una comprensión clara de la finalidad y los casos de uso de los datos sintéticos y de los datos de origen que los datos sintéticos van a imitar. Esto ayudará a determinar si el uso de datos sintéticos podría ser pertinente y a identificar los posibles riesgos de utilizar los datos sintéticos.»
Paso 2: Preparar los datos
«Para garantizar que los datos sintéticos puedan cumplir los objetivos empresariales, las organizaciones deben comprender e identificar las tendencias, las propiedades estadísticas clave y las relaciones entre atributos en los datos de origen que deben conservarse para el análisis; por ejemplo, identificar las relaciones entre las características demográficas de la población y sus condiciones de salud.»
Paso 3: Generar datos sintéticos
«Existen muchos métodos diferentes para generar datos sintéticos, por ejemplo, sintetizadores secuenciales basados en árboles, cópulas y modelos generativos profundos (DGM). Las organizaciones deben considerar qué métodos son los más apropiados, en función de sus casos de uso, objetivos de datos y tipos de datos. (…)Posteriormente, las organizaciones pueden considerar dividir los datos de origen en dos conjuntos separados, por ejemplo, el 80% como conjunto de datos de entrenamiento y el 20% como conjunto de datos de control para evaluar los riesgos de reidentificación de los datos sintéticos.»
Paso 4: Evaluar los riesgos de reidentificación.
«Una vez generados los datos sintéticos y evaluada la medida de utilidad como aceptable, las organizaciones deben evaluar y realizar la evaluación de los riesgos de reidentificación basándose en sus criterios internos de aceptación. (…). Dado que los datos sintéticos no suelen replicar sus puntos de datos de entrenamiento, el riesgo de reidentificación no puede deducirse directamente del escrutinio de si los datos sintéticos generados contienen datos personales.»
Paso 5: Gestionar los riesgos residuales
«En este último paso, las organizaciones deben identificar todos los riesgos residuales potenciales y aplicar controles de mitigación adecuados (técnicos, de gobernanza y contractuales) para minimizar los riesgos identificados. Estos riesgos y controles deben ser documentados y aprobados por la dirección y las principales partes interesadas como parte del marco de riesgo empresarial de la organización.»
Descarga de la guía
Esto solo es un pequeño extracto. Es una guía interesante en la que hay mucho que leer.
Información basada en la publicación del Gobierno de Singapur: «Privacy enhancing technology (PET): proposed guide on synthetic data generation» – versión 1.o de 15 de julio de 2024.