Entrenar una IA con datos personales: las recomendaciones del Consejo Europeo de Protección de Datos


Entrenar un sistema de inteligencia artificial (IA) ya es bastante complejo, pero la cuestión se complica desde un punto de vista jurídico cuando se requieren datos personales. El ordenamiento europeo es el más proteccionista del mundo respecto a este precioso recurso, y sin embargo, ahora la Unión Europea (UE) se encuentra en un brete: no puede ignorar la necesidad de aumentar su competitividad económica, lo cual supondría aligerar las obligaciones jurídicas de las empresas en materia de protección de datos.

Tratando de resolver esta cuestión, el Consejo Europeo de Protección de Datos (CEPD), organismo independiente que supervisa la aplicación coherente del Reglamento General de Protección de Datos (RGPD) en la UE, publicó un Dictamen sobre «ciertos aspectos de protección de datos relacionados con el tratamiento de datos personales en el contexto de modelos de IA». El Dictamen se pronuncia sobre tres cuestiones. Primero, cuándo puede considerarse que los modelos de IA tratan datos personales de forma anónima, en cuyo caso, el RGPD no sería aplicable. Segundo, de qué manera puede invocarse el interés legítimo, la base de legitimación favorita de muchas empresas, para tratar datos personales en el contexto del desarrollo y la implementación de un modelo de IA. Y tercero, qué ocurre si estos datos personales se usan ilícitamente; es decir, hasta dónde alcanzan las consecuencias del ilícito por protección de datos personales respecto al funcionamiento del modelo de IA.

En primer lugar, respecto a la cuestión del anonimato, el CEPD señala que debe partirse de la presunción de que los modelos de IA no son anónimos. Desde ahí, la probabilidad de obtener datos personales usando el modelo de IA, directa o indirectamente, debería ser «insignificante» para ser considerado anónimo, y además, algo que debe ser evaluado caso a caso.

Pero, ¿cómo se evaluaría esta probabilidad? El Dictamen recomienda un análisis exhaustivo que incluya: acceso directo al modelo, revisión de la selección de fuentes de datos personales, supervisión del proceso de preparación de los datos, cumplimiento del principio de minimización, evaluación de las decisiones relacionadas con el método de entrenamiento, análisis de métricas que midan la resistencia a ataques, y un estudio detallado de la gobernanza del modelo. Todo ello, sin perjuicio de la documentación adicional exigida por el RGPD, cuando proceda.

En segundo lugar, respecto al interés legítimo, una aclaración inicial para los legos en normativa de privacidad: el RGPD dispone que el tratamiento de datos personales sólo es lícito cuando se cumple alguna de las condiciones previstas en el artículo 6. De entre ellas, invocar el interés legítimo es la más cómoda para las empresas. Así, el responsable del tratamiento sostiene que necesita tratar esos datos personales para satisfacer sus intereses, siempre que sobre estos no prevalezcan los derechos y libertades de las personas físicas en cuestión. Para valorar la prevalencia de los intereses de unos sobre los derechos de otros, en la práctica se suele realizar una prueba de ponderación. El CEPD recomienda que esta prueba también se realice en el contexto del desarrollo y despliegue de modelos de IA, y sugiere que se consideren, además de la privacidad, otros derechos fundamentales que pueden verse afectados en el caso de uso concreto, como la libertad de expresión, la salud mental de individuos vulnerables o el derecho al trabajo y a la no discriminación.

En tercer lugar, ¿qué ocurriría si se trataran ilícitamente los datos personales para desarrollar o desplegar un modelo de IA? Por un lado está la cuestión de la atribución de la responsabilidad; por otro, la competencia sancionadora.

En cuanto a la atribución de responsabilidad, el CEPD indica tentativamente que la respuesta puede variar si hay uno o varios responsables. Con un único responsable del tratamiento, no habría dificultad para atribuirla. Sin embargo, en una relación con varios responsables del tratamiento, uno como proveedor y otro como responsable del despliegue, ambos deben poder demostrar la licitud del tratamiento de datos personales desde el origen.

¿Quién sanciona? En España, la competencia para sancionar por infracción de la normativa de protección de datos personales corresponde a la Agencia Española de Protección de Datos (AEPD), mientras que la competencia para ello por incumplimiento del Reglamento de Inteligencia Artificial (RIA) corresponde a la Agencia Española de Supervisión de Inteligencia Artificial (AESIA). Está por ver cómo se trasladaría a la práctica si coincidieran el incumplimiento de obligaciones en virtud del RIA y el incumplimiento de obligaciones en virtud del RGPD en los mismos hechos.

Por si acaso, el art. 99.7 del RIA prevé que «al decidir la imposición de una multa administrativa (…) se tomarán en consideración todas las circunstancias pertinentes (…) y, (…) se tendrá en cuenta si otras autoridades han impuesto ya multas administrativas al mismo operador por infracciones de otros actos legislativos nacionales o de la Unión, cuando dichas infracciones se deriven de la misma actividad u omisión que constituya una infracción pertinente del presente Reglamento.»

¿Y los efectos son de arrastre? ¿Haber tratado datos personales ilícitamente en el entrenamiento puede comportar que deje de prestar el servicio de IA? La respuesta no está clara. Astutamente, el CEPD sugiere que si un responsable del tratamiento, como proveedor de IA, trata ilícitamente los datos personales para desarrollar un sistema de IA, posteriormente los anonimiza, y después él mismo u otro responsable del tratamiento lo despliega, la licitud del tratamiento en la fase de despliegue no debería verse afectada por la ilicitud del tratamiento para el entrenamiento. Por ello, para evitar cualquier problema relacionado con el arrastre de efectos, es recomendable anonimizar los datos desde el inicio del proceso.

Recapitulando: entrenar una IA con datos personales no es contrario a la ley; puede hacerse si se cuenta con base de legitimación para ello. El problema es que muchas empresas que tratan datos personales para entrenar IA, acuciadas por la urgencia económica de hacer dinero, los consiguen haciendo web scraping o comprándolos a terceros que, probablemente, también los tienen sin fundamento legal. Para la UE está siendo un auténtico quebradero de cabeza legislativo conciliar la privacidad -que impone obligaciones burocráticas- con la competitividad económica, que requiere agilidad y acceso a datos. Es un problema que está tratando de resolverse mediante soft law; de ahí las recomendaciones del CEPD.

En las recomendaciones se ve la paradoja: están motivadas por una necesidad de simplificación inteligente de los procedimientos jurídicos que existen. Sin embargo, no es tan sencillo limitarse a meter tijera, porque deben abordarse las cuestiones nuevas que presenta esta tecnología. Esto genera frustración especialmente en emprendedores y pymes, que están buscando, como es natural, el camino de menor resistencia hacia el éxito. Para muestra, un botón: cuando el CEPD indica que, además de la privacidad, deben incluirse múltiples principios en la prueba de ponderación, o una proliferación de criterios para valorar si el modelo puede considerarse anónimo. Por último, hay que recordar que el soft law es una técnica de persuasión cada vez más extendida en nuestro continente, que funciona como una amenaza velada de coacción o argumento de autoridad. Por su grado de detalle, el Dictamen del CEPD puede parecer perentorio sin serlo: proviene de un órgano sin fuerza prescriptiva, y que no es el único con algo que decir sobre cómo se implementará la IA en la UE. Sin embargo, esto no es suficiente para desechar las recomendaciones sin más miramientos. Prestando atención, siempre se encuentra algo útil.

La entrada Entrenar una IA con datos personales: las recomendaciones del Consejo Europeo de Protección de Datos se publicó primero en Big Data Magazine.



Source link