En los últimos días el país se ha visto sumergido en un intenso debate en torno a la extinta unidad presidencial de análisis de datos (UPAD) y las implicaciones éticas sobre su conformación y rol. Con buena razón, la gente ha expresado preocupación por el uso que esta unidad del gobierno haría de los datos y, en consecuencia, se han activado investigaciones y discusiones a todo nivel.
No pretendo sumarme a la discusión sobre este delicado asunto. Sin embargo, dada la vigencia y relevancia del tema, quisiera aprovechar la oportunidad para hacer una reflexión que considero importante para toda empresa que está usando datos: para hacer un uso ético de los datos, hace falta mucho más que buenas intenciones.
Muchos de los modelos en minería de datos se construyen sobre datos existentes. Es decir, se toman datos reales sobre los cuales se “entrenan” los modelos para hacer luego predicciones o clasificaciones.
LEA MÁS: Moviendo al elefante que llevamos dentro
Estos datos no son neutrales. Traen consigo muchos de los sesgos o prejuicios que nosotros como humanos manifestamos regularmente.
Piense, por ejemplo, en una universidad que decide incorporar análisis de datos en su proceso de admisión. Imagine que utilizan este modelo para calcular la probabilidad de que un candidato, una vez graduado, consiga trabajo en menos de un año. Así, sólo los estudiantes con la probabilidad más alta serían las que aceptarían en la universidad.
Ahora bien, suponga que para la construcción de este modelo, la universidad utilizó datos históricos con variables como género o nacionalidad, además de variables relacionadas a sus capacidades.
Es muy probable que la variable género incorpore un sesgo en contra de las mujeres en el modelo, haciendo que estas tengan, en promedio, una probabilidad más baja de ser contratadas. Esto, como imaginarán, no tiene que ver con las capacidades de las mujeres, sino con los sesgos pre-existentes en los datos.
Es decir, si las empresas en este ejemplo hipotético contratan más hombres que mujeres por simple discriminación, el modelo aprende a usar esa información para “recomendar” hombres más que mujeres y la universidad, sin saberlo, estaría también discriminando.
Este ejemplo demuestra que el tema ético en datos dista mucho de ser simple y que requiere mucho análisis y conocimiento técnico.
Aprovechemos la discusión pública para reflexionar sobre el uso que hacemos de los datos en nuestras organizaciones. No sea cosa que, sin saberlo, estemos nosotros también cometiendo faltas graves.