Ética y sesgos en los procesos de data analytics

Uno de los temas que más me interesa actualmente en los procesos de desarrollo de modelos de machine learning, son los relacionados con el fairness o sesgos de la muestra. Es decir, mi objetivo como profesional que trabaja analizando, diseñando y desarrollando productos basados en datos, es entender como reducimos los sesgos que están implícitos en los procesos de toma de decisiones actuales.

Está claro que los sesgos no son por el uso de algoritmos de machine learning, sino que éstos existen implícitos en la toma de decisiones de las personas. Y se siguen sosteniendo en el tiempo por no entender cómo se usan los datos para tomar decisiones. En nuestros análisis y a través de varios años de experiencia, hemos encontrado que equipos multidisciplinarios ayudan mucho a reducir sesgo. Es decir, es importante trabajar con ingenieros, matemáticos, estadísticos, pero también sociólogos, antropólogos y varios otros profesionales de las ciencias sociales que nos ayuden a reducir al máximo los sesgos en el desarrollo de productos basados en datos.

A continuación, presento un pequeño esquema de cómo deberíamos actuar para poder reducir los sesgos en nuestros modelos de análisis de datos, y cómo a través de ello, poder diseñar y desarrollar productos sustentables.

En la fase de pre-procesamiento de la información, la estrategia utilizada consiste en controlar la distorsión del conjunto de datos. En la práctica, supone eliminar datos sensibles de potenciar la discriminación como el código postal, el género o la raza para que no se puedan extraer modelos de decisión que discriminen.
Una vez tenemos los datos, hay que hacer una aproximación ética que integre la antidiscriminación por diseño. Esto supone modificar los algoritmos de data mining para que no contengan decisiones injustas. Para ello debemos procesar un conjunto de datos a través del algoritmo y entender cuáles son las respuestas que arroja el modelo, y contrastarla con cuales debería arrojar considerando la reducción al máximo de los sesgos.
En la tercera fase, tareas de postprocesamiento de los modelos de extracción de datos obtenidos en vez de limpiar el conjunto de datos original o cambiar los algoritmos de minería de datos.

Las empresas hoy están conscientes que los datos son fuente de ventaja competitiva, y saben que los ciudadanos cada vez más están atentos a cómo se comportan los agentes en sus procesos de toma de decisiones informadas. Si un algoritmo arroja un sesgo, el cual ha aprendido de los datos de cómo se tomaban las decisiones históricamente, muy probablemente las personas no lo compartan esos valor, y la empresa destruyera valor.

Contacto:

Correo: [email protected]

Twitter: @diego_vallarino

LinkedIn: diegovallarinonavarro

Las opiniones expresadas son sólo responsabilidad de sus autores y son completamente independientes de la postura y la línea editorial de Forbes México.