datos, su calidad, su conformidad (4ª parte)

datos, su calidad, su conformidad (4ª parte)
datos, su calidad, su conformidad (4ª parte)
-
Los datos son el núcleo del correcto funcionamiento de los modelos de aprendizaje automático, aprendizaje profundo, LLM, RAG, etc. Ningún modelo, ninguno, es capaz de entender nuestro mundo sin haber pasado por una fase de formación.

Algunos modelos son capaces de aprender por sí solos, dependiendo de los datos que se les proporcionen; otros requieren que los humanos etiqueten previamente los datos. Pero es invariable, un modelo de IA no es nada sin los datos que le permitirán aprender.

Por tanto, es fácil imaginar que la calidad de lo que aprende el modelo depende de la calidad de los datos que sirven como base de aprendizaje. ¡En una frase lo dijimos todo! Y aparece el problema.
Si introduzco datos de mala calidad en mi modelo, ¡predecirá o generará resultados de mala calidad! Sin embargo, no es muy complicado de entender.

Así que ¿cómo se hace? De hecho, ya está todo previsto, nada nuevo, sólo hay que aplicar buenas prácticas relacionadas con el gobierno del dato. Sí, de hecho, implementar herramientas de IA en producción sin gobernanza de datos es tan peligroso como ponerse al volante sin haber pasado el código.

La gobernanza de datos tiene tres facetas: el conocimiento (el catálogo de datos), la calidad de los datos utilizados y, finalmente, su cumplimiento.

Entonces, IA o tablero, los problemas son los mismos.

conocimiento primero. Si no sabe qué datos impulsan sus modelos de IA, está todo equivocado. O más precisamente, corre el riesgo de que se utilicen datos inadecuados. Entonces, primer paso, referencia, catalogar los datos utilizados por los modelos. A menudo usaremos modelado de gráficos para conectar los datos, los algoritmos que los usan y las personas a cargo. Entonces, primer paso, un mapa, un catálogo de datos.

Segundo paso, calidad. En segundo lugar, porque ¿cómo se mide la calidad de los datos a los que no se ha hecho referencia previamente? Así que mida, evalúe y cuantifique la no calidad. No es que estemos acostumbrados a escuchar en la máquina de café que este dato sea falso sino que realmente lo es. En caso afirmativo, ¿en qué proporción? ¿Aún es utilizable? No puedes mejorar lo que no has medido. Una vez medido, buscamos las causas fundamentales de esta falta de calidad. ¡No tiene sentido corregir el almacén de datos si primero no ha tapado la fuga! En esta etapa, evaluaremos si los datos se pueden utilizar para alimentar algoritmos y notificaremos a los usuarios sobre el estado real de su calidad.

Finalmente, en tercer lugar, el cumplimiento. ¿No le sorprende alimentar un algoritmo con datos que no tiene derecho a utilizar? Por motivos de cumplimiento del RGPD, por motivos éticos, por motivos de cumplimiento de la Ley de IA, etc. Por lo tanto, los datos utilizados por la IA deben cumplir con las normas, no hay escapatoria.

En resumen, antes de cualquier producción, es necesario catalogar los datos utilizados por la inteligencia artificial, medir su calidad y validar su conformidad.
Dejé esto claro antes de entrar en producción. Que determinadas pruebas las realicen científicos de datos en modo “sandbox” sobre datos anonimizados, sólo “para ver”. Es aceptable. Pero cuidado, ponerlo en producción debe pasar por las bifurcaciones de la gobernanza de datos y la IA.

Desde el punto de vista de las responsabilidades corporativas, entendemos, por tanto, las numerosas intersecciones entre el responsable del gobierno de los datos y el responsable del gobierno de la Inteligencia Artificial. Y tiene sentido que en algunas organizaciones la misma persona tenga ambas responsabilidades.

-

PREV ¡El nuevo Volkswagen Tiguan frente a otros 4 SUV familiares y térmicos!
NEXT La inteligencia artificial pone en peligro los objetivos climáticos de Microsoft