Shell: evaluación del rendimiento de los modelos de aprendizaje automático utilizados en el sector energético
Estudio de caso de Shell.
Este proyecto aprovecha el aprendizaje profundo para realizar tareas de visión artificial: segmentación semántica en un dominio de aplicación especializado. El proyecto tenía alrededor de 15 modelos de aprendizaje profundo (DL) en implementación activa. Los modelos DL se aplican en cascada a las predicciones generadas, que luego alimentan una serie de tareas posteriores para generar el resultado final que sería la entrada a la tarea de interpretación manual. Por lo tanto, la garantía de IA a través de la evaluación del rendimiento del modelo es fundamental para garantizar resultados de IA sólidos y explicables. Se diseñaron e implementaron tres tipos de pruebas de evaluación del modelo en la canalización de inferencia de DL:
Más información sobre Principios normativos del Libro Blanco de IA.
Las pruebas de regresión e integración de la columna vertebral proporcionan la interpretabilidad del modelo frente a un conjunto de datos de prueba. Durante el desarrollo del modelo, proporcionan una línea de base para interpretar si el rendimiento del modelo está mejorando o empeorando según los datos y parámetros de entrenamiento del modelo. Durante la fase de implementación del modelo, estas pruebas también proporcionan una indicación temprana de la desviación del concepto.
Las pruebas estadísticas están más diseñadas para predecir el rendimiento del modelo dadas las estadísticas de los datos de prueba, por lo que proporcionan un mecanismo para detectar la deriva de datos a medida que se implementan los modelos. Además, también dan una indicación de qué tan robusto es el rendimiento del modelo DL a las variaciones estadísticas en los datos de prueba.
El resultado de esta técnica de aseguramiento de IA se comunica a los desarrolladores de IA y propietarios de productos para monitorear la posible desviación del rendimiento esperado del modelo DL. Además, si el desempeño se desvía, estos equipos pueden implementar medidas de mitigación apropiadas.
Además, para que los usuarios de primera línea y las partes interesadas del negocio mantengan un alto grado de confianza en los resultados de los modelos DL.
Los desarrolladores de IA son responsables de diseñar y ejecutar las pruebas de evaluación del modelo para fortalecer las pruebas de rendimiento. Los propietarios de productos son responsables de aprovechar estas pruebas como primera línea de defensa antes de implementar nuevos modelos. El equipo del proyecto trabaja en conjunto para adaptar las pruebas para abordar la deriva de datos y conceptos durante la implementación.
En este proyecto, las predicciones de los modelos DL finalmente generan entradas para una tarea de interpretación manual. Esta tarea es complicada, requiere mucho tiempo y esfuerzo, por lo que es crucial que el punto de partida (en este caso, las predicciones del modelo DL) sea de alta calidad en términos de precisión, cobertura de detección y ruido muy bajo. Además, el resultado de la interpretación manual alimenta un proceso de toma de decisiones de alto impacto.
La calidad y solidez de la predicción del modelo DL es, por lo tanto, de suma importancia. La métrica más importante para juzgar el rendimiento de predicción del modelo ML es el control de calidad humano en el circuito. Sin embargo, para automatizar las pruebas de rendimiento en una primera línea de defensa, se adoptó la técnica del conjunto de pruebas de evaluación del modelo. El control de la versión de datos y la creación de canalizaciones experimentales de aprendizaje automático implícitas se realizaron principalmente para garantizar que los modelos pudieran reproducirse de principio a fin (datos, código y rendimiento del modelo) dentro de un margen de error aceptable.
Primera línea de defensa, pruebas de rendimiento de DL automatizadas para control de calidad
Pruebe la solidez del modelo y una mejor interpretabilidad del rendimiento del modelo DL.
Explicación sólida del rendimiento del modelo DL para desarrolladores de IA y usuarios finales
Genere confianza en los modelos y flujos de trabajo de DL con la comunidad de usuarios
Habilita el monitoreo del modelo al establecer un mecanismo para detectar la desviación del concepto.
Enlaces MLOps para habilitar CI-CD durante la implementación del modelo.
Una gran cantidad de modelos DL con tareas muy diferentes: detección, clasificación, reducción de ruido.
La complejidad y la variabilidad del problema que aborda DL dificulta el diseño de KPI.
Falta de datos representativos de alta calidad que puedan usarse para diseñar la evaluación del modelo
Falta de métricas/umbrales claros para diseñar pruebas de regresión, integración y estadísticas.
Falta de una biblioteca de evaluación de modelos estable.
Para obtener más información sobre otras técnicas, visite el Catálogo de herramientas y métricas de la OCDE: https://oecd.ai/en/catalogue/overview
Para obtener más información sobre los estándares relevantes, visite AI Standards Hub: https://aistandardshub.org/