Comparte en:

RETO

Aggity

Aggity es una multinacional de tecnología especializada en la Transformación Digital de los negocios combinando las mejores prácticas mundiales y formas operativas con Plataformas Tecnológicas Innovadoras. Con presencia en 20 países, más de 30 años de experiencia en el sector, ofrece una visión transversal del nuevo entorno digital, con soluciones prácticas, tecnológicamente avanzadas y disruptivas. Todas sus plataformas y soluciones utilizan análisis de datos y algoritmos avanzados, aplicando Inteligencia Artificial (incluso GenAI), Cloud, Ciberseguridad y Soluciones Digitales, lo que los convierte en el partner ideal durante de la transformación digital de las empresas en general y de Industria 4.0 en particular, con una visión holística de la cadena de valor.

Empresa Industrial de Biotecnología

En una empresa industrial de biotecnología donde se producen antígenos para el desarrollo de vacunas, es de vital importancia optimizar el proceso de producción. Se describe a continuación dicho proceso de producción de una forma generalizada y a alto nivel.

Una vacuna consta de un antígeno (que es el componente activo) y otros componentes (estabilizadores, adyuvantes, excipientes, etc). En este caso nos centramos sólo en la producción del antígeno para un proceso microbiano. Para producirlo, se parte de una pequeña cantidad de un microrganismo, que se multiplica utilizando medios de cultivo y luego se procesa para conseguir el antígeno deseado.

Fases del proceso productivo del antígeno:

  1. Preinóculo: etapa inicial de crecimiento de los microorganismos en un pequeño volumen de medio de cultivo antes de ser transferidos a un volumen mayor. Es un proceso manual y se realiza normalmente en recipientes de pequeño volumen, como frascos de cristal, dónde no se dispone de mediciones en tiempo real.
  2. Inóculo: el inóculo implica la mezcla de una cantidad determinada del preinóculo con medio de cultivo estéril para lograr la multiplicación de los microorganismos hasta un volumen suficiente para iniciar una producción a escala industrial. Es la última etapa antes de realizar el cultivo de producción y se realiza en biorreactores, tanques agitados de geometría determinada dónde existe, como mínimo, un control básico de algunas variables de proceso (p.ej. temperatura, pH, …).
  3. Cultivo productivo: es el proceso en el que el inóculo se mezcla de nuevo con medio de cultivo estéril para lograr la amplificación final del microorganismo hasta la cantidad industrial requerida y, a su vez, lograr la producción del producto de interés, normalmente una biomolécula. Este proceso se realiza en biorreactores con un nivel de control e instrumentación habitualmente superior al disponible en la etapa de inóculo. Las variables de proceso más habituales son la temperatura, pH, oxígeno disuelto y agitación; todas ellas se controlan a sus valores óptimos para lograr la mayor productividad.
  4. Centrifugación: una vez que se ha alcanzado la concentración deseada de antígeno en el cultivo, se lleva a cabo la centrifugación. Este proceso consiste en aplicar fuerza centrífuga para separar los componentes del cultivo en dos fases, una sólida y una líquida. La centrifugación constituye la primera fase de separación del producto de interés del resto de contaminantes, como por ejemplo el medio de cultivo gastado, y constituye habitualmente el primer paso en el tren de purificación.
  5. Purificación adicional: después de la centrifugación, se pueden realizar procesos de separación adicionales para eliminar cualquier contaminante y obtener un antígeno altamente puro y seguro para su uso en la vacuna.

Cada tipo de antígeno seguirá un proceso distinto y adecuado a su naturaleza. En general, hay una gran diversidad de procesos productivos según el tipo de antígeno que se desea obtener (bacterias, virus, proteína recombinante, mRNA, VLP, …) por lo que es imposible describir resumidamente todos ellos. Esta diversidad afecta tanto a la expansión del vector biológico (bacteria, células de mamífero, …), lo que se conoce como “upstream”, como a las etapas del proceso de purificación o “downstream”. Una vez se obtiene el antígeno purificado, se puede utilizar para formular la vacuna una vez controlada su calidad según unos parámetros preestablecidos.

Esquema ejemplo del escalado de volúmenes en un proceso productivo como el descrito anteriormente:

Lotes encadenados: si el título del cultivo es suficiente, una parte del cultivo no se centrifuga, se deja en el mismo biorreactor, y se vuelve a introducir medio de cultivo para iniciar un nuevo cultivo. Este segundo cultivo es una nueva OF, donde los datos de las fases anteriores coincidirán con la OF inicial. Se puede repetir el proceso, mantener una parte del cultivo para una tercera OF. No puede haber una cuarta OF.

El objetivo

Debido al impacto en la sociedad de optimizar y mejorar el proceso, ya que fruto del mismo se desarrollarán mejores vacunas, se hace necesario disponer de una previsión de la concentración del producto en el antígeno final después de todas las fases.

Dado lo anterior y partiendo de amplios datasets de ensayos históricos, te retamos a crear el mejor modelo de predicción de producción que pueda estimar el valor de concentración (producto1) en el antígeno final tras la conclusión de todas las fases descritas el apartado anterior, y de esta forma Identificar los parámetros de proceso que tienen más impacto sobre el título del producto fabricado para mejoras futuras en el proceso.

Los datasets para enfrentar el reto se compartirán al inicio de la fase 1 (local) del calendario de la competición.

Datasets entrenamiento

El reto hace referencia sólo a cuatro fases del proceso productivo del antígeno de interés:

Inóculo
Cultivo productivo
Centrifugación 1
Centrifugación 2

Se disponen de datos a tiempo real de cada una de las fases que se quieren analizar, además de datos de los controles de calidad que se realizan en diferentes fases del proceso y sobre el producto resultante.

Se proporcionan dos tipos de tablas de datos: de lote y de evolución. En cualquiera de las tablas, las filas son observaciones y las columnas variables de proceso.

En las tablas de datos de lote, cada fila corresponde a un lote y los valores de las variables describen una propiedad de ese lote en un momento de tiempo concreto, por ejemplo, al final del cultivo o un valor promedio característico de ese lote, por ejemplo, el valor de turbidez obtenido de la centrifugación.

En las tablas de datos de evolución, cada fila corresponde a una observación en un tiempo concreto dentro de la ejecución de un lote. Por lo tanto la tabla está formada por bloques de filas que corresponden a un lote y dentro de cada bloque de filas cada una de ellas representa los valores de las variables de proceso (columnas) en un momento determinado de la evolución del cultivo.

Ponemos a tu disposición los siguientes datasets:

Dataset Información General (OF 123456.xls)

Se define una Orden de Fabricación (OF) para cada producción del antígeno. La OF está compuesta de varias fases, entre las que se encuentran las fases de interés. La OF identifica cada lote que se produce. Para el reto planteado se adjunta información de las OF del antígeno de estudio producidas en los últimos meses.

El antígeno de estudio se identifica con el código 123456. En la tabla “OF 123456” hay el listado de las OF de estudio, las OF o lotes que no estén en esta tabla no se deben tener en cuenta. Esta tabla contiene la siguiente información:

Campo Descripción
Orden Identificador de la OF
Número de material Identificador del material, del antígeno producido
Texto breve material Descripción del antígeno
Lote Número de lote producido. Igual que el número de OF, la relación de material y lote también identifica cada producción
Cantidad entregada Volumen de antígeno producido. El reto no trata de maximizar el volumen, sino el título (la calidad) del antígeno
Unidad de medida Unidad de medida (litros)

Datasets Fases: Preinóculo, Inóculo y Cultivo Final (Fases producción.xls)

En la fase de preinóculo, se hace crecer el mismo microrganismo en 3 frascos diferentes. Para la fase de inoculación, se seleccionan los dos frascos con el pH más bajo, y se utilizan para esta fase. El tercer frasco se desecha.

Los datos de lote para el preinóculo presentes en el dataset son los siguientes:

Campo Descripción
Lote Número de lote producido. Igual que el número de OF, la relación de material y lote también identifica cada producción
Fecha/hora inicio Fecha de inicio real de la fase
Fecha/hora fin Fecha de fin real de la fase
pH línea 1 Valor del pH del frasco 1 al finalizar la fase
pH línea 2 Valor del pH del frasco 2 al finalizar la fase
pH línea 3 Valor del pH del frasco 3 al finalizar la fase
Turbidez línea 1 Valor de turbidez del frasco 1 al finalizar la fase
Turbidez línea 2 Valor de turbidez del frasco 2 al finalizar la fase
Turbidez línea 3 Valor de turbidez del frasco 3 al finalizar la fase
Línea 1 utilizada Si valor 1, se utiliza frasco 1 para la fase de inoculación
Línea 2 utilizada Si valor 1, se utiliza frasco 2 para la fase de inoculación
Línea 3 utilizada Si valor 1, se utiliza frasco 3 para la fase de inoculación

Los datos de lote para el inóculo presentes en el dataset son los siguientes:

Campo Descripción
Lote Número de lote producido. Igual que el número de OF, la relación de material y lote también identifica cada producción
ID biorreactor Código del biorreactor
Fecha/hora inicio Fecha de inicio real de la fase
Fecha/hora fin Fecha de fin real de la fase
Volumen de cultivo Volumen de medio utilizado durante el cultivo
Turbidez inicio cultivo Turbidez a tiempo 0
Turbidez final cultivo Turbidez a final de cultivo
Viabilidad final cultivo Indicador de células vivas a final de cultivo

Los datos de lote para los cultivos productivos presentes en el dataset son los siguientes:

Campo Descripción
Lote Número de lote producido. Igual que el número de OF, la relación de material y lote también identifica cada producción
Orden en el encadenado Indica la posición relativa de cada lote en una secuencia de encadenados tomando valores de 1, 2 o 3
Lote parental En caso de ser encadenado, indica cuál es el lote del que es dependiente. Si orden en el encadenado == 1, entonces Lote parental == NA
ID biorreactor Código del biorreactor
Fecha/hora inicio Fecha de inicio real de la fase
Fecha/hora fin Fecha de fin real de la fase
Volumen de inóculo Volumen de inóculo utilizado para iniciar el cultivo.
Turbidez inicio cultivo Turbidez a tiempo 0
Turbidez final cultivo Turbidez a final de cultivo
Viabilidad final cultivo Indicador de células vivas a final de cultivo
ID centrífuga Código de la centrífuga utilizada para procesar el cultivo
Centrifugación 1 turbidez Turbidez del producto recogido de la primera centrifugación
Centrifugación 2 turbidez Turbidez del producto recogido de la segunda centrifugación
Producto 1 Concentración del producto 1 en el antígeno final después de todas las fases
Producto 2 Concentración del producto 2 en el antígeno final después de todas las fases

Tanto en la fase de inóculo como en la de cultivos productivos, para relacionar este dataset con los datesets de Biereactores tendremos que hacerlo a partir del ID biorreactor y las fechas/horas de inicio y fin.

Datasets Biorreactores (biorreactor XXXXX.xls)

Los frascos de preinóculo seleccionados se introducen, junto con medio de cultivo, en un biorreactor de pequeño tamaño (códigos 13171, 13172, 14618). Para cada uno de estos equipos hay una tabla de evolución con los valores a tiempo real cada 15 min que contiene las siguientes variables:

CampoDescripción
DateTimeFecha y hora de registro de los valores
xxx.Agitation_PVVelocidad de agitación
xxx.Air_Sparge_PVAporte de aire por sparger
xxx.Biocontainer_Pressure_PVPresión biorreactor
xxx.DO_1_PVPresión parcial oxígeno 1
xxx.DO_2_PVPresión parcial oxígeno 2
xxx.Gas_Overlay_PVAire por cúpula
xxx.Load_Cell_Net_PVPeso
xxx.pH_1_PVpH cultivo
xxx.pH_2_PVpH cultivo
xxx.PUMP_1_PVAdición antiespumante
xxx.PUMP_1_TOTALTotal antiespumante
xxx.PUMP_2_PVAdición solución base
xxx.PUMP_2_TOTALTotal solución base
xxx.Single_Use_DO_PVPresión parcial oxígeno
xxx.Single_Use_pH_PVpH cultivo
xxx.Temperatura_PVTemperatura cultivo

Una vez completado el crecimiento del inóculo se traspasa el volumen necesario a un Biorreactor de producción (códigos 13169, 13170, 14614, 14615, 14616, 14617). Los datos a tiempo real de estos equipos son los mismos que en los biorreactores de pequeño tamaño (ver tabla anterior).

Dataset Cinéticos IPC (Cinéticos IPC.xls)

Durante el proceso de inóculos, se hacen controles en proceso donde se analizan algunas variables de proceso para determinar la evolución del cultivo (Excel “Cinéticos IPC” pestaña Inóculos):

CampoDescripción
LoteNúmero de lote producido. Igual que el número de OF, la relación de material y lote también identifica cada producción
FechaFecha y hora que se realiza la observación
TurbidezValor de turbidez en el momento de la observación
ViabilidadValor de viabilidad en el momento de la observación

Durante la fase de cultivo, se hacen controles en proceso donde se analizan algunas variables de proceso para determinar la evolución del cultivo (Excel “Cinéticos IPC” pestaña Cultivos finales):

CampoDescripción
LoteNúmero de lote producido. Igual que el número de OF, la relación de material y lote también identifica cada producción
FechaFecha y hora que se realiza la observación
TurbidezValor de turbidez en el momento de la observación
ViabilidadValor de viabilidad en el momento de la observación
GlucosaValor de glucosa en el momento de la observación

Durante la centrifugación, se hacen controles en proceso donde se analizan algunas variables de proceso para determinar la evolución del cultivo (Excel “Cinéticos IPC” pestaña Centrifugación):

CampoDescripción
LoteNúmero de lote producido. Igual que el número de OF, la relación de material y lote también identifica cada producción
CentrífugaEquipo utilizado
Centrifugada (1 o 2)Indica si es la primera o segunda centrifugación
Volumen centrifugadoCantidad de producto centrifugado en el momento de la observación
TurbidezValor de turbidez en el momento de la observación

Datasets Fase de Centrifugación (Centrífuga XXXXX.xls / Horas inicio fin centrífugas.xls)

El producto resultante de la fase de cultivo se centrifuga dos veces. Primero se centrifuga todo el cultivo (centrifugación 1), luego se diluye el producto centrifugado y se vuelve a centrifugar (centrifugación 2). Las dos centrifugaciones se realizan en la misma centrífuga. Los códigos de las centrífugas son: 12912, 14246, 17825.

Para cada uno de estos equipos hay una tabla (Centrífuga XXXXX.xls) con los valores a tiempo real cada 15 min que contiene los datos de evolución:

CampoDescripción
DateTimeFecha y hora de registro de los valores
xxx_CTF0101.EN_ParcialNúmero de descargas parciales
xxx_CTF0101.EN_TotalNúmero de descargas totales
xxx_D01780551.PVApertura válvula agua maniobra
xxx_D01906041.PVCaudal
xxx_D01916047.PVContrapresión
xxx_D01916503.PVPresión del agua de maniobra
xxx_D01919022.PVVelocidad de separación

El archivo ”Horas inicio fin centrifugas.xlsx” contiene información sobre los tiempos de inicio/fin de esta fase. Puede haber producciones de otros materiales intercalados que no son OF del material de estudio (123456).

CampoDescripción
EquipoIdentificador de la centrífuga utilizada
OperaciónIndica si es un evento de inicio o fin, y si es de la primera centrifugación o de la segunda.
OrdenIdentificador de la OF
DateValueFecha y hora en el que se produce el evento de inicio o fin.

Dataset Materias Primas Utilizadas (Movimientos componentes.xls)

Contiene información sobre las materias primas utilizadas para la producción del medio de cultivo utilizado en las fases de producción. Estas materias primas se compran a proveedor, y se identifican con un Lote de proveedor. Cuando las materias primas se recepcionan en el almacén principal, se les asigna un número de lote interno que lo identifica en los procesos de producción. Un mismo Lote de proveedor puede corresponder a varios Lotes internos si se recepcionan en días diferentes.

Los materiales se almacenan primero en el almacén principal y luego se trasladan al almacén de producción donde se almacenan hasta su uso en producción.

Para un mismo lote participan distintos materiales y de cada material se pueden usar distintos lotes para completar la cantidad necesaria

CampoDescripción
LoteNúmero de lote producido. Igual que el número de OF, la relación de material y lote también identifica cada producción. A través de este campo cruzamos con el resto de datasets
MaterialCódigo de la materia prima utilizada
Lote internoIdentificador de lote que se genera al recepcionar una mercancía de proveedor.
Lote proveedorIdentificador que la da el proveedor a el lote que suministra
QtyCantidad de producto utilizado
Fecha recepciónFecha en que se recibe el producto del proveedor y se almacena en el almacén principal.
Fecha trasladoFecha que el producto se traslada del almacén principal al almacén de producción.

Dataset Temperaturas y Humedades (Temperaturas y humedades.xls)

Contiene información respecto a las condiciones ambientales de los almacenes y las salas de producción.

CampoDescripción
DateTimeFecha y hora de registro de los valores
06299_TI1302.PVTemperatura sala biorreactores
06299_MI1302.PVHumedad sala biorreactores
06299_TI1402.PVTemperatura sala centrifugas
06299_MI1402.PVHumedad sala centrifugas
07633_TI0601.PVTemperatura almacén principal
07633_HI0101.PVHumedad almacén principal
07781_TI1501.PVTemperatura almacén producción
07781_MI1501.PVHumedad almacén producción

Dataset test

Se proporcionará los mismos datasets que para el entrenamiento acabados en “_test” pero no se dispondrá de los datos producto 1 y producto 2, recordemos que el producto 1 es la variable target del reto.

Dataset respuesta

Es el fichero solicitado con tus predicciones de producción.

Se denominará “Equipo_UH2024.txt” donde ‘Equipo’ será el nombre del equipo con el que te has inscrito.

Sin cabecera ni nombres de filas.

Constará de las mismas filas que la pestaña “cultivo final” del Excel “Fases producción_test.xls” con 2 columnas cada fila:

LOTE: ordenado de forma ascendente
PRODUCTO 1: Estimación Concentración del producto 1 en el antígeno final después de todas las fases

Separando campos con “|”y los decimales con “.”.

¿Qué pedimos?

Además del “dataset respuesta”, te pedimos:

  1. Un script (“script exploración”) que contendrá el análisis exploratorio y procesos relevantes testados o ejecutados pero no aplicados en la solución final.
  2. Un script (“script predicción”) que contendrá el proceso de extracción, transformación y carga de los datos, el procesado aplicado así como la generación de predicciones.
  3. Una breve descripción donde se expondrá el proceso y la metodología seguida, las técnicas aplicadas y los resultados obtenidos (en formato presentación, pdf o html, máximo 5 páginas con 3 imágenes).

Un valor menor no conllevará explícitamente una mejor clasificación. El “script de predicción” mencionado debe cumplir que sea generalizable y en el caso de métricas equiparables, se tendrán en cuenta los criterios siguientes:

• el Jurado podrá valorar si la documentación interna aportada (código y comentarios) está correctamente estructurada, expresada y es reproducible.
• los scripts de exploración y predicción deben constituir un proyecto de data science con todas sus fases.

Se valorará

FASE LOCAL

La calidad y la técnica utilizada para generar un modelo. Para ello se utilizará como métrica el RMSE que permite comparar objetivamente los valores reales frente a los valores predichos por el modelo, se tendrán que minimizar las desviaciones de los valores obtenidos respecto a los datos reales.

El “error cuadrático medio” o RMSE, definido como:

Siendo:
“n” el número de casos,
“ŷ” el valor estimado,
“y” el valor real

FASE NACIONAL

Los equipos que participen en la fase nacional se valorarán siguiendo el siguiente criterio. Un primer nivel en función exclusivamente de la métrica, se seleccionarán los 10 trabajos que obtengan las mejores métricas.

Los 10 equipos seleccionados se evaluarán con los siguientes criterios:

  • - 70% de la puntuación dependerá del RMSE obtenido, donde la mejor métrica obtendrá 10 puntos y el resto en función de la diferencia porcentual con dicho valor.
  • -30% de la puntuación se constituirá con las puntuaciones obtenidas en el baremo de modelización responsable:
    • Explicabilidad (30%)
      Para una mejor adopción de la IA los modelos deber ser explicables, debemos evitar hablar de modelos de caja blanca / negra. En el desarrollo de todo modelo debe tenerse en cuenta la explicabilidad desde el diseño, un modelo explicable se integra en la gestión de forma más rápida que uno que no lo es, incluso modelos no explicables pueden llegar a no utilizarse nunca aun teniendo una muy buena precisión.
      De esta forma será necesario evaluar el nivel de explicabilidad del modelo vs precisión del modelo, usando el resultado de dicha evaluación como una de las variables a tener en cuenta en la elección del modelo ganador. En la memoria deberá justificarse porqué ha sido elegido el modelo desde el punto de vista de su explicabilidad aportando los datos objetivos (peso de las principales variables en el resultado obtenido, de forma global al modelo y de forma particular para casos concretos) así como subjetivos relativos a dicha selección.
    • Transparencia: (25%)
      De igual manera a la explicablidad, la transparencia debe estar presente desde el diseño para una mejor adopción. Todo modelo debe ir acompañado de una memoria donde se describa, desde distintos puntos de vista, el funcionamiento del modelo y favorecer así el entendimiento por parte del usuario.
      Debido a esto en la memoria del modelo se evaluará que haya quedado documentado:
      • - Instrucciones de uso
      • - Tratamientos sobre los datasets de datos
      • - Elección de la muestra de entrenamiento y validación
      • - Argumento de la tipología del modelo a desarrollar
      • - Criterios aplicados para la selección del ganador
      • - Visualización y explicación de los resultados
    • Justicia (25%)
      La IA debe usarse de forma justa, por lo que debe de velar por la equidad y evitar sesgos de cualquier tipo. En el desarrollo de cualquier modelo, y desde el diseño, debe revisarse que la muestra es lo suficientemente representativa y que no existe ningún sesgo (ni en los datos utilizados en el entrenamiento ni en el comportamiento del propio modelo).
      De esta forma será necesario evaluar que se he velado por el cumplimiento de dicho principio durante el desarrollo del modelo, para ello en la memoria deberán aparecer los análisis llevados cabo para corroborar la suficiente diversidad de la muestra, así como la inexistencia de sesgos.
    • Sostenibilidad ambiental (20%)
      El desarrollo de los modelos de IA debe velar por la sostenibilidad y ser respetuosos con el medioambiente, por lo que se deberá asegurar la optimización computacional que garantice un menor consumo energético.
      De esta forma será necesario evaluar el consumo energético (en base al tiempo de computación) vs precisión del modelo, usando el resultado de dicha evaluación como una de las variables a tener en cuenta en la elección del modelo ganador. En la memoria deberá justificarse porqué ha sido elegido el modelo desde el punto de vista de su consumo energético, aportando datos objetivos y subjetivos relativos a dicha selección.

DEFENSA FINAL

En la Presentación y Fallo de mejores trabajos, el Jurado tendrá en cuenta, además de los criterios anteriores, que el Proyecto se transmita de forma clara y concisa y que suponga una solución adecuada al reto a nivel empresarial.

Ayudas al desarrollo del reto

Además del dataset proporcionado, se muestran algunos recursos que podrían ser de interés para la realización del presente reto.

Librerías R y Python

Prophet
Prophet es un procedimiento de pronóstico implementado en R y Python. Es rápido y proporciona pronósticos completamente automatizados que los científicos y analistas de datos pueden ajustar manualmente.

AI Fairness
Conjunto de herramientas extensible de código abierto para examinar, informar y mitigar la discriminación y el sesgo en los modelos de aprendizaje automático a lo largo del ciclo de vida de la aplicación de IA.

Dalex
Herramientas para la explicabilidad de los modelos

Librerías en R

dplyr/data.table
Los paquetes dplyr y data.table son herramientas para la exploración y manipulación de datos.

ggplot2
Completo paquete que nos permite representar una gran galería de gráficos. Mejora las funciones habituales de R para gráficos pudiendo incluir más capas y especificaciones.

caret
Incluye sencillas herramientas para analizar la calidad de los datos, selección de características, optimización de parámetros o construcción de modelos predictivos.

mlr
Otro de los meta paquetes más populares. Presenta un marco completo para acceder a distintos paquetes de estadística y machine learning de una forma integrada y coherente.

Tidyverse
Colección de paquetes de R diseñados para data Science.

Keras
API para redes neuronales de alto nivel.

Tensor Flow
Interfaz para acceder a la biblioteca de software libre TensorFlow™ que utiliza diagramas de flujo de datos realizar cálculos numéricos.

iml
Librería con herramientas de interpretación y explicación de modelos.

Series Temporales
Paquetes de R para el análisis de series temporales.

Librerías en Python

Numpy
Manejo de matrices y la realización de operaciones matriciales y vectoriales de forma sencilla y eficiente.

Matplotlib
Gráficas muy completas para mostrar los resultados de tus pruebas.

Scikit-learn
Librería centrada en machine learning: de clasificadores o regresores, hasta selección automática de modelos y análisis de resultados.

lime
Librería con herramientas de interpretación y explicación de modelos.