Bioingeniería
Permanent URI for this community
Browse
Browsing Bioingeniería by Author "Amagliani, Martín"
Now showing 1 - 1 of 1
Results Per Page
Sort Options
proyecto final de grado.listelement.badge Modelo de inteligencia artificial multimodal para detección de fatiga utilizando dispositivos móviles(2024-10) Amagliani, Martín; Daquarti, Gustavo; Bartellini Huapalla, NicoleLos siniestros viales generan daños en la salud de sus víctimas y en muchos casos los daños pueden resultar irreversibles, pero también generan grandes costos económicos por la ayuda médica necesaria, los objetos materiales dañados y el tiempo que deja fuera de servicio a las personas afectadas. La fatiga al volante es una de las principales causas de estos siniestros. Realizar una tarea poco estimulante y demandante como conducir por varias horas consecutivas lleva a la fatiga del conductor, aumentando los tiempos de reacción y disminuyendo la capacidad de percibir estímulos visuales y auditivos. Esto afecta a todos los conductores, pero más aún a los conductores de colectivos de larga distancia y camiones de carga que pasan largas jornadas conduciendo por rutas monótonas con pocos, o directamente sin, descansos en varias horas de manejo. La fatiga mental es un estado psicobiológico que presenta una alteración temporal de la eficiencia física y mental, manifestando una disminución de la capacidad de respuesta de esfuerzos tipo cognitivos. Múltiples autores han estudiado el proceso de expresión de la fatiga a través de los tiempos de reacción, alteraciones en el rostro, características de la voz y comportamiento de los ojos. Se han observado diversas técnicas para la detección a partir de muestras de audio, video y tiempos de reacción. La cementera mexicana CEMEX se contactó con la empresa argentina de inteligencia artificial en salud Uma para realizar un modelo que detecte la fatiga de sus conductores de camiones. El modelo no debía necesitar hardware adicional y la generación de una muestra debe ser simple y rápida, por lo tanto no se puede recurrir a implementaciones que necesitan un muestreo constante en vivo, por lo que la mayoría de las implementaciones que se encuentran en el mercado hoy en día no cumplen con estas características. La obtención de las muestras se realiza entonces con el dispositivo móvil de cada usuario. Durante el desarrollo del modelo también se prioriza la reducción de falsos positivos para reducir la cantidad de alarmas que generen una desestimación de las mismas. Se deciden realizar muestras que posean videos selfies hablando a cámara en español preferentemente con tonada mexicana, y que las muestras tengan asociadas tiempos de reacción. Por la especificidad del dataset necesitado se generan 2 datasets propios, uno conformado por muestras de conductores de CEMEX en México y otro por voluntarios en Argentina. Entre ambos datasets se consiguieron 302 muestras válidas que con la ayuda de paramédicos de CEMEX se generó el criterio de clasificación de muestras aptas y no aptas para manejar. Las muestras del mismo poseen 5 tiempos de reacción y un video selfie de 17 segundos hablando libremente, y como etiqueta se utiliza la escala de somnolencia de Karolinska, la cual es una escala subjetiva donde uno señala en qué lugar de la escala se ubica sobre su somnolencia en los últimos 15 minutos. Este tipo de muestra se idea de esta forma para priorizar la brevedad de la toma de datos. Se desarrollan 3 modelos, un modelo de audio, uno de imágenes del rostro y otro de imágenes de los ojos, la salida de estos junto con datos tabulares ingresan a un modelo integrador que genera la clasificación binaria final sobre si el conductor se encuentra apto para manejar. El desarrollo de los modelos intermedios se realizó mientras se completaban los datasets, con pocas muestras etiquetadas especialmente las fatigadas, por lo tanto se recurrió a modelos de poco entrenamiento. El modelo de audio genera embeddings con CLAP y calcula la similitud coseno con pares de referencias de una misma persona fatigada y alerta, este modelo obtuvo un AUC de 0,62. El modelo de imágenes genera embeddings de los rostros utilizando el modelo VGG y calcula similitud coseno de forma análoga al modelo de audio, con un AUC de 0,60. El modelo de PERCLOS calcula la cantidad de tiempo del video en el que los ojos permanecen cerrados, y obtiene un AUC de 0,57. Finalmente, se realiza un modelo de Catboost como modelo integrador, que utiliza los outputs del resto de los modelos sumado datos de los tiempos de reacción y la hora del día, y se entrena realizando cross validation con k=7 obteniendo en validación 79,5 % de precisión, 69,9 % de F1-score y 69,8 % de accuracy, y en el conjunto de prueba obtiene 81,8 % de precisión, 75 % de F1-score y 82,9 % de accuracy. En conclusión, se logró crear un modelo de detección de fatiga multimodal que clasifica a partir de características principales de audio y video, de PERCLOS y de tiempos de reacción, para ser utilizado en dispositivos móviles con un tipo de muestra rápido y simple. Se destaca que a pesar de la subjetividad de clasificar la aptitud de manejo de una persona a partir de la fatiga, que de por sí también es subjetiva, el modelo obtiene mejor rendimiento que los paramédicos que realizan esta tarea. Se logró un modelo que con pocas muestras de entrenamiento alcanza grandes resultados en validación y una buena generalización gracias a la técnica de validación empleada que genera mayor aprovechamiento de las muestras y métricas más robustas.