Abstract:
En el presente trabajo, se busca diseñar una base de datos de face liveness detection con datos recopilados de cámaras de eventos. El face liveness detection (o detección de vida facial, en español) es una técnica de autenticación biométrica y sistemas de seguridad que se utiliza para determinar la presencia física de un usuario frente al sensor mediante la identificación y análisis de un rostro y los movimientos del mismo. Las cámaras de eventos son sensores de visión neuromórficos, lo que quiere decir, que su funcionamiento se inspira en cómo lo realiza el cerebro humano difiriendo así de los sensores de visión tradicionales, ya que capturan y procesan la información espacio-temporal de forma diferente.
El diseño de la base de datos se basa en la base de dato NEFER, la que se presenta en el artículo Neuromorphic Event-based Facial Expression Recognition (NEFER) (Berlincioni et al., 2023), la que cuenta con datos de rostros y posee datos de eventos y frames en rgb. Además con la base de datos se planea abordar replay attack (ataque de reproducción, en español) este tipo de ataque consiste en la utilización de vídeos pregrabados, los cuales se reproducen frente a una cámara o sensor, para engañarlo y que este detecte que lo que tiene enfrente no es un video sino una persona.
Para lograr esta detección, se exploran modelos de aprendizaje profundo para utilizar los datos de la base de datos propuesta, decantándose por la implementación de redes convolucionales (CNN) y con una arquitectura ResNet34, con la que se entrenan y validan los datos, con diferentes configuraciones; se entrenan diferentes modelos basados en la configuración de los datos de entrada. Los datos de entrada corresponden visualizaciones de time surface de los eventos de los rostros que fueron recortados de las capturas de datos, estas visualizaciones se realizan con diferentes ventanas de tiempo (Δt), específicamente para ventanas de 5, 10, 33 y 50 ms (milisegundos), por último se aplica un filtro por peso a las imágenes, esto para disminuir la cantidad de imágenes que no aportan información a la red a la hora de ser entrenada ni validada.
Los modelos entrenados muestran un alto desempeño, en muchos casos con una precisión del 100%. |