Resumen Las personas invidentes y con discapacidad visual han demandado durante muchos años un dispositivo que haga posible una cierta independencia en su movilidad. El diseño y desarrollo de un dispositivo de navegación como el citado supondría un gran hito en el campo de la ingeniería y de la investigación en general. En este contexto, durante estas últimas décadas, diversos investigadores han profundizado en diferentes métodos de representación del entorno de cara a su implementación en dispositivos electrónicos que faciliten la movilidad a personas invidentes y con problemas visuales. La presente tesis propone el diseño, modelación, implementación, experimentación y análisis de un dispositivo de navegación y detección de obstáculos fácil de utilizar, ideado para personas invidentes. Este dispositivo lleva el nombre de Sistema de Asistencia Cognitivo para las Personas Ciegas (Cognitive Aid System for Blind People – CASBliP en inglés). El dispositivo CASBliP constituye un sistema Electrónico de Ayuda a la Movilidad (Electronic Travel Aid – ETA en inglés), cuyo objetivo principal es ayudar a las personas invidentes a moverse independientemente y de forma segura en diferentes entornos, tanto interiores como exteriores. En este contexto, la tesis se inicia con la elaboración de un detallado estado del arte sobre los diversos dispositivos de navegación existentes y en desarrollo, destinados a personas invidentes. La revisión efectuada abarca dispositivos desarrollados desde la Segunda Guerra Mundial, momento en el que la construcción de este tipo de dispositivos empezó a jugar un papel más importante en la vida diaria, hasta hoy en día. En este capítulo inicial, se realiza una clasificación de los sistemas de navegación en base al tipo de dispositivo. Más de cuarenta equipos diferentes son descritos en este capítulo. No obstante, a pesar del conocimiento y utilización creciente de los dispositivos de navegación basados en sensores, todavía no ha sido posible el desarrollo de un sistema universal de navegación y detección de objetos, que posea una precisión suficientemente elevada. Con el fin de lograr los objetivos planteados en la tesis, el dispositivo ha sido diseñado de forma que incluye dos sistemas de entrada, una salida, un portátil y un FPGA como unidades de procesamiento, que pueden funcionar independientemente. El sistema de entrada está basado en una matriz de sensores CMOS Time of Flight de 64?1, implementados en unas gafas y dos cámaras estéreo montadas en un casco. El sistema de salida esta compuesto por un par de auriculares estéreo, a través de los cuales el usuario percibirá los objetos y pasillos libres del entorno. El objetivo del sistema de entrada es capturar la información del entorno en la dirección frontal al usuario. A partir de la información 3D del entorno percibida por el sistema de entrada, se crean los objetos en movimiento, se detectan todos los objetos móviles y estáticos y los pasillos libres, utilizando para ello los mapas de profundidad, los algoritmos de segmentación y los algoritmos de detección de movimiento. La imagen de alta resolución del sistema de entrada es proyectada en sonidos acústicos de alta calidad, a través del método basado en los criterios de navegación y modelos de convolución con la denominada Función de Transferencia Relativa a la Cabeza (Head-Related Transfer Function HRTF, en inglés). El dispositivo implementa un método de simulación que es capaz de generar una serie de sonidos a partir de objetos del entorno, de forma que estos sonidos sean capaces de representar la información del entorno con elevada precisión. La idea es generar en el usuario una percepción correcta de las fuentes sonoras virtuales emitidas por la superficie de los objetos, de forma que el cerebro humano se pueda crear una imagen perceptual en tres dimensiones de los objetos, como éstos aparecen en el mundo real. Utilizando esta idea, se pretende crear una percepción global del sonido, permitir a las personas invidentes percibir y crearse una imagen global del entorno circundante, así como el mapa de cómo están organizados los objetos en tiempo real. Es bien sabido que los seres humanos utilizan una gran variedad de información para la navegación en el entorno, que obtienen a través de la vista, el olfato, el oído, etc. Cuando se daña el sistema de visión humano (ceguera o pérdida parcial de visión), el sistema auditivo toma el mando en lo que respecta a la navegación. En este caso, es muy importante y necesario analizar y definir los aspectos que definen la escena visual, ya que constituyen las características más importantes para la navegación y la detección de objetos, con el fin de representar la presencia de los éstos y determinar su posición en el espacio. En el capítulo tres se describe, en líneas generales, el sistema auditivo, haciendo referencia a sus componentes básicas, así como a la organización auditiva. Esto proporciona una información preliminar sobre localización de sonidos mediante los parámetros acústicos (parámetros monaurales y biaurales, diferencia interaural de tiempo y diferencia interaural de nivel, efecto de reverberación, cono de confusión, efecto de precedencia y modelo de correlación cruzada). Esta introducción pretende dar una idea general del nivel de precisión necesario en la localización de sonidos, así como introducir la base del capítulo siguiente, en el que se analizan las propiedades de la localización de sonidos. Para la consecución de los objetivos de la tesis, es preceptiva la creación de un mapa acústico para representar los objetos detectados; en esta línea, a partir de los fundamentos básicos de funcionamiento del sistema auditivo y del estudio de los factores auditivos que contribuyen en la localización de fuentes sonoras, en el capitulo cuatro se describen dos métodos para la audición espacial humana y localización de sonidos en el caso de múltiples fuentes sonoras. El método aplicado se basa en la aplicación de HRTFs no individuales para localización de sonidos estáticos y en movimiento a través de auriculares. Frente a otros métodos existentes, basados en la localización de fuentes sonoras mediante HRTFs no individuales, el enfoque empleado en la tesis se basa en el estudio de la evolución de la característica del tiempo entre dos sonidos y su importancia en la localización de fuentes sonoras a través de auriculares. La función HRTF se calcula y se mide utilizando un maniquí KEMAR y después se convolucionan con los sonidos a través de un software, siendo finalmente ensayados con sujetos reales. En referencia a las propiedades de localización de sonidos espaciales se describen dos conjuntos de experimentos con sonidos simples de banda ancha. Los dos experimentos analizan la precisión de localización de un sonido y de un tren de sonidos en condiciones de laboratorio, de cara a una posterior implementación en el sistema de navegación. Estos experimentos demuestran que la fuente de sonido resulta clave para la localización tridimensional. La idea consiste en presentar los sonidos desplazados en el tiempo y ver cómo el intervalo temporal entre dos sonidos influye en su localización. Se ha probado que con los trenes de sonidos se obtienen mejores resultados en localización de fuentes sonoras que para el caso de un sonido simple. Asimismo, se analiza también el límite de percepción. En el segundo estudio, se analiza la localización de un sonido en movimiento, tanto en distancia como en azimut. Los resultados obtenidos demuestran que para un intervalo de tiempo de 150ms, se consigue una mejor localización de sonidos. Conviene resaltar que si se comparan la precisión en distancia y azimut, se obtienen mejores resultados en azimut. También se ve en este capítulo que las diferencias interaurales en tiempo y nivel juegan un papel muy importante en la localización espacial. Los parámetros interaurales aparecen debido a la separación de los oídos humanos, que proporciona información sobre la posición lateral del sonido. En el capitulo cinco se desarrollan una serie de experimentos con personas invidentes, con el propósito de medir su eficiencia en cuanto a la detección de objetos y su localización, cuando intervienen distintas fuentes sonoras. El objetivo general de tales ensayos es presentar diferentes objetos con el fin de observar la habilidad del usuario para la detección de objetos y para la externalización de sonidos en distintas situaciones. La localización de objetos vía señales acústicas se consigue debido a la asimilación del proceso de externalización de sonidos, que proporciona la información sobre la posición espacial del objeto fuente del sonido. Se describen tres series de experimentos relativos a la detección de objetos y navegación vía sonidos. En la primera serie de experimentos, se desarrollan un conjunto de siete ejercicios con distintos niveles de dificultad (detección de un obstáculo, detección de dos obstáculos, identificación del hueco entre dos obstáculos, detección de una pared, detección de un obstáculo en frente a una pared, etc…). Se ha probado que los usuarios invidentes son capaces de externalizar con gran precisión los sonidos reproducidos por el sistema de navegación y recibidos vía auriculares, así como localizar los objetos en el entorno real. En el segundo grupo de experimentos, se ha analizado la tarea de navegación. Para lograr este objetivo se ha preparado un escenario consistente en 8 columnas construidas a base de cajas de cartón, separadas una distancia de 2,5m, dispuestas en dos líneas formando un laberinto. De dicho experimento se han logrado notables resultados, tanto en lo referente a la detección de objetos como en navegación, a pesar del elevado número de sonidos reproducidos simultáneamente. Se han detectado pequeños errores en cuanto a la precisión en la navegación mientras los sujetos avanzaban por el trayecto dispuesto. No obstante, la tarea de navegación se ha desarrollado, en términos generales, satisfactoriamente; en lo que respecta a la localización de objetos, los sujetos perciben una ligera desviación en la localización lateral de los mismos, es decir, algunos sujetos han tenido problemas con la determinación del volumen de los objetos. El propósito de forzar al sujeto a circular entre los objetos era comprobar si era capaz de detectar los obstáculos y sortearlos. Los errores pueden tener su explicación en la interferencia causada por la reproducción de múltiples sonidos que representaban los diferentes objetos situados en el área de visión; el sujeto debía detectar cada sonido y precisar de dónde provenía. En el tercer grupo de experimentos, el sujeto tenía que navegar por escenarios controlados y no controlados en un entorno abierto (tales como el patio de una escuela para personas invidentes, intersecciones de calles con bares, terrazas, restaurantes, parkings, kioscos, etc…). A pesar de los sonidos exteriores provenientes de señales de tráfico, coches, música, conversaciones humanas, etc…, se han obtenido grandes resultados tanto en localización de objetos como en la navegación. Los sujetos han sido capaces de detectar y esquivar todos los objetos y navegar con confianza en unos entornos tan complejos como los mencionados. En general, los experimentos desarrollados han demostrado que la representación del entorno mediante sonidos constituye uno de los métodos de navegación más fiables. Se ha corroborado que las personas invidentes poseen una gran habilidad para percibir el entorno, a través del sistema auditivo. Son capaces de adaptarse rápidamente al sistema y utilizarlo como un sistema de navegación complementario al bastón o al perro lazarillo. El sistema de navegación acústico les proporciona mayor confianza y seguridad en la navegación; el sistema les da mucha más información sobre el entorno, información que el bastón u otros sistemas convencionales no pueden detectar. Debido a la naturaleza de los sonidos seleccionados, el sistema apenas interfiere con sonidos externos. La precisión de la navegación depende del entrenamiento y la práctica con el dispositivo y no de los sonidos. Los resultados obtenidos vienen en buena parte influenciados por el feedback con usuario final, que puede dar ideas muy útiles en cuanto a refinamiento, cambios y posibles mejoras. Como consecuencia del trabajo desarrollado en la presente tesis, se han obtenido las siguientes publicaciones: Publicaciones en revista: 1. Dunai L., Peris F. G., Garcia B.D., Santiago P. V., Dunai I. (2010) “The influence of the inter-click interval on moving sound source localization for navigation systems”. Applied Physics Journal, 56 (3), pp. 370-375 2. Dunai L., Peris F. G., Defez B. G., Ortigosa A.N., Brusola S F. (2009). “Perception of the sound source position”, Applied Physics Journal, 55 (3), pp. 448-451 Publicaciones en congresos internacionales: 1. Peris F. G., Dunai L., Santiago P. V., Dunai I. (2010). “CASBliP - a new cognitive object detection and orientation aid system for blind people”, CogSys2010 Conference, Zurich 2. Nuria Ortigosa, Samuel Morillas, Guillermo Peris-Fajarnés and Larisa Dunai. (2010), Disparity maps for free path detection, VISAPP 2010 Conference 3. Dunai L., Peris F G., Defez B. G., Ortigosa A.N., (2009). “Acoustical Navigation System for Visual Impaired People”, LivingAll European Conference 4. Ortigosa A. N., Dunai L., Peris F. G., Dunai I., Santiago P. V. (2009). “A multiple sensory prototype for visually impaired subject mobility assistance using sound map generation”, LivingAll European Conference 5. Santiago P. V., Ortigosa A.N., Dunai L., Peris F. G., (2009). “Cognitive aid system for blind people (CASbliP)”, INGEGRAF 2009 Conference 6. Ortigosa A. N., Dunai L., Peris. F.G., (2008). Sound map generation for a prototype blind mobility system using multiple sensors”. ABLETECH 08 Conference 7. Fernandes T. M.M., Peris F.G., Dunai L., Redondo J. (2007). “Convolution application in environment sonification for blind people” VII Applied mathematics workshop Valencia 8. Dunai L., Peris F.G., Fernandes T.M.M., Oliver M.J. (2007). “Spatial sound localization base don Fourier Transform”, VII Applied mathematics workshop Valencia 9. Javier Oliver, Alberto Albiol, Guillermo Peris, Larisa Dunai. (2007). “HOG descriptor improvement in person detection by means of the reduction of the space dimensions”., Proceedings of VIII Jornadas de Matemáticas Aplicada, UPV, Spain