Los sistemas de visión se han vuelto omnipresentes. Se utilizan para control de tráfico, cuidado de ancianos, videoconferencia, realidad virtual, vigilancia, salas inteligentes, domótica, análisis deportivos, seguridad industrial, asistencia médica, etc. En la mayoría de los sistemas de visión, los datos procedentes de los sensores visuales se procesan antes de la transmisión con el fin de ahorrar ancho de banda o de incrementar las imágenes por segundo. El tipo de procesamiento de datos debe ser elegido cuidadosamente en función del objetivo de la aplicación y teniendo en cuenta la memoria disponible, la potencia de cálculo, los recursos energéticos y las limitaciones de ancho de banda.
En esta tesis se investiga cómo un sistema de visión debe ser construido teniendo en cuenta las limitaciones prácticas. En primer lugar, el sistema debe ser inteligente, de forma que se extraigan los datos apropiados de la fuente de vídeo. En segundo lugar, al procesar las señales de la fuente de vídeo este sistema de visión inteligente debe conocer sus propias limitaciones prácticas, y debería intentar lograr el mejor resultado dentro de sus posibilidades. Estudiamos y mejoramos una amplia gama de sistemas de visión para una variedad de aplicaciones, que conllevan diferentes tipos de limitaciones. 

En primer lugar se presenta un algoritmo basado en la codificación módulo-PCM. Este algoritmo es muy útil para las aplicaciones que exigen una complejidad de codificación muy baja y que además necesitan conservar algunas de las ventajas de la codificación PCM (procesamiento directo, acceso aleatorio, tasa escalable). Nuestro sistema de codificación módulo-PCM combina tres estrategias de codificación conocidas: PCM, binning y codificación interpolativa. El codificador analiza primero las estadísticas de la señal de manera muy sencilla. Basándose en estas estadísticas, el codificador descarta un número de bits de cada muestra de la imagen. El decodificador módulo-PCM recupera los bits descartados de cada muestra utilizando los bits recibidos y la información lateral que se genera por interpolación de las señales decodificadas previas. Nuestro algoritmo es especialmente apropiado para la codificación de imágenes, ya que los errores de codificación que este algoritmo introduce son mayores en las regiones donde son menos visibles (los bordes y las zonas con texturas). 
Desarrollamos un modelo para la distorsión de codificación introducida por este codificador módulo-PCM. Utilizando este modelo, analizamos cómo los parámetros de codificación deben ser escogidos en función de la tasa deseada y de la calidad de la información lateral. 
Los resultados experimentales obtenidos en la codificación de varias imágenes digitales muestran que nuestro algoritmo tiene un mejor rendimiento objetivo y subjetivo que PCM a tasas bajas. A tasas elevadas, módulo-PCM y PCM dan resultados similares. En cuanto a la relación tasa-distorsión, nuestro algoritmo tiene un rendimiento algo menor que otros tipos de codificación tales como la codificación módulo-PCM con información lateral o la codificación de vídeo Wyner-Ziv. Por otro lado, nuestro algoritmo tiene como ventaja una complejidad computacional mucho menor. Este hace que sea muy útil en aplicaciones que requieren codificadores extremadamente simples como por ejemplo la codificación de señales de cámaras de alta velocidad. 

En segundo lugar, en algunas aplicaciones de vídeo es conveniente reducir la complejidad del codificador de vídeo a expensas de un decodificador más complejo. Ejemplos de este tipo de aplicaciones son la vigilancia con cámaras inalámbricas de bajo consumo, cámaras inalámbricas para PC, redes de sensores multimedia, cámaras desechables, y cámaras de teléfonos móviles. La codificación distribuida de vídeo es un nuevo paradigma que cumple este requisito mediante la codificación intra-frame y decodificación inter-frame. De esta forma la mayor parte de la carga de procesamiento se mueve del codificador al decodificador, ya que en este caso, los decodificadores distribuidos de vídeo (y no los codificadores) realizan la estimación de movimiento y la interpolación con compensación de movimiento. Dos teoremas de Teoría de la Información - el teorema de Slepian-Wolf para la codificación distribuida de fuente sin pérdidas y el teorema de Wyner-Ziv para la codificación de fuente con pérdidas con información lateral - sugieren que un sistema con codificación intra-frame y decodificación inter-frame puede acercarse a la eficiencia de un sistema de codificación tradicional inter-frame. 
Para obtener una mejor comprensión del funcionamiento de este tipo de codificadores, comenzamos con un estudio en profundidad de la distorsión introducida por los codificadores de vídeo Wyner-Ziv actuando en el dominio del píxel. Nuestro modelo de distorsión se puede utilizar para determinar el valor óptimo de los parámetros de codificación bajo restricciones de tasa y distorsión. Como ejemplo mostramos cómo se puede utilizar nuestro modelo para reducir las fluctuaciones de calidad entre diferentes fotogramas del vídeo. 
Muchos codificadores de vídeo Wyner-Ziv utilizan un canal de retorno para asignar una tasa adecuada. Sin embargo, este canal de retorno no siempre está disponible, como es el caso en la codificación offline o en aplicaciones unidireccionales. Se propone un algoritmo de asignación de tasa que permite eliminar el canal de retorno del sistema de codificación. Nuestro algoritmo calcula el número de bits para codificar cada fotograma de vídeo sin aumentar de manera significativa la complejidad del codificador. Los resultados experimentales muestran que nuestro algoritmo de asignación de tasa proporciona una buena estimación, y que la calidad de imagen proporcionada por nuestro algoritmo es bastante cercana a la proporcionada por un algoritmo con canal de retorno. 
Uno de los objetivos generales de la codificación distribuida de vídeo es reducir la complejidad del codificador lo más posible, a expensas de un decodificador más complejo. En este contexto, se observa que el aumento de la complejidad del decodificador es excesivo, y por lo tanto la complejidad del proceso completo de codificación y decodificación es mucho mayor que en los sistemas tradicionales de codificación. Para superar este problema, desarrollamos un método que reduce drásticamente la complejidad del decodificador. En este método utilizamos un canal de retorno para ajustar la asignación de tasa que obtenemos con nuestro algoritmo, logrando una asignación de tasa muy cercana a la óptima. Al mismo tiempo se eliminan dos de los principales inconvenientes del canal de retorno: su impacto negativo en la latencia y la complejidad del decodificador. 

En tercer lugar, se estudia en detalle cómo se debe diseñar un sistema de visión para la aplicación específica de detección de ocupación en 2D. Un mapa de ocupación en 2D proporciona una vista desde arriba de una escena que contiene a personas u objetos. Este tipo de mapas son importantes en muchas aplicaciones como vigilancia, habitaciones inteligentes, videoconferencias y análisis deportivos. Se presentan dos métodos diferentes. Con un primer método se pretende proporcionar mapas de ocupación en 2D muy precisos. Para ello, utilizamos una red de cámaras inteligentes, es decir, con potentes capacidades de procesamiento. En consecuencia, las cámaras pueden procesar y comprimir los datos de vídeo de manera inteligente antes de enviar esta información a la estación principal para el procesamiento central. En concreto, cada cámara calcula una silueta del primer plano y del plano de fondo, que transfiere a un plano de referencia utilizando transformaciones homográficas (el plano del suelo). Estas ocupaciones de suelo calculadas a partir de cada punto de vista se transmiten a una estación central de procesamiento. Puesto que la cantidad de datos necesarios para representar estas ocupaciones de suelo no es grande (mucho menor que con una imagen real), el ancho de banda requerido es más bien pequeño. En la estación de base, las ocupaciones de suelo de todas las cámaras se fusionan utilizando la teoría de la evidencia de Dempster-Shafer. El método da resultados de detección de ocupación muy precisos y supera los resultados del estado de la técnica en cálculo de mapas de ocupación con métodos multi-cámara. 
Este primer método es muy preciso, pero no siempre se puede utilizar en la práctica. En particular, los principales problemas son la posibilidad de violación de la privacidad, coste elevado, costosas alteraciones de infraestructura, complejidad de procesamiento y alto consumo de energía. 
Teniendo en cuenta estos requisitos, se presenta un segundo método nuevo para la detección de ocupación en 2D. En este método se sustituye la cámara por un dispositivo más específico que consiste en una línea de elementos ópticos (por ejemplo fotodiodos), que llamamos un sensor de línea. Proponemos el uso de múltiples de estos sensores de línea para calcular un mapa de ocupación en 2D preciso. El sensor de línea es especialmente apropiado para esta aplicación gracias a su bajo precio, bajo consumo de energía, alta tasa de datos, alta profundidad de bits y el hecho de que no invade la privacidad. Proponemos usar el sensor de línea junto con un sistema de integración óptico, que garantiza que cada elemento del sensor de línea integre toda la luz dentro de un cierto rango de ángulos de incidencia. Las medidas de múltiples sensores de línea con sistema de integración óptica son muy adecuadas como entrada para un algoritmo de cálculo de la ocupación. El cálculo de un mapa de ocupación en 2D con múltiples sensores de línea da resultados precisos que se aproximan a los obtenidos con múltiples cámaras, sobre todo cuando los sensores de línea perciben la escena desde un lado y no desde arriba. 

En cuarto lugar, se investiga cómo una red de visión puede manejar múltiples tareas de visión que deben llevarse a cabo simultáneamente, como por ejemplo el seguimiento de varias personas en una habitación. El número y el tipo de tareas que una red de cámaras puede manejar está por supuesto limitado por los recursos de la red. Las restricciones más importantes de la red de cámaras son la limitada potencia de cálculo de las cámaras y las limitaciones de comunicación. 
En una red de cámaras práctica a cargo de múltiples tareas y con recursos de red limitados, el objetivo es lograr el mejor rendimiento mediante la distribución eficiente de las tareas entre los sensores de acuerdo con las restricciones dadas. Esta distribución de tareas entre los sensores se denomina asignación de tareas. En esta tesis, presentamos una nueva solución general para la asignación de tareas en la práctica (es decir, con restricciones de la red) para redes de visión con campos de visión solapados. 
Este marco ofrece la posibilidad de controlar la calidad con que se realizan las tareas, mientras que se distribuyen las tareas entre las cámaras de acuerdo con criterios prácticos. En particular, este método supone, por una parte, funciones de coste para modelar los criterios prácticos, como por ejemplo la limitada potencia de cálculo de las cámaras. Por otra parte, utilizamos funciones de valor de idoneidad que indican con qué calidad un conjunto de cámaras puede realizar una tarea determinada, con el fin de controlar la calidad de las tareas ejecutadas. Las funciones de coste y de valor se combinan en un problema de optimización con restricciones, que tiene como solución la distribución óptima de las tareas entre las cámaras. Como prueba de concepto, utilizamos nuestro método para la gestión de múltiples tareas de seguimiento de personas. Evaluamos cómo la calidad del seguimiento está influenciada por el ancho de banda y la limitada potencia de cálculo de las cámaras en la red. Probamos nuestro método en una gran cantidad de datos reales que vienen de varios entornos donde instalamos una red de cámaras para observar la escena. 

En resumen, las principales contribuciones de esta tesis son 
1. un algoritmo basado en módulo-PCM para la codificación con muy baja complejidad de imágenes;
2. un estudio en profundidad y mejora de algoritmos de codificación distribuida de vídeo en el dominio del píxel;
3. dos nuevos sistemas de visión para el cálculo preciso de mapas de ocupación en 2D;
4. un sistema de asignación de tareas en redes de visión inteligentes.

La investigación llevada a cabo durante esta tesis resultó en cinco publicaciones en revistas internacionales (dos publicadas, dos en revisión, una en preparación) de las cuales tres como primer autor [Morbee et al., 2011, Prades-Nebot et al., 2010,Tessens et al., 2011,Morbee et al., 2010,Morbee et al., 2008a], dos solicitudes de patentes (registradas) como primer autor [Morbee and Tessens, 2010,Morbee and Tessens, 2011], dos capítulos en Lecture Notes of Computer Science de los cuales uno como primer autor [Lee et al., 2008, Morbee et al., 2007a], y doce publicaciones en congresos internacionales de las cuales ocho como primer autor [Morbee et al., 2009b,Morbee et al., 2009a,Tessens et al., 2009,Morbee et al., 2008b, Tessens et al., 2008, Roca et al., 2008, Roca et al., 2007, Morbee et al., 2007d, Morbee et al., 2007c, Morbee et al., 2007b, Morbee et al., 2006a, Morbee et al., 2006b].

Referencias: 

[Morbee et al., 2007a] Morbee, M., Prades-Nebot, J., Pizurica, A., and Philips, W. (2007a). Improved pixel-based rate allocation for pixel-domain distributed video coders without feedback channel. In Advanced Concepts for Intelligent Vision Systems (ACIVS), Lecture Notes in Computer Science, pages 663-674, Delft, the Netherlands. Springer-Verlag.

[Morbee et al., 2007b] Morbee, M., Prades-Nebot, J., Pizurica, A., and Philips, W. (2007b). Rate allocation algorithm for pixel-domain distributed video coding without feedback channel. In IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), volume 1, pages I521-I524, Honolulu, HI, USA.

[Morbee et al., 2006a] Morbee, M., Prades-Nebot, J., Pizurica, A., and Philips, W. (2006a). Feedback channel suppression in pixel-domain distributed video coding. In Proceedings of the 17th Annual Workshop on Circuits, Systems and Signal Processing (ProRISC), pages 154-157, Eindhoven, The Netherlands. Technology Foundation/IEEE Benelux.

[Morbee et al., 2006b] Morbee, M., Prades-Nebot, J., Pizurica, A., and W., P. (2006b). Content-based MPEG-4 FGS video coding for video surveillance. In Proc. of SPS-DARTS 2006 (the second annual IEEE Benelux/DSP Valley Signal Processing Symposium, pages 135-138.

[Morbee et al., 2008a] Morbee, M., Roca, A., Prades-Nebot, J., Pizurica, A., and Philips, W. (2008a). Reduced decoder complexity and latency in pixel-domain Wyner-Ziv video coders. Springer Journal on Signal, Image and Video Processing (SIViP), 2(2):129-140.

[Morbee and Tessens, 2010] Morbee, M. and Tessens, L. (2010). Multiple light-integrating line sensors for 2D occupancy sensing. EPO Patent Office, Application Number EP10164483.9.

[Morbee and Tessens, 2011] Morbee, M. and Tessens, L. (2011). Multiple light-integrating line sensors for 2D occupancy sensing. EPO Patent Office, Application Number EP11000138.5.

[Morbee et al., 2010] Morbee, M., Tessens, L., Aghajan, H., and Philips, W. (2010). Dempster-Shafer based multi-view occupancy maps. Electronic Letters, 46.

[Morbee et al., 2011] Morbee, M., Tessens, L., Aghajan, H., and Philips, W. (2011). Dempster-Shafer based task assignment in vision networks. submitted to International Journal on Computer Vision.

[Morbee et al., 2008b] Morbee, M., Tessens, L., Lee, H., Philips, W., and Aghajan, H. (2008b). Optimal camera selection in vision networks through shape approximation. In Proceedings of the 2008 IEEE 10th Workshop on Multimedia Signal Processing, pages 46-51, Cairns, Queensland, Australia. ISBN: 978-1-4244-2295-1.

[Morbee et al., 2009a] Morbee, M., Tessens, L., Philips, W., and Aghajan, H. (2009a). PhD forum: Dempster-Shafer based camera contribution evaluation for task assignment in vision networks. In Distributed Smart Cameras, 2009. ICDSC 2009. Third ACM/IEEE International Conference on, pages 1-2.

[Morbee et al., 2007c] Morbee, M., Tessens, L., Prades-Nebot, J., Pizurica, A., and Philips, W. (2007c). A distributed coding-based extension of a mono-view to a multi-view video system. In 3DTV-Conference, Kos, Greece.

[Morbee et al., 2007d] Morbee, M., Tessens, L., Quang-Luong, H., Prades-Nebot, J., Pizurica, A., and Philips, W. (2007d). A distributed coding-based content-aware multi-view video system. In International Conference on Distributed Smart Cameras (ICDSC), pages 355-362, Vienna, Austria.

[Morbee et al., 2009b] Morbee, M., Velisavljevic, V., Mrak, M., and Philips, W. (2009b). Scalable feature-based video retrieval for mobile devices. In ACM International Conference on Internet Multimedia Computing and Service (ICIMCS), pages 1-7, Kunming, Yunnan, China.

[Lee et al., 2008] Lee, H., Tessens, L., Morbee, M., Aghajan, H., and Philips, W. (2008). Sub-optimal camera selection in practical vision networks through shape approximation. volume 5259 LNCS, pages 266-277, Juan-les-Pins, France. 

[Roca et al., 2008] Roca, A., Morbee, M., Prades-Nebot, J., and Delp, E. (2008). Rate control algorithm for pixel-domain Wyner-Ziv video coding. In Proc. Visual Communications and Image Processing (VCIP), San Jose, CA, USA.

[Roca et al., 2007] Roca, A., Morbee, M., Prades-Nebot, J., and Delp, E. J. (2007). A distortion control algorithm for pixel-domain Wyner-Ziv video coding. In Picture Coding Symposium, Lisbon, Portugal.

[Prades-Nebot et al., 2010] Prades-Nebot, J., Morbee, M., and Delp, E. J. (2010). Very low complexity coding of images using modulo-PCM. submitted to IEEE Trans. Circuits Syst. Video Technol.

[Tessens et al., 2011] Tessens, L., Morbee, M., Aghajan, H., and Philips, W. (2011). Camera selection for tracking in smart camera networks. submitted to IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI).

[Tessens et al., 2008] Tessens, L., Morbee, M., Lee, H., Philips, W., and Aghajan, H. (2008). Principal view determination for camera selection in distributed smart camera networks. In Proceedings of ACM/IEEE ICDSC, pages 1-8, Stanford, CA, USA.

[Tessens et al., 2009] Tessens, L., Morbee, M., Philips, W., Kleihorst, R., and Aghajan, H. (2009). Efficient approximate foreground detection for low-resource devices. In Distributed Smart Cameras, 2009. ICDSC 2009. Third ACM/IEEE International Conference on, pages 1-8.