Els sistemes de visió s’han tornat omnipresents. S’utilitzen per al control del trànsit, tenir cura d’ancians, videoconferència, realitat virtual, vigilància, sales intel·ligents, domòtica, anàlisis esportives, seguretat industrial, assistència mèdica, etc. En la majoria dels sistemes de visió, les dades procedents dels sensors visuals es processen abans de la transmissió amb la finalitat d’estalviar ample de banda o d’incrementar les imatges per segon. El tipus de processament de dades ha de ser triat acuradament en funció de l’objectiu de l’aplicació i tenint en compte la memòria disponible, la potència de càlcul, els recursos energètics i les limitacions d’ample de banda. 
En aquesta tesi s’investiga com un sistema de visió ha de ser construït tenint en compte les limitacions pràctiques. En primer lloc, el sistema ha de ser intel·ligent, de manera que s’extraguen les dades apropiades de la font de vídeo. En segon lloc, en processar els senyals de la font de vídeo, aquest sistema de visió intel·ligent ha de conèixer les seues pròpies limitacions pràctiques, i hauria d’intentar aconseguir el millor resultat dins de les seues possibilitats. Estudiem i millorem una àmplia gamma de sistemes de visió per a una varietat d’aplicacions, que comporten diversos tipus de limitacions. 

En primer lloc, es presenta un algorisme basat en la codificació mòdul-PCM. Aquest algorisme és molt útil per a les aplicacions que exigeixen una complexitat de codificació molt baixa i que a més necessiten conservar alguns dels avantatges de la codificació PCM (processament directe, accés aleatori, taxa escalable). El nostre sistema de codificació mòdul-PCM combina tres estratègies de codificació conegudes: PCM, binning i codificació interpolativa. El codificador analitza primer les estadístiques del senyal de manera molt senzilla. Basant-se en aquestes estadístiques, el codificador descarta un nombre de bits de cada mostra de la imatge. El descodificador mòdul-PCM recupera els bits descartats de cada mostra utilitzant els bits rebuts i la informació lateral que es genera per interpolació dels senyals descodificats previs. El nostre algorisme és especialment apropiat per a la codificació d’imatges, ja que els errors de codificació que aquest algorisme introdueix són majors en les regions on són menys visibles (les vores i les zones amb textures). 
Desenvolupem un model per a la distorsió de codificació introduïda per aquest codificador mòdul-PCM. Utilitzant aquest model, analitzem com els paràmetres de codificació han de ser escollits en funció de la taxa desitjada i de la qualitat de la informació lateral. 
Els resultats experimentals obtinguts en la codificació de diverses imatges digitals mostren que el nostre algorisme té un millor rendiment objectiu i subjectiu que PCM a taxes baixes. A taxes elevades, mòdul-PCM i PCM donen resultats similars. Quant a la relació taxa-distorsió, el nostre algorisme té un rendiment un poc menor que altres tipus de codificació, com ara la codificació de mòdul-PCM amb informació lateral o la codificació de vídeo Wyner-Ziv. D’altra banda, el nostre algorisme té com a avantatge una complexitat computacional molt menor. Això fa que siga molt útil en aplicacions que requereixen codificadors extremadament simples, com per exemple la codificació de senyals de càmeres d’alta velocitat. 

En segon lloc, en algunes aplicacions de vídeo és convenient reduir la complexitat del codificador de vídeo a costa d’un descodificador més complex. Exemples d’aquest tipus d’aplicacions són la vigilància amb càmeres sense fils de baix consum, càmeres sense fils per a PC, xarxes de sensors multimèdia, càmeres d’un sol ús, i càmeres de telèfons mòbils. La codificació distribuïda de vídeo és un nou paradigma que compleix aquest requisit mitjançant la codificació intraquadre (intraframe) i descodificació interquadre (interframe). D’aquesta manera, la major part de la càrrega de processament es mou del codificador al descodificador, ja que en aquest cas, els descodificadors distribuïts de vídeo (i no els codificadors) realitzen l’estimació de moviment i la interpolació amb compensació de moviment. Dos teoremes de teoria de la informació –el teorema de Slepian-Wolf per a la codificació distribuïda de font sense pèrdues i el teorema deWyner-Ziv per a la codificació de font amb pèrdues amb informació lateral– suggereixen que un sistema amb codificació intraquadre i descodificació interquadre pot acostar-se a l’eficiència d’un sistema de codificació tradicional interquadre. 
Per a obtenir una millor comprensió del funcionament d’aquest tipus de codificadors, comencem amb un estudi en profunditat de la distorsió introduïda pels codificadors de vídeo Wyner-Ziv actuant en el domini del píxel. El nostre model de distorsió es pot utilitzar per a determinar el valor òptim dels paràmetres de codificació sota restriccions de taxa i distorsió. Com a exemple, mostrem com es pot utilitzar el nostre model per a reduir les fluctuacions de qualitat entre diferents fotogrames del vídeo. 
Molts codificadors de vídeo Wyner-Ziv utilitzen un canal de tornada per a assignar una taxa adequada. No obstant això, aquest canal de tornada no sempre està disponible, com és el cas en la codificació fora de línia (offline) o en aplicacions unidireccionals. Es proposa un algorisme d’assignació de taxa que permet eliminar el canal de tornada del sistema de codificació. El nostre algorisme calcula el nombre de bits per a codificar cada fotograma de vídeo sense augmentar de manera significativa la complexitat del codificador. Els resultats experimentals mostren que el nostre algorisme d’assignació de taxa proporciona una bona estimació, i que la qualitat d’imatge proporcionada pel nostre algorisme és bastant propera a la proporcionada per un algorisme amb canal de tornada. 
Un dels objectius generals de la codificació distribuïda de vídeo és reduir la complexitat del codificador tant com siga possible, a costa d’un descodificador més complex. En aquest context, s’observa que l’augment de la complexitat del descodificador és excessiu, i per tant la complexitat del procés complet de codificació i descodificació és molt major que en els sistemes tradicionals de codificació. Per a superar aquest problema, desenvolupem un mètode que redueix dràsticament la complexitat del descodificador. En aquest mètode, utilitzem un canal de tornada per a ajustar l’assignació de taxa que obtenim amb el nostre algorisme, i aconseguim una assignació de taxa molt propera a l’òptima. Al mateix temps, s’eliminen dos dels principals inconvenients del canal de tornada: l’impacte negatiu en la latència i la complexitat del descodificador. 

En tercer lloc, s’estudia detalladament com s’ha de dissenyar un sistema de visió per a l’aplicació específica de detecció d’ocupació en 2D. Un mapa d’ocupació en 2D proporciona una vista des de dalt d’una escena que conté persones o objectes. Aquesta mena de mapes són importants en moltes aplicacions, com ara vigilància, habitacions intel·ligents, videoconferències i anàlisis esportives. Es presenten dos mètodes diferents. Amb un primer mètode es pretén proporcionar mapes d’ocupació en 2D molt precisos. Per a fer-ho, utilitzem una xarxa de càmeres intel·ligents, és a dir, amb capacitats de processament potents. En conseqüència, les càmeres poden processar i comprimir les dades de vídeo de manera intel·ligent abans d’enviar aquesta informació a l’estació principal per al processament central. En concret, cada càmera calcula una silueta del primer pla i del pla de fons, que transfereix a un pla de referència utilitzant transformacions homogràfiques (el pla del sòl). Aquestes ocupacions de sòl calculades a partir de cada punt de vista es transmeten a una estació central de processament, ja que la quantitat de dades necessàries per a representar aquestes ocupacions de sòl no és gran (molt menor que amb una imatge real), l’ample de banda requerit és més aviat menut. En l’estació de base, les ocupacions de sòl de totes les càmeres es fusionen utilitzant la teoria de l’evidència de Dempster-Shafer. El mètode dóna resultats de detecció d’ocupació molt precisos i supera els resultats de l’estat de la tècnica en càlcul de mapes d’ocupació amb mètodes multicàmera. 
Aquest primer mètode és molt precís, però no sempre es pot utilitzar en la pràctica. En particular, els principals problemes són la possibilitat de violació de la privadesa, el cost elevat, les costoses alteracions d’infraestructura, la complexitat de processament i l’alt consum d’energia. 
Tenint en compte aquests requisits, es presenta un segon mètode nou per a la detecció d’ocupació en 2D. En aquest mètode se substitueix la càmera per un dispositiu més específic que consisteix en una línia d’elements òptics (per exemple fotodíodes), que anomenem un sensor de línia. Proposem l’ús de múltiples d’aquests sensors de línia per a calcular un mapa d’ocupació en 2D precís. 
El sensor de línia és especialment apropiat per a aquesta aplicació gràcies al seu baix preu, baix consum d’energia, alta taxa de dades, gran profunditat de bits, i pel fet que no envaeix la privadesa. Proposem usar el sensor de línia juntament amb el sistema d’integració òptic, que garanteix que cada element del sensor de línia reba (una integració de) tota la llum dins d’un cert rang d’angles d’incidència. Les mesures de múltiples sensors de línia amb sistema d’integració òptica són molt adequades com a entrada per a un algorisme de càlcul de l’ocupació. El càlcul d’un mapa d’ocupació en 2D amb múltiples sensors de línia dóna resultats precisos que s’aproximen als obtinguts amb múltiples càmeres, sobretot quan els sensors de línia perceben l’escena des d’un costat i no des de dalt. 

En quart lloc, s’investiga com una xarxa de visió pot manejar múltiples tasques de visió que han de dur-se a terme simultàniament, com per exemple el seguiment de diverses persones en una habitació. El nombre i el tipus de tasques que una xarxa de càmeres pot manejar està per descomptat limitat pels recursos de la xarxa. Les restriccions més importants de la xarxa de càmeres són la limitada potència de càlcul de les càmeres i les limitacions de comunicació. 
En una xarxa de càmeres pràctica a càrrec de múltiples tasques i amb recursos de xarxa limitats, l’objectiu és aconseguir el millor rendiment de tasques mitjançant la distribució eficient de les tasques entre els sensors d’acord amb les restriccions donades. Aquesta distribució de tasques entre els sensors es diu assignació de tasques. En aquesta tesi, presentem una nova solució general per a l’assignació de tasques en la pràctica (és a dir, amb restriccions de la xarxa) per a xarxes de visió amb camps de visió encavalcats. 
Aquest marc ofereix la possibilitat de controlar la qualitat amb què es duen a terme les tasques, mentre que es distribueixen les tasques entre les càmeres d’acord amb criteris pràctics. En particular, aquest mètode suposa, d’una banda, funcions de cost per a modelar els criteris pràctics, com per exemple la limitada potència de càlcul de les càmeres. D’altra banda, utilitzem funcions de valor d’idoneïtat que indiquen amb quina qualitat un conjunt de càmeres pot fer una tasca determinada, amb la finalitat de controlar la qualitat de les tasques executades. Les funcions de cost i de valor es combinen en un problema d’optimització amb restriccions, que té com a solució la distribució òptima de les tasques entre les càmeres. Com una prova de concepte, utilitzem el nostre mètode per a la gestió de múltiples tasques de seguiment de persona. Avaluem com la qualitat del seguiment està influenciada per l’ample de banda i la limitada potència de càlcul de les càmeres en la xarxa. Provem el nostre mètode en una gran quantitat de dades reals que vénen de diversos entorns on instal·lem una xarxa de càmeres per a observar l’escena. 

En resum, les principals contribucions d’aquesta tesi són
1. un algorisme basat en mòdul-PCM per a la codificació d’imatges amb molt baixa complexitat;
2. un estudi en profunditat i la millora d’algorismes de codificació distribuïda de vídeo en el domini del píxel;
3. dos nous sistemes de visió per al càlcul precís de mapes d’ocupació en 2D;
4. un sistema d’assignació de tasques en xarxes de visió intel·ligents.

La investigació duta a terme durant aquesta tesi va resultar en cinc publicacions en revistes internacionals (dues ja estan publicades, dues estan en revisió, una en preparació), de les quals tres com a primer autor [Morbee et al., 2011, Prades-Nebot et al., 2010,Tessens et al., 2011, Morbee et al., 2010, Morbee et al., 2008a], dues sol·licituds de patents (registrades) com a primer autor [Morbee and Tessens, 2010,Morbee and Tessens, 2011], dos capítols en Lecture Notes of Computer Science, dels quals un com a primer autor [Lee et al., 2008, Morbee et al., 2007a], i dotze publicacions en congressos internacionals, de les quals vuit com a primer autor [Morbee et al., 2009b,Morbee et al., 2009a,Tessens et al., 2009,Morbee et al., 2008b, Tessens et al., 2008, Roca et al., 2008, Roca et al., 2007, Morbee et al., 2007d, Morbee et al., 2007c, Morbee et al., 2007b, Morbee et al., 2006a, Morbee et al., 2006b].

Referències: 

[Morbee et al., 2007a] Morbee, M., Prades-Nebot, J., Pizurica, A., and Philips, W. (2007a). Improved pixel-based rate allocation for pixel-domain distributed video coders without feedback channel. In Advanced Concepts for Intelligent Vision Systems (ACIVS), Lecture Notes in Computer Science, pages 663-674, Delft, the Netherlands. Springer-Verlag.

[Morbee et al., 2007b] Morbee, M., Prades-Nebot, J., Pizurica, A., and Philips, W. (2007b). Rate allocation algorithm for pixel-domain distributed video coding without feedback channel. In IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), volume 1, pages I521-I524, Honolulu, HI, USA.

[Morbee et al., 2006a] Morbee, M., Prades-Nebot, J., Pizurica, A., and Philips, W. (2006a). Feedback channel suppression in pixel-domain distributed video coding. In Proceedings of the 17th Annual Workshop on Circuits, Systems and Signal Processing (ProRISC), pages 154-157, Eindhoven, The Netherlands. Technology Foundation/IEEE Benelux.

[Morbee et al., 2006b] Morbee, M., Prades-Nebot, J., Pizurica, A., and W., P. (2006b). Content-based MPEG-4 FGS video coding for video surveillance. In Proc. of SPS-DARTS 2006 (the second annual IEEE Benelux/DSP Valley Signal Processing Symposium, pages 135-138.

[Morbee et al., 2008a] Morbee, M., Roca, A., Prades-Nebot, J., Pizurica, A., and Philips, W. (2008a). Reduced decoder complexity and latency in pixel-domain Wyner-Ziv video coders. Springer Journal on Signal, Image and Video Processing (SIViP), 2(2):129-140.

[Morbee and Tessens, 2010] Morbee, M. and Tessens, L. (2010). Multiple light-integrating line sensors for 2D occupancy sensing. EPO Patent Office, Application Number EP10164483.9.

[Morbee and Tessens, 2011] Morbee, M. and Tessens, L. (2011). Multiple light-integrating line sensors for 2D occupancy sensing. EPO Patent Office, Application Number EP11000138.5.

[Morbee et al., 2010] Morbee, M., Tessens, L., Aghajan, H., and Philips, W. (2010). Dempster-Shafer based multi-view occupancy maps. Electronic Letters, 46.

[Morbee et al., 2011] Morbee, M., Tessens, L., Aghajan, H., and Philips, W. (2011). Dempster-Shafer based task assignment in vision networks. submitted to International Journal on Computer Vision.

[Morbee et al., 2008b] Morbee, M., Tessens, L., Lee, H., Philips, W., and Aghajan, H. (2008b). Optimal camera selection in vision networks through shape approximation. In Proceedings of the 2008 IEEE 10th Workshop on Multimedia Signal Processing, pages 46-51, Cairns, Queensland, Australia. ISBN: 978-1-4244-2295-1.

[Morbee et al., 2009a] Morbee, M., Tessens, L., Philips, W., and Aghajan, H. (2009a). PhD forum: Dempster-Shafer based camera contribution evaluation for task assignment in vision networks. In Distributed Smart Cameras, 2009. ICDSC 2009. Third ACM/IEEE International Conference on, pages 1-2.

[Morbee et al., 2007c] Morbee, M., Tessens, L., Prades-Nebot, J., Pizurica, A., and Philips, W. (2007c). A distributed coding-based extension of a mono-view to a multi-view video system. In 3DTV-Conference, Kos, Greece.

[Morbee et al., 2007d] Morbee, M., Tessens, L., Quang-Luong, H., Prades-Nebot, J., Pizurica, A., and Philips, W. (2007d). A distributed coding-based content-aware multi-view video system. In International Conference on Distributed Smart Cameras (ICDSC), pages 355-362, Vienna, Austria.

[Morbee et al., 2009b] Morbee, M., Velisavljevic, V., Mrak, M., and Philips, W. (2009b). Scalable feature-based video retrieval for mobile devices. In ACM International Conference on Internet Multimedia Computing and Service (ICIMCS), pages 1-7, Kunming, Yunnan, China. 

[Lee et al., 2008] Lee, H., Tessens, L., Morbee, M., Aghajan, H., and Philips, W. (2008). Sub-optimal camera selection in practical vision networks through shape approximation. volume 5259 LNCS, pages 266 – 277, Juan-les-Pins, France. 

[Roca et al., 2008] Roca, A., Morbee, M., Prades-Nebot, J., and Delp, E. (2008). Rate control algorithm for pixel-domain Wyner-Ziv video coding. In Proc. Visual Communications and Image Processing (VCIP), San Jose, CA, USA. 

[Roca et al., 2007] Roca, A., Morbee, M., Prades-Nebot, J., and Delp, E. J. (2007). A distortion control algorithm for pixel-domain Wyner-Ziv video coding. In Picture Coding Symposium, Lisbon, Portugal. 

[Prades-Nebot et al., 2010] Prades-Nebot, J., Morbee, M., and Delp, E. J. (2010). Very low complexity coding of images using modulo-PCM. submitted to IEEE Trans. Circuits Syst. Video Technol.

[Tessens et al., 2011] Tessens, L., Morbee, M., Aghajan, H., and Philips, W. (2011). Camera selection for tracking in smart camera networks. submitted to IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI).

[Tessens et al., 2008] Tessens, L., Morbee, M., Lee, H., Philips, W., and Aghajan, H. (2008). Principal view determination for camera selection in distributed smart camera networks. In Proceedings of ACM/IEEE ICDSC, pages 1-8, Stanford, CA, USA.

[Tessens et al., 2009] Tessens, L., Morbee, M., Philips, W., Kleihorst, R., and Aghajan, H. (2009). Efficient approximate foreground detection for low-resource devices. In Distributed Smart Cameras, 2009. ICDSC 2009. Third ACM/IEEE International Conference on, pages 1-8.