Resum

En aquesta tesi es presenta un nou marc interactiu i multimodal per a la transcripció de documents manuscrits. Aquesta aproximació, lluny de proporcionar la transcripció completa pretén assistir a l’expert en la tasca de transcriure.

Fins ara, els sistemes de reconeixement de text manuscrit que hi ha disponibles no proporcionen transcripcions acceptables pels usuaris i, generalment, es necessària la intervenció de l’humà per corregir les transcripcions obtingudes. Aquestos sistemes han demostrat ser realment útils en aplicacions restringides amb vocabularis limitats (com es el cas del reconeixement de direccions postals o de quantitats numèriques en xecs bancaris), aconseguint en aquest tipus de tasques resultats acceptables. No obstant això, si es treballa amb documents manuscrits sense cap tipus de restricció (com documents manuscrits antics o text espontani), la tecnologia actual sols aconsegueix resultats inacceptables. 

L’escenari interactiu estudiat en aquesta tesi permet una solució més efectiva. En aquest escenari, el sistema de reconeixement i l’usuari cooperen per generar la transcripció ﬁnal de la imatge de text. El sistema utilitza la imatge de text i una part de la transcripció prèviament validada (preﬁx) per proposar una possible continuació. Després, l’usuari troba i corregeix el següent error produït pel sistema, generant així un nou preﬁx més llarg. Aquest nou preﬁx, és utilitzat pel sistema per suggerir una nova hipòtesi. La tecnologia utilitzada es basa en models ocults de Markov i n-grames. Aquestos models són utilitzats aci de la mateixa manera que en el reconeixement automàtic de la parla. Algunes modiﬁcacions en la deﬁnició convencional dels n-grames han sigut necessàries per tindre en compte la retroalimentació de l’usuari en el sistema. Per altre costat, per implementar el procés de descodiﬁcació en un únic pas, tal i com es fa en els sistemes convencionals de reconeixement de text, dos aproximacions han sigut estudiades. La primera d’elles consisteix en la construcció d’un model de llenguatge especial, i la segona es basa en la utilització de grafs de paraules. En aquesta última aproximació, s’integren eﬁcients tècniques de correcció d’errors, amb l’objectiu de garantir el baix temps de resposta i un mínim de precisió en les transcripcions. La qualitat del sistema ha sigut mesurada automàticament amb tres corpus. Dos d’ells contenen text manuscrit en espanyol i anglès modern, mentre que l’altre, consisteix en un text manuscrit antic del segle XIX. Els resultats obtinguts amb els tres corpus mostren que utilitzar l’escenari interactiu proposat pot reduir considerablement l’esforç realitzat pel usuari si el comparem amb el sistema convencional de reconeixement de text.  L’usuari esta repetidament interactuant amb el sistema proposat, per això, la qualitat i l’ergonomia en el proces interactiu és crucial per a l’èxit del sistema. En aquesta tesi, s’han estudiat diferents formes d’interactuar amb el sistema i diferents nivells d’interacció (paraules completes o caràcters). A més, s’han utilitzat interfícies multimodals més ergonòmiques, amb la intenció d’obtindre sistemes més confortables i de fàcil ús per al usuari. Entre totes les possibles modalitats de retroalimentació, ens centrem en la comunicació utilitzant una pantalla tàctil, que és, possiblement, la forma més natural de proporcionar, al sistema, la retroalimentació. El subsistema de reconeixement de text manuscrit on-line utilitzat per a la descodiﬁcació de la retroalimentació introduïda pel usuari, es basa en l’ús de models ocultes de Markov, de la mateixa manera que en el sistema principal. Per entrenar els models del subsistema de retroalimentació, i testar la versió multimodal de l’escenari interactiu, s’ha utilitzat un corpus manuscrit on-line. Les paraules que han de ser introduïdes per l’usuari en el procés multimodal han sigut generades concatenant mostres aleatories de caràcters de tres categories diferents: dígits, lletres minúscules i símbols. Els resultats obtinguts mostren que, tot i la pèrdua del determinisme que proporcionen el teclat i el ratolí, l’aproximació multimodal pot estalviar una quantitat signiﬁcativa d’esforç humà.