El processament del llenguatge natural és una àrea de la intel·ligència
artificial, particularment, del reconeixement de formes. És un camp
multidisciplinar que estudia el llenguatge humà, tant oral com escrit. S'ocupa
de la formulació i investigació de mecanismes computacionals per a la
comunicació entre persones i ordinadors, mitjançant llenguatges naturals. És una
àrea d'investigació en continu desenvolupament, i aquest treball és focalitza
únicament en la part relacionada amb el modelat del llenguatge, i la seua
aplicació a diverses tasques: reconeixement/comprensió de seqüències i traducció
automàtica estadística.

Concretament, aquesta tesis té el seu fil conductor en els anomenats models
conexionistes de llenguatge, es a dir, models de llenguatge basats en xarxes
neuronals. Els bons resultats d'aquestos models en diverses àrees del
processament del llenguatge natural ha motivat el desenvolupament d'aquest
estudi.

Degut a determinats problemes computacionals que patixen els models
conexionistes de llenguatge, els sistemes que poden trobar-se a la literatura és
construeixen en dues etapes totalment desacoblades. En la primera fase es
genera, mitjançant un model estàndard de llenguatge, un conjunt d'hipòtesis
factibles, assumint que l'anomenat conjunt és representatiu de l'espai de
recerca on pot trobar-se la millor de les hipòtesis. En segon lloc, s'utilitza
el model conexionista de llenguatge i és cerca la hipòtesis amb millor puntuació
dintre de l'anterior conjunt. Aquest procediment s'anomena repuntuació de les
millors hipòtesis o "rescoring" si fem ús del terme anglès.

Aquest escenari motiva els objectius científics principals d'aquesta tesis:

- Proposar tècniques per a reduir dràsticament el cost computacional dels models
  conexionistes de llenguatge perdent el mínim possible de qualitat en la
  solució trobada.

- Estudiar l'efecte que té la integració dels models conexionistes de llenguatge
  en el procés de cerca a les tasques proposades.

- Proposar modificacions i variacions del model original que puguen permetre
  millorar la qualitat dels resultats i l'adaptació al domini.

- Utilitzar els models conexionistes de llenguatge en tasques de reconeixement
  de seqüències i traducció automàtica.

Tots els algorismes necessaris per al desenvolupament d'aquesta tesis han sigut
implementats en C++ i el llenguatge de "scripting" Lua. Tanmateix, han sigut
comparades aquestes implementacions amb altres reconegudes com estàndard a les
tasques abordades. Pel que fa als resultats, la incorporació dels models
conexionistes de llenguatge en les citades tasques ha assolit millores àmplies
respecte al sistema de referència desenvolupat:

- resultats competitius en una tasca de reconeixement i comprensió automàtica de
  la parla;

- millora de l'estat de l'art en reconeixement d'escriptura manuscrita;

- resultats al nivell de l'estat de l'art en traducció automàtica estadística,
  com mostra el posicionament dels sistemes presentats a avaluacions
  internacionals.

La integració d'aquestos models en el procés de cerca per a tasques de
reconeixement de seqüències ha sigut competitiu a nivell de cost
computacional. Malgrat això, la integració en tasques de traducció automàtica
necessita un desenvolupament més profund, ja que a nivell computacional el cost
del sistema continua sent una mica elevat.