Traducció automàtica és un àrea de lingüística computacional que investiga l'ús de software per traduir text o veu en llenguatge natural cap a la seua representació en un idioma destí, també mitjançant llenguatge natural. En les últimes dècades hi ha hagut un fort impuls sobre la utilització de tècniques estadístiques per al desenvolupament de sistemes de traducció automàtica. Per a l'aplicació d'aquests mètodes sobre un parell de llengües en concret, es requereix la disponibilitat d'un corpus paral·lel per a aquest parell d'idiomes. L'atractiu d'aquestes tècniques és que el desenvolupament d'un sistema es fa sense cap necessitat de treball expert per banda d'especialistes en lingüística. Els models d'estats finits porten prou de temps emprant-se amb èxit en múltiples i variades disciplines dins la investigació científica aplicada al llenguatge natural, incloent el seu ús en traducció automàtica. Els models d'estats finits presenten una sèrie d'avantatges respecte a uns altres models estadístics, com ara una senzilla integració en entorns de reconeixement de veu, la seua aplicació en sistemes de traducció assistida, o la capacitat per processar la informació sense necessitat de que estiga completa, mitjançant una arquitectura basada en les populars cadenes de muntatge. L'objectiu de la investigació consisteix en l'estudi i l'explotació de les tècniques de traducció automàtica basades en models d'estats finits. El treball presentat en aquesta tesi és un anàlisi detallat de la metodologia GIATI per a l'aprenentatge de transductors estocàstics d'estats finits per a la seua aplicació eficaç i eficient com a models de traducció, permetent el seu ús sobre tasques de traducció amb un gran volum de dades. D'una banda, s'ha desenvolupat un conjunt de ferramentes software que implementen de manera eficient la metodologia GIATI, i que permeten, per tant, l'aprenentatge de l'estructura d'aquests models i l'estimació de les seues probabilitats, incloent mètodes de recerca per a la seua avaluació. A més a més, s'han inclòs diverses tècniques d'escalabilitat en el desenvolupament d'aquestes ferramentes que permeten l'ús d'un corpus paral·lel voluminós. D'altra banda, en l'actualitat l'estat de l'art en traducció automàtica estadística està basat en els així coneguts models basats en segments. La idea que subjau a aquests models s'ha integrat dins el nostre marc de treball, permetent la construcció de transductors basats en segments, la qualitat dels quals es contrasta positivament front als basats en paraules. La seua aplicació sobre GIATI ha fomentat l'ús d'estratègies de recerca eficients que han permès l'ús d'algorismes de suavitzat més eficaços. També hem adaptat les modernes tendències en modelatge log-lineal sobre aquesta tecnologia basada en transductors estocàstics d'estats finits. L'aproximació permet el refinament de les probabilitats de transició del model, de manera que les prestacions del sistema es veuen incrementades. Finalment, s'ha establert la infraestructura necessària per a una millor explotació dels recursos lingüístics disponibles. La seua repercussió implica una millor estimació dels models de traducció corresponents, gràcies a l'ús d'analitzadors morfològics en cada llengua implicada en el procés de traducció. La informació lingüística associada permet classificar les paraules en categories, reduint així la variabilitat dels corpus, obtenint uns models estadísticament més robustos després del procés d'aprenentatge. Els resultats mitjançant aquesta aproximació són una mica preliminars però serveixen per establir les bases d'una futura línia d'investigació post-doc sobre aquest tema.