La detecció automàtica de text reutilitzat consisteix a determinar si un text ha estat produït considerant-ne un altre com a font. El plagi, la reutilització de text sense citar-ne l'autor, és potser el tipus de text reutilitzat mées famóos. Els casos de plagi han incrementat considerablement en els últims anys, en part, a causa de la facilitat amb què es pot accedir a la informació a través de mitjans electrònics. Això ha fet que experts en anàlisi de textos parin atenció a aquest fenomen. Basant-se en tecnologies de processament del llenguatge natural i recuperació d'informació, els mètodes de detecció automàtica de text reutilitzat comparen milers de documents, a la recerca de la possible font d'un text presumiblement reutilitzat. Quan es volen trobar casos de reutilització entre llengües diferents, es poden utilitzar tècniques de traducció automàtica. Gràcies a tota aquesta tecnologia, és possible realitzar milers de comparacions exhaustives, fins i tot entre documents en llengües diferents, cosa impossible de dur a terme manualment. En aquesta tesi ens centrem principalment en tres tipus de reutilització: (i) reutilització de text entre llengües diferents, (ii) reutilització de text amb paràfrasis, i (iii) reutilització monolingüe i entre llengües a dins i des de la Wikipedia. En el cas de la reutilització de text entre llengües, proposem un model per mesurar la similitud entre textos basat en traducció automàtica estadística. El model es compara de manera exhaustiva amb altres models disponibles actualment. Aquesta comparació mostra que és una de les millors opcions per tractar aquells casos en què es busquen traduccions exactes, sense tenir importància si aquestes han estat generades automàticament o manual. En el cas de la reutilització de text amb paràfrasis, que constitueixen el nucli del plagi, investiguem els tipus de paràfrasi que són més difícils de detectar pels sistemes. L'anàlisi de la detecció de plagi des de la perspectiva de la paràfrasi és pionera, en el sentit que mai abans s'havia dut a terme. Dels resultats del nostre treball, destaca el fet que les estratègies de paràfrasi més utilitzades són els canvis lèxics. Això caldria tenir-ho en compte en la creació de la propera generació de detectors de plagi. Finalment, explorem la Wikipedia com un entorn on interactuen infinitat d'autors; on els continguts són reutilitzats en la generació de noves versions d'un article i també salten d'una llengua a una altra. La nostra anàlisi del plurilingüisme mostra que aquelles Wikipedies en llengües amb menys recursos tendeixen a estar més ben enllaçades amb les altres. També investiguem fins a quin punt és factible extreure fragments paral·lels de la Wikipedia amb l'objectiu de (i) detectar casos de reutilització entre llengües a l'enciclopèdia i (ii) enriquir el nostre model per tal de poder mesurar la similitud de textos en diferents llengües. Amb l'objectiu de provar els nostres models empíricament, fem milions de comparacions, tant monolingües com entre llengües, basant-nos en diverses tècniques de representació i mesures de similitud. En molts casos, els nostres experiments es realitzen considerant corpus desenvolupats per nosaltres mateixos, els quals estan ja disponibles de manera gratuïta per a qualsevol investigador interessat.