Abstract:
|
[EN] A paraphrase is a restatement of the meaning of a text or passage using other words. There are many applications of paraphrasing like rewording texts while writing, giving alternative translations for a target sentence, ...[+]
[EN] A paraphrase is a restatement of the meaning of a text or passage using other words. There are many applications of paraphrasing like rewording texts while writing, giving alternative translations for a target sentence, identifying similar sentences, getting synonyms or expanding search queries to match additional information. In order to help all those applications, the aim of the project is to build a system that can provide paraphrases of a given phrase. To build that system, we will explore different state-of-the-art techniques based on neural networks, and more specifically, inspired by neural machine translation recent work. Firstly, we will perform an unsupervised task that focuses in the generation of sentence embeddings (vectors of real numbers) representing semantic information in a continuous space. To generate sentence embeddings we will use large corpora, with millions of sentences of of public available books or subtitles of TV series, films and documentaries. Then, the embeddings will be tested in terms of semantic relatedness (what degree of similarity two sentences have) and paraphrase identification (if two sentences are paraphrases). Finally, we will build a paraphrase generation model using these embeddings to improve its performance.
[-]
[ES] Entenem com a paràfrasi l'acte de reescriure un text amb paraules diferents mantenint el seu significat. Hi podem trobar moltes aplicacions de la paràfrasi tals com reescriure paraules mentre s'escriu una text, ...[+]
[ES] Entenem com a paràfrasi l'acte de reescriure un text amb paraules diferents mantenint el seu significat. Hi podem trobar moltes aplicacions de la paràfrasi tals com reescriure paraules mentre s'escriu una text, proporcionar traduccions alternatives per a una frase objectiu, identificar frase similars, obtenir sinònims o expandint consultes de cerca per a trobar més informació. Amb l'objectiu d'ajudar a totes aquestes aplicacions, l'objectiu del projecte és construir un sistema que proporcione paràfrasis a partir d'una frase donada. Per a construir aquest sistema, explorarem diferents tècniques de l'estat de l'art basades en xarxes neuronals, més concretament, inspirades en traducció automàtica neuronal. Primerament realitzarem una tasca no supervisada que es centrarà en la generació d'embeddings de frases (vectors de nombres reals) que representen la informació semàntica en un espai continuu. Per a generar aquests embeddings usarem corpus de gran tamany, amb milions de frases de llibres públics o de subtítols de series de televisió, pel·lícules i documentals. Després aquests embeddings seran provats en tasques sobre relació semàntica (quin grau de similitud tenen dues frases) i identificació de paràfrasi (si dues frases són paràfrasi). Finalment, construirem un sistema de generació de paràfrasi usant aquests embeddings per a millorar el seu rendiment.
[-]
|