Resumen:
|
Word embeddings are word representations in the form of vectors that allow to maintain certain semantic information of the words.
There exist different ways of taking profit of the semantic information the words have, as ...[+]
Word embeddings are word representations in the form of vectors that allow to maintain certain semantic information of the words.
There exist different ways of taking profit of the semantic information the words have, as there exist different ways of generating the word vectors that represent those words (e.g. Word2Vec model vs. GloVe model). By using the semantic information the word embeddings capture, we can build approximations to compare semantic information between phrases or even documents instead of words. In this project, we propose the use of the GloVe tool, presented by Stanford University, to train Spanish word embeddings, use them to compare semantic differences between Spanish phrases and compare the accuracy of the system with prior results in which other models were used, for example, Word2Vec.
[-]
Los word embeddings son representaciones de palabras en forma de vector que permiten mantener cierta información semántica de estas.
Existen diferentes maneras de aprovechar la información semántica que las palabras tienen, ...[+]
Los word embeddings son representaciones de palabras en forma de vector que permiten mantener cierta información semántica de estas.
Existen diferentes maneras de aprovechar la información semántica que las palabras tienen, así como también existen diferentes maneras de generar los vectores de palabras que representan dichas palabras (por ejemplo, los modelos Word2Vec frente al modelo GloVe). Si se usa la información que los word embeddings capturan, se pueden construir aproximaciones para comparar información semántica entre frases o incluso documentos, en lugar de palabras. En este proyecto, proponemos el uso de la herramienta GloVe, presentada por la Universidad de Stanford, para entrenar representaciones vectoriales de palabras en español, así como su uso para comparar diferencias semánticas entre frases en español y comparar el rendimiento frente a resultados previos en los que otros modelos fueron utilizados, por ejemplo, Word2Vec.
[-]
|