Resumen:
|
[ES] En el presente proyecto se proponen, evalúan y estudian soluciones basadas en
representaciones vectoriales continuas y discretas de palabras y frases a algunos de los problemas
más significativos del descubrimiento ...[+]
[ES] En el presente proyecto se proponen, evalúan y estudian soluciones basadas en
representaciones vectoriales continuas y discretas de palabras y frases a algunos de los problemas
más significativos del descubrimiento automático de conocimiento aplicado al lenguaje natural y
en general a lenguajes formales. Entre estos problemas destacan la detección de temática,
identificación de idioma, análisis de sentimiento y detección de malware.
Además, debido a la complejidad que supone el aprendizaje y la utilización de dichas
representaciones vectoriales, se ha desarrollado un sistema que facilita las tareas de evaluación,
preprocesamiento, extracción de características y visualización de resultados; generalizando los
aspectos comunes a todos los problemas abordados.
Destacamos, también, los buenos resultados obtenidos mediante el empleo de las
representaciones mencionadas sobre el problema de detección de temática, que constituye el
principal problema del proyecto, superando los mejores resultados conocidos, haciendo uso del
mismo corpus, que han sido cosechados por investigadores de la Universidad Politécnica de
Madrid.
[-]
[EN] In this project, solutions based on continuous and discrete vector representations of word and
sentences are proposed, evaluated and studied by using them in some of the most significant
problems in automatic knowledge ...[+]
[EN] In this project, solutions based on continuous and discrete vector representations of word and
sentences are proposed, evaluated and studied by using them in some of the most significant
problems in automatic knowledge discovery applied to natural language and generally to formal
languages. Among these problems, we highlight topic detection, language identification,
sentiment analysis and malware detection.
Furthermore, due to the complexity of learning and use of vector representations, a system
that facilitates evaluation tasks, preprocessing, feature extraction and results display has been
developed; generalizing this way the common aspects to all the addressed problems.
We highlight too the good results obtained by means of using these representations on topic
detection, which is the main problem of the project, surpassing the best known results that have
been reached by Polytechnic University of Madrid researchers which uses the same corpus.
[-]
[CA] En el present projecte es proposen, avaluen i estudien solucions basades en representacions
vectorials contínues i discretes de paraules i frases a alguns dels problemes més significatius del
descobriment automàtic ...[+]
[CA] En el present projecte es proposen, avaluen i estudien solucions basades en representacions
vectorials contínues i discretes de paraules i frases a alguns dels problemes més significatius del
descobriment automàtic de coneixement aplicat al llenguatge natural i en general a llenguatges
formals. Entre aquests problemes destaquem la detecció de temàtica, identificació d’idiomes,
anàlisi de sentiment i detecció de malware.
A més, a causa de la complexitat que suposa l’aprenentatge i la utilització d’aquestes
representacions vectorials, s’ha implementat un sistema que facilita les tasques d’avaluació,
preprocessament, extracció de característiques i visualització de resultats; generalitzant els
aspectes en comú a tots els problemes abordats.
Destaquem, també, els bons resultats obtinguts mitjançant l’ús d’aquestes representacions en
el problema de detecció de temàtica, que constitueix el principal problema del projecte i se
superen els millors resultats coneguts, fent ús del mateix corpus, que han sigut aconseguits per
investigadors de la Universitat Politècnica de Madrid.
[-]
|