Resumen:
|
[ES] La generación automática de resúmenes es un campo muy atractivo y vigente dentro
del área del procesamiento del lenguaje natural. Por esta razón, en este trabajo, se han
decidido analizar y comparar distintas técnicas ...[+]
[ES] La generación automática de resúmenes es un campo muy atractivo y vigente dentro
del área del procesamiento del lenguaje natural. Por esta razón, en este trabajo, se han
decidido analizar y comparar distintas técnicas para la generación automática de resúmenes tanto basadas en redes neuronales como basadas en algoritmos clásicos. Para la
evaluación de estas técnicas, se utilizan métricas sintácticas usadas en la mayoría de estudios de este campo y métricas semánticas propuestas en este mismo trabajo. Mediante
este estudio, se podrán observar las diferencias que existen entre las dos evaluaciones
comentadas anteriormente y la mejora que aporta la medida semántica propuesta.
Para la utilización de aproximaciones de resumen basadas en redes neuronales y para
la evaluación de todos los sistemas, se requiere un corpus de documentos y resúmenes.
Por este motivo, mediante un proceso de crawling, se ha elaborado un corpus de noticias
que provienen de distintos sitios web de prensa digital y para los idiomas de castellano
y catalán.
Finalmente, el trabajo contiene un extenso análisis de los resultados experimentales
obtenidos en los corpus. En este, se podrán observar las diferencias que existen entre las
noticias que contienen ambos corpus utilizando para ello distintas medidas. Además, se
compararán los corpus generados con otros corpus que forman parte del estado del arte.
[-]
[CA] La generació automàtica de resums és un camp molt atractiu i vigent dins de l’àrea
del processament del llenguatge natural. Per aquesta raó, en aquest treball, s’ha decidit
analitzar i comparar distintes tècniques ...[+]
[CA] La generació automàtica de resums és un camp molt atractiu i vigent dins de l’àrea
del processament del llenguatge natural. Per aquesta raó, en aquest treball, s’ha decidit
analitzar i comparar distintes tècniques per a la generació automàtica de resums, tant basades en xarxes neuronals com basades en algoritmes clàssics. Per a l’avaluació d’aquestes tècniques es fan servir mètriques sintàctiques utilitzades en la major part d’estudis
d’aquest camp i mètriques semàntiques propostes en aquest treball. Mitjançant aquest
estudi, es podran observar les diferències que existeixen entre les dues avaluacions comentades anteriorment i la millora que aporta la mesura semàntica proposta.
Per a l’ús d’aproximacions de resum basades en xarxes neuronals i per a l’avaluació
de tots els sistemes, es requereix un corpus de documents i resums. Per aquest motiu,
mitjançant un procés de crawling, s’ha elaborat un corpus de notícies que provenen de
distints llocs web de premsa digital i per als idiomes de castellà i català.
Finalment, el treball conté un extens anàlisi dels resultats experimentals obtinguts en
el corpus. En aquest es podran observar les diferències que existeixen entre les notícies
que contenen ambdós corpus emprant distintes mesures. A més, es compararan els corpus generats amb altres corpus que formen part del estat de l’art.
[-]
[EN] Automatic summary generation is a current and very attractive field in the area of
natural language processing. For this reason, in this work, it has been decided to analyse
and compare different techniques for ...[+]
[EN] Automatic summary generation is a current and very attractive field in the area of
natural language processing. For this reason, in this work, it has been decided to analyse
and compare different techniques for automatic abstract generation both based on neural net-work and based on classical algorithms. For the evaluation of these techniques,
syntactic metrics used in most studies of this field and semantic metrics proposed in this
work have been used. Through this study, differences between the two evaluations discussed above can be seen. Moreover, improvements introduces by the semantic measure
proposal are also presented.
For the use of summary approaches based on neural networks and for the evaluation
of all systems, a corpus of documents and summaries is required. For this reason, through
a crawling process, a corpus of news that come from different digital press websites has
been prepared in both Spanish and Catalan languages.
Finally, the work contains an extensive analysis of the experimental results obtained
with the corpus. In it, the existing differences between the news contained in both corpus
can be observed. At the same time, a comparison of the different measures has been
included. In addition, the generated corpus will be compared with other corpus that
take part of the state of the art.
[-]
|