Resumen:
|
[ES] Tomando como punto de partida diferentes publicaciones periodísticas digitales, el objetivo principal de este trabajo es desarrollar un sistema que permita la detección de noticias comunes a alguno de ellos en un ...[+]
[ES] Tomando como punto de partida diferentes publicaciones periodísticas digitales, el objetivo principal de este trabajo es desarrollar un sistema que permita la detección de noticias comunes a alguno de ellos en un intervalo de tiempo fijado. Es decir, dado un rango de fechas concreto, se pretende hacer un proceso de crawling de diferentes fuentes periodísticas digitales y detectar agrupamientos de noticias. El agrupamiento se realizará atendiendo a similitudes semánticas basadas en técnicas de Procesamiento de Lenguaje Natural. Se pretende detectar el conjunto de noticias comunes entre fuentes. Finalmente, a partir de este conjunto común, se realizará un análisis comparativo de los diferentes tratamientos de las noticias. Para el desarrollo del trabajo se requerirá abordar diversas tareas de Procesamiento de Lenguaje Natural como, entre otras, el Reconocimiento de Entidades Nombradas, la representación vectorial de textos y la aplicación de técnicas de similitud semántica.
Este trabajo se enmarca en un proyecto de investigación del Ministerio de Ciencia e Innovación (BEWORD-UPV: Descubriendo el significado y la intención más allá de la palabra hablada: hacia un entorno inteligente, PID2021-126061OB-C41) consistente en mejorar la capacidad de los sistemas autónomos para procesar información recopilada de fuentes de naturaleza muy diversa.
[-]
[EN] Taking different digital journalistic publications as a starting point, the main objective of this work is to develop a system that allows the detection of news common to any of them in a fixed interval of time. That ...[+]
[EN] Taking different digital journalistic publications as a starting point, the main objective of this work is to develop a system that allows the detection of news common to any of them in a fixed interval of time. That is, given a specific date range, it is intended to carry out a crawling process of different digital journalistic sources and detect clustering of news. The clustering process will be carried out according to semantic similarities based on Natural Language Processing techniques. It is intended to detect the set of common news among sources. Finally, from this common set, a comparative analysis of the different treatments of the news will be carried out. For the development of the work, it will be necessary to address various Natural Language Processing tasks such as, among others, Named Entities Recognition, the vectorial representation of texts and the application of semantic similarity techniques.
This work is part of a research project of the Ministerio de Ciencia e Innovación (BEWORD-UPV: Descubriendo el significado y la intención más allá de la palabra hablada: hacia un entorno inteligente, PID2021-126061OB-C41), consisting of improving the capacity of autonomous systems to process information collected from very diverse sources.
[-]
|