- -

Creación de corpus de artículos de prensa y categorización de noticias

RiuNet: Repositorio Institucional de la Universidad Politécnica de Valencia

Compartir/Enviar a

Citas

Estadísticas

  • Estadisticas de Uso

Creación de corpus de artículos de prensa y categorización de noticias

Mostrar el registro sencillo del ítem

Ficheros en el ítem

dc.contributor.advisor Pla Santamaría, Ferran es_ES
dc.contributor.advisor Hurtado Oliver, Lluis Felip es_ES
dc.contributor.author Ahuir Esteve, Vicent es_ES
dc.date.accessioned 2019-10-08T10:25:52Z
dc.date.available 2019-10-08T10:25:52Z
dc.date.created 2019-09-18
dc.date.issued 2019-10-08 es_ES
dc.identifier.uri http://hdl.handle.net/10251/127714
dc.description.abstract [ES] En la actualidad, gracias a los avances de la tecnología, ha aumentado exponencialmente el número de documentos digitales en formato texto que se generan diariamente. Estos documentos pueden llegar desde una gran diversidad de fuentes, tales como periódicos, blogs, redes sociales, etc. Todos estos documentos deben ser clasificados de modo que se facilite el filtrado y búsqueda de información concreta entre toda la amalgama de documentos de texto disponibles. Debido a la gran cantidad de documentos de texto generada, este proceso se debe realizar de manera automática, mediante el uso de algunos de los distintos paradigmas de aprendizaje automático existentes. Este trabajo se centrará en la clasificación de textos noticiarios provenientes de fuentes periodísticas en castellano y catalán. En él se realiza un estudio de distintos modelos de aprendizaje automático y métodos de extracción de características para texto, en el cual se analiza como influye en el rendimiento del clasificador el uso de un cierto modelo de aprendizaje automático en combinación con distintos métodos de extracción de características. Así mismo, se analiza el efecto obtenido en el comportamiento del clasificador al elegir una u otra medida de rendimiento. Para poder realizar el estudio de clasificación, se ha creado un proceso automático de captura de noticias. Con él, se han creado dos corpus –uno para castellano y otro para catalán– a partir de distintas fuentes periodísticas digitales. es_ES
dc.description.abstract [CA] En l’actualitat, gràcies als avanços de la tecnologia, ha augmentat exponencialment el nombre de documents digitals en format text que es generen diàriament. Aquests documents poden arribar des d’una gran diversitat de fonts, tals com periòdics, blogs, xarxes socials, etc. Tots aquests documents han de ser classificats de manera que es facilite el filtrat i cerca d’informació concreta entre tota l’amalgama de documents de text disponibles. A causa de la gran quantitat de documents de text generada, aquest procés s’ha de realitzar de manera automàtica, mitjançant l’ús d’alguns dels diferents paradigmes d’aprenentatge automàtic existents. Aquest treball es centrarà en la classificació de textos noticiaris provinents de fonts periodístiques en castellà i català. En ell es realitza un estudi de diferents models d’aprenentatge automàtic i mètodes d’extracció de característiques per a text, en el qual s’analitza com influeix en el rendiment del classificador l’ús d’un cert model d’aprenentatge automàtic en combinació amb diferents mètodes d’extracció de característiques. Així mateix, s’analitza l’efecte obtingut en el comportament del classificador en triar l’una o l’altra mesura de rendiment. Per a poder realitzar l’estudi de classificació, s’ha creat un procés automàtic de captura de notícies. Amb ell, s’han creat dos corpus –un per a castellà i un altre per a català– a partir de diferents fonts periodístiques digitals es_ES
dc.description.abstract [EN] Nowadays, thanks to advances in technology, it has increased exponentially the number of digital documents in text format that are generated daily. These documents can come from a great diversity of sources, such as newspapers, blogs, social networks, etc. All these documents must be classified in order to enhance filtering and searching for a specific information among the entire amalgam of text documents available. Due to the large amount of text documents generated, this process must be performed automatically, by using some of the different existing machine learning paradigms. This work will focus on the classification of news texts coming from Spanish journalistic sources that publish news written in Spanish and/or Catalan languages. It carries out a study of different machine learning models and methods of feature extraction for text, in which it is analysed how it influences the classifier performance using a certain machine learning paradigm in combination with different feature extraction methods. Moreover, it’s analysed the impact in the behaviour of the classifier when one or the other metric is chosen. In order to perform the study of the automatic classification, a web-crawler process has been created for news capture. With it, two corpora have been created – one for Spanish and one for Catalan – from different digital Spanish journalistic sources. es_ES
dc.format.extent 117 es_ES
dc.language Español es_ES
dc.publisher Universitat Politècnica de València es_ES
dc.rights Reconocimiento - No comercial (by-nc) es_ES
dc.subject Corpus de noticias de prensa es_ES
dc.subject Web-crawling es_ES
dc.subject Clasificación automática de texto es_ES
dc.subject Aprendizaje automático es_ES
dc.subject Extracción de características es_ES
dc.subject Corpora of press news es_ES
dc.subject Automatic classification of text es_ES
dc.subject Machine learning es_ES
dc.subject Features extraction es_ES
dc.subject.classification LENGUAJES Y SISTEMAS INFORMATICOS es_ES
dc.subject.other Grado en Ingeniería Informática-Grau en Enginyeria Informàtica es_ES
dc.title Creación de corpus de artículos de prensa y categorización de noticias es_ES
dc.type Proyecto/Trabajo fin de carrera/grado es_ES
dc.rights.accessRights Abierto es_ES
dc.contributor.affiliation Universitat Politècnica de València. Departamento de Sistemas Informáticos y Computación - Departament de Sistemes Informàtics i Computació es_ES
dc.contributor.affiliation Universitat Politècnica de València. Escola Tècnica Superior d'Enginyeria Informàtica es_ES
dc.description.bibliographicCitation Ahuir Esteve, V. (2019). Creación de corpus de artículos de prensa y categorización de noticias. http://hdl.handle.net/10251/127714 es_ES
dc.description.accrualMethod TFGM es_ES
dc.relation.pasarela TFGM\110109 es_ES


Este ítem aparece en la(s) siguiente(s) colección(ones)

Mostrar el registro sencillo del ítem