Mostrar el registro sencillo del ítem
dc.contributor.advisor | Pla Santamaría, Ferran | es_ES |
dc.contributor.advisor | Hurtado Oliver, Lluis Felip | es_ES |
dc.contributor.author | Ahuir Esteve, Vicent | es_ES |
dc.date.accessioned | 2019-10-08T10:25:52Z | |
dc.date.available | 2019-10-08T10:25:52Z | |
dc.date.created | 2019-09-18 | |
dc.date.issued | 2019-10-08 | es_ES |
dc.identifier.uri | http://hdl.handle.net/10251/127714 | |
dc.description.abstract | [ES] En la actualidad, gracias a los avances de la tecnología, ha aumentado exponencialmente el número de documentos digitales en formato texto que se generan diariamente. Estos documentos pueden llegar desde una gran diversidad de fuentes, tales como periódicos, blogs, redes sociales, etc. Todos estos documentos deben ser clasificados de modo que se facilite el filtrado y búsqueda de información concreta entre toda la amalgama de documentos de texto disponibles. Debido a la gran cantidad de documentos de texto generada, este proceso se debe realizar de manera automática, mediante el uso de algunos de los distintos paradigmas de aprendizaje automático existentes. Este trabajo se centrará en la clasificación de textos noticiarios provenientes de fuentes periodísticas en castellano y catalán. En él se realiza un estudio de distintos modelos de aprendizaje automático y métodos de extracción de características para texto, en el cual se analiza como influye en el rendimiento del clasificador el uso de un cierto modelo de aprendizaje automático en combinación con distintos métodos de extracción de características. Así mismo, se analiza el efecto obtenido en el comportamiento del clasificador al elegir una u otra medida de rendimiento. Para poder realizar el estudio de clasificación, se ha creado un proceso automático de captura de noticias. Con él, se han creado dos corpus –uno para castellano y otro para catalán– a partir de distintas fuentes periodísticas digitales. | es_ES |
dc.description.abstract | [CA] En l’actualitat, gràcies als avanços de la tecnologia, ha augmentat exponencialment el nombre de documents digitals en format text que es generen diàriament. Aquests documents poden arribar des d’una gran diversitat de fonts, tals com periòdics, blogs, xarxes socials, etc. Tots aquests documents han de ser classificats de manera que es facilite el filtrat i cerca d’informació concreta entre tota l’amalgama de documents de text disponibles. A causa de la gran quantitat de documents de text generada, aquest procés s’ha de realitzar de manera automàtica, mitjançant l’ús d’alguns dels diferents paradigmes d’aprenentatge automàtic existents. Aquest treball es centrarà en la classificació de textos noticiaris provinents de fonts periodístiques en castellà i català. En ell es realitza un estudi de diferents models d’aprenentatge automàtic i mètodes d’extracció de característiques per a text, en el qual s’analitza com influeix en el rendiment del classificador l’ús d’un cert model d’aprenentatge automàtic en combinació amb diferents mètodes d’extracció de característiques. Així mateix, s’analitza l’efecte obtingut en el comportament del classificador en triar l’una o l’altra mesura de rendiment. Per a poder realitzar l’estudi de classificació, s’ha creat un procés automàtic de captura de notícies. Amb ell, s’han creat dos corpus –un per a castellà i un altre per a català– a partir de diferents fonts periodístiques digitals | es_ES |
dc.description.abstract | [EN] Nowadays, thanks to advances in technology, it has increased exponentially the number of digital documents in text format that are generated daily. These documents can come from a great diversity of sources, such as newspapers, blogs, social networks, etc. All these documents must be classified in order to enhance filtering and searching for a specific information among the entire amalgam of text documents available. Due to the large amount of text documents generated, this process must be performed automatically, by using some of the different existing machine learning paradigms. This work will focus on the classification of news texts coming from Spanish journalistic sources that publish news written in Spanish and/or Catalan languages. It carries out a study of different machine learning models and methods of feature extraction for text, in which it is analysed how it influences the classifier performance using a certain machine learning paradigm in combination with different feature extraction methods. Moreover, it’s analysed the impact in the behaviour of the classifier when one or the other metric is chosen. In order to perform the study of the automatic classification, a web-crawler process has been created for news capture. With it, two corpora have been created – one for Spanish and one for Catalan – from different digital Spanish journalistic sources. | es_ES |
dc.format.extent | 117 | es_ES |
dc.language | Español | es_ES |
dc.publisher | Universitat Politècnica de València | es_ES |
dc.rights | Reconocimiento - No comercial (by-nc) | es_ES |
dc.subject | Corpus de noticias de prensa | es_ES |
dc.subject | Web-crawling | es_ES |
dc.subject | Clasificación automática de texto | es_ES |
dc.subject | Aprendizaje automático | es_ES |
dc.subject | Extracción de características | es_ES |
dc.subject | Corpora of press news | es_ES |
dc.subject | Automatic classification of text | es_ES |
dc.subject | Machine learning | es_ES |
dc.subject | Features extraction | es_ES |
dc.subject.classification | LENGUAJES Y SISTEMAS INFORMATICOS | es_ES |
dc.subject.other | Grado en Ingeniería Informática-Grau en Enginyeria Informàtica | es_ES |
dc.title | Creación de corpus de artículos de prensa y categorización de noticias | es_ES |
dc.type | Proyecto/Trabajo fin de carrera/grado | es_ES |
dc.rights.accessRights | Abierto | es_ES |
dc.contributor.affiliation | Universitat Politècnica de València. Departamento de Sistemas Informáticos y Computación - Departament de Sistemes Informàtics i Computació | es_ES |
dc.contributor.affiliation | Universitat Politècnica de València. Escola Tècnica Superior d'Enginyeria Informàtica | es_ES |
dc.description.bibliographicCitation | Ahuir Esteve, V. (2019). Creación de corpus de artículos de prensa y categorización de noticias. http://hdl.handle.net/10251/127714 | es_ES |
dc.description.accrualMethod | TFGM | es_ES |
dc.relation.pasarela | TFGM\110109 | es_ES |