Resumen:
|
[ES] En la actualidad, gracias a los avances de la tecnología, ha aumentado exponencialmente el número de documentos digitales en formato texto que se generan diariamente.
Estos documentos pueden llegar desde una gran ...[+]
[ES] En la actualidad, gracias a los avances de la tecnología, ha aumentado exponencialmente el número de documentos digitales en formato texto que se generan diariamente.
Estos documentos pueden llegar desde una gran diversidad de fuentes, tales como periódicos, blogs, redes sociales, etc. Todos estos documentos deben ser clasificados de modo
que se facilite el filtrado y búsqueda de información concreta entre toda la amalgama de
documentos de texto disponibles. Debido a la gran cantidad de documentos de texto generada, este proceso se debe realizar de manera automática, mediante el uso de algunos
de los distintos paradigmas de aprendizaje automático existentes.
Este trabajo se centrará en la clasificación de textos noticiarios provenientes de fuentes
periodísticas en castellano y catalán. En él se realiza un estudio de distintos modelos de
aprendizaje automático y métodos de extracción de características para texto, en el cual
se analiza como influye en el rendimiento del clasificador el uso de un cierto modelo de
aprendizaje automático en combinación con distintos métodos de extracción de características. Así mismo, se analiza el efecto obtenido en el comportamiento del clasificador al
elegir una u otra medida de rendimiento.
Para poder realizar el estudio de clasificación, se ha creado un proceso automático
de captura de noticias. Con él, se han creado dos corpus –uno para castellano y otro para
catalán– a partir de distintas fuentes periodísticas digitales.
[-]
[CA] En l’actualitat, gràcies als avanços de la tecnologia, ha augmentat exponencialment el
nombre de documents digitals en format text que es generen diàriament. Aquests documents poden arribar des d’una gran diversitat ...[+]
[CA] En l’actualitat, gràcies als avanços de la tecnologia, ha augmentat exponencialment el
nombre de documents digitals en format text que es generen diàriament. Aquests documents poden arribar des d’una gran diversitat de fonts, tals com periòdics, blogs, xarxes
socials, etc. Tots aquests documents han de ser classificats de manera que es facilite el
filtrat i cerca d’informació concreta entre tota l’amalgama de documents de text disponibles. A causa de la gran quantitat de documents de text generada, aquest procés s’ha
de realitzar de manera automàtica, mitjançant l’ús d’alguns dels diferents paradigmes
d’aprenentatge automàtic existents.
Aquest treball es centrarà en la classificació de textos noticiaris provinents de fonts
periodístiques en castellà i català. En ell es realitza un estudi de diferents models d’aprenentatge automàtic i mètodes d’extracció de característiques per a text, en el qual s’analitza com influeix en el rendiment del classificador l’ús d’un cert model d’aprenentatge
automàtic en combinació amb diferents mètodes d’extracció de característiques. Així
mateix, s’analitza l’efecte obtingut en el comportament del classificador en triar l’una o
l’altra mesura de rendiment.
Per a poder realitzar l’estudi de classificació, s’ha creat un procés automàtic de captura de notícies. Amb ell, s’han creat dos corpus –un per a castellà i un altre per a català– a
partir de diferents fonts periodístiques digitals
[-]
[EN] Nowadays, thanks to advances in technology, it has increased exponentially the number of digital documents in text format that are generated daily. These documents can
come from a great diversity of sources, such as ...[+]
[EN] Nowadays, thanks to advances in technology, it has increased exponentially the number of digital documents in text format that are generated daily. These documents can
come from a great diversity of sources, such as newspapers, blogs, social networks, etc.
All these documents must be classified in order to enhance filtering and searching for a
specific information among the entire amalgam of text documents available. Due to the
large amount of text documents generated, this process must be performed automatically,
by using some of the different existing machine learning paradigms.
This work will focus on the classification of news texts coming from Spanish journalistic sources that publish news written in Spanish and/or Catalan languages. It carries
out a study of different machine learning models and methods of feature extraction for
text, in which it is analysed how it influences the classifier performance using a certain
machine learning paradigm in combination with different feature extraction methods.
Moreover, it’s analysed the impact in the behaviour of the classifier when one or the
other metric is chosen.
In order to perform the study of the automatic classification, a web-crawler process
has been created for news capture. With it, two corpora have been created – one for
Spanish and one for Catalan – from different digital Spanish journalistic sources.
[-]
|