Resumen:
|
[ES] El volumen de información almacenada ha ido creciendo exponencialmente en los últimos años. En este contexto, en el que se calcula que cada 20 meses se duplica la cantidad de información almacenada, es necesario ...[+]
[ES] El volumen de información almacenada ha ido creciendo exponencialmente en los últimos años. En este contexto, en el que se calcula que cada 20 meses se duplica la cantidad de información almacenada, es necesario disponer de mecanismos que permitan no sólo almacenar y recuperar de una manera adecuada los datos, sino también procedimientos que nos permitan obtener conocimiento de estos datos, pasando estos a ser útiles.
La Minería de Datos trata de resolver este problema, siendo su objetivo extraer conocimiento de grandes volúmenes de datos [20], dándole sentido al hecho de almacenar toda la información posible y no eliminar prácticamente
nada.
Una de las tareas de la Minería de Datos es la clasificación, que originalmente se definió como la correspondencia existente entre un conjunto de patrones y una clase única. Posteriormente, se observó que existen multitud de casos en los que la restricción de una etiqueta por patrón no se cumple, por ejemplo, la clasificación de textos, imágenes, detección de spam, clasificación de sonidos, problemas de bioinformática y un largo etc. Aquí entra en juego la clasificación multi-etiqueta, que se define como el paradigma de clasificación en el que un patrón puede estar asociado con más de una clase. En algunos contextos, dichas etiquetas tienen relación entre sí, formando algún tipo de estructura. Dicho paradigma de clasificación es conocido como clasificación jerárquica a nivel genérico y clasificación jerárquica multi-etiqueta cuando se trata de problemas multi-etiqueta en los que existe una jerarquía de clases.
Un ejemplo de clasificación jerárquica multi-etiqueta es Wikipedia, donde los patrones tienen varias etiquetas asociadas y las clases forman una jerarquía.
En este trabajo se realiza un estudio de la clasificación jerárquica multi-etiqueta, se construyen datasets con datos obtenidos mediante la API Rest de Wikipedia y se propone una métrica de clasificación jerárquica que será testeada despues mediante experimentos de clasificación multi-etiqueta jerárquica.
[-]
|