Desarrollo de un Extractor de Información de la Web para Firefox

Adelantado Romero, Luis

Identificarse

Buscar en RiuNet

Listar

Todo RiuNet
Esta colección

Mi cuenta

Acceder

Estadísticas

Ver Estadísticas de uso

Ayuda RiuNet

Admin. UPV

Compartir/Enviar a

Citas

Estadísticas

Desarrollo de un Extractor de Información de la Web para Firefox

Mostrar el registro sencillo del ítem

Ficheros en el ítem

Nombre: Adelantado - ...

Tamaño: 2.974Mb

Formato: PDF

Abrir

dc.contributor.advisor	Silva Galiana, Josep Francesc	es_ES
dc.contributor.author	Adelantado Romero, Luis	es_ES
dc.date.accessioned	2018-10-17T16:14:59Z
dc.date.available	2018-10-17T16:14:59Z
dc.date.created	2018-09-19
dc.date.issued	2018-10-17	es_ES
dc.identifier.uri	http://hdl.handle.net/10251/110755
dc.description.abstract	[ES] La extracción del contenido web comprende un conjunto de técnicas que le permiten a un programa localizar los diversos componentes de una página web y extraer aquellos que puedan ser de utilidad u ocultar los que sean innecesarios. Hay diversas herramientas software que permiten hacer esto, como por ejemplo los bloqueadores de publicidad que le ocultan al usuario todos los mensajes publicitarios que le puedan resultar molestos. En la tienda de aplicaciones de Firefox hay varios add-ons que permiten realizar estas tareas. Lo que difiere de unas herramientas dedicadas a la extracción del contenido web a otras es, fundamentalmente, la manera de extraer el contenido. Hay herramientas que analizan el documento HTML en busca de patrones (HTML parsing) e incluso herramientas que intentan hacer uso de machine learning para interpretar una página web como lo hace un ser humano. En el caso de este proyecto trabajaremos con herramientas que analizan la estructura interna de una página accediendo al árbol DOM. A finales del año 2017 la fundación Mozilla lanzó una nueva versión del navegador que cambiaba completamente la manera de desarrollar estas extensiones. El objetivo de este proyecto consiste en la migración a esta nueva arquitectura de tres herramientas diferentes que extraen el contenido principal, el menú y la plantilla de una página web.	es_ES
dc.description.abstract	[EN] The extraction of web content includes a set of techniques that allow a program to locate the components of a web page and extract those that may be useful or hide those that are unnecessary. There are several software tools that allow the user to do it, such as advertising blockers that hide all advertising messages that may be annoying to the user. In the Firefox application store there are several add-ons that allow you to perform these tasks. What differs from some tools dedicated to the extraction of web content to others is, fundamentally, the way to extract the content. There are tools that analyze the HTML document in search of patterns (HTML parsing) and even tools that try to use machine learning to interpret a web page as a human being does. In the case of this project we will work with tools that analyze the internal structure of a page by accessing the DOM tree. At the end of 2017 the Mozilla Foundation launched a new version of the browser that completely changed the way to develop these extensions. The objective of this project consists of the migration to this new architecture of three different tools that extract the main content, the menu and the template of a web page	es_ES
dc.format.extent	52	es_ES
dc.language	Español	es_ES
dc.publisher	Universitat Politècnica de València	es_ES
dc.rights	Reconocimiento (by)	es_ES
dc.subject	Extracción de información	es_ES
dc.subject	Recuperación de información de la web	es_ES
dc.subject	Firefox.	es_ES
dc.subject	Páginas web	es_ES
dc.subject	Plugins	es_ES
dc.subject	HTML	es_ES
dc.subject	JavaScript	es_ES
dc.subject	Extracción de contenido	es_ES
dc.subject	Árbol DOM	es_ES
dc.subject	Web pages	es_ES
dc.subject	DOM tree	es_ES
dc.subject	Content extraction	es_ES
dc.subject.classification	LENGUAJES Y SISTEMAS INFORMATICOS	es_ES
dc.subject.other	Grado en Ingeniería Informática-Grau en Enginyeria Informàtica	es_ES
dc.title	Desarrollo de un Extractor de Información de la Web para Firefox	es_ES
dc.type	Proyecto/Trabajo fin de carrera/grado	es_ES
dc.rights.accessRights	Abierto	es_ES
dc.contributor.affiliation	Universitat Politècnica de València. Departamento de Sistemas Informáticos y Computación - Departament de Sistemes Informàtics i Computació	es_ES
dc.contributor.affiliation	Universitat Politècnica de València. Escola Tècnica Superior d'Enginyeria Informàtica	es_ES
dc.description.bibliographicCitation	Adelantado Romero, L. (2018). Desarrollo de un Extractor de Información de la Web para Firefox. http://hdl.handle.net/10251/110755	es_ES
dc.description.accrualMethod	TFGM	es_ES
dc.relation.pasarela	TFGM\75822	es_ES

Este ítem aparece en la(s) siguiente(s) colección(ones)

ETSINF - Trabajos académicos [5160]
Escola Tècnica Superior d'Enginyeria Informàtica

Mostrar el registro sencillo del ítem

Desarrollo de un Extractor de Información de la Web para Firefox

RiuNet: Repositorio Institucional de la Universidad Politécnica de Valencia

Buscar en RiuNet

Listar

Todo RiuNet

Esta colección

Mi cuenta

Estadísticas

Ayuda RiuNet

Admin. UPV

Compartir/Enviar a

Citas

Estadísticas

Desarrollo de un Extractor de Información de la Web para Firefox

Ficheros en el ítem

Este ítem aparece en la(s) siguiente(s) colección(ones)