- -

Desarrollo de un Extractor de Información de la Web para Firefox

RiuNet: Institutional repository of the Polithecnic University of Valencia

Share/Send to

Cited by

Statistics

Desarrollo de un Extractor de Información de la Web para Firefox

Show simple item record

Files in this item

dc.contributor.advisor Silva Galiana, Josep Francesc es_ES
dc.contributor.author Adelantado Romero, Luis es_ES
dc.date.accessioned 2018-10-17T16:14:59Z
dc.date.available 2018-10-17T16:14:59Z
dc.date.created 2018-09-19
dc.date.issued 2018-10-17 es_ES
dc.identifier.uri http://hdl.handle.net/10251/110755
dc.description.abstract [ES] La extracción del contenido web comprende un conjunto de técnicas que le permiten a un programa localizar los diversos componentes de una página web y extraer aquellos que puedan ser de utilidad u ocultar los que sean innecesarios. Hay diversas herramientas software que permiten hacer esto, como por ejemplo los bloqueadores de publicidad que le ocultan al usuario todos los mensajes publicitarios que le puedan resultar molestos. En la tienda de aplicaciones de Firefox hay varios add-ons que permiten realizar estas tareas. Lo que difiere de unas herramientas dedicadas a la extracción del contenido web a otras es, fundamentalmente, la manera de extraer el contenido. Hay herramientas que analizan el documento HTML en busca de patrones (HTML parsing) e incluso herramientas que intentan hacer uso de machine learning para interpretar una página web como lo hace un ser humano. En el caso de este proyecto trabajaremos con herramientas que analizan la estructura interna de una página accediendo al árbol DOM. A finales del año 2017 la fundación Mozilla lanzó una nueva versión del navegador que cambiaba completamente la manera de desarrollar estas extensiones. El objetivo de este proyecto consiste en la migración a esta nueva arquitectura de tres herramientas diferentes que extraen el contenido principal, el menú y la plantilla de una página web. es_ES
dc.description.abstract [EN] The extraction of web content includes a set of techniques that allow a program to locate the components of a web page and extract those that may be useful or hide those that are unnecessary. There are several software tools that allow the user to do it, such as advertising blockers that hide all advertising messages that may be annoying to the user. In the Firefox application store there are several add-ons that allow you to perform these tasks. What differs from some tools dedicated to the extraction of web content to others is, fundamentally, the way to extract the content. There are tools that analyze the HTML document in search of patterns (HTML parsing) and even tools that try to use machine learning to interpret a web page as a human being does. In the case of this project we will work with tools that analyze the internal structure of a page by accessing the DOM tree. At the end of 2017 the Mozilla Foundation launched a new version of the browser that completely changed the way to develop these extensions. The objective of this project consists of the migration to this new architecture of three different tools that extract the main content, the menu and the template of a web page es_ES
dc.format.extent 52 es_ES
dc.language Español es_ES
dc.publisher Universitat Politècnica de València es_ES
dc.rights Reconocimiento (by) es_ES
dc.subject Extracción de información es_ES
dc.subject Recuperación de información de la web es_ES
dc.subject Firefox. es_ES
dc.subject Página web es_ES
dc.subject Plugin es_ES
dc.subject HTML es_ES
dc.subject JavaScript es_ES
dc.subject Extracción de contenido es_ES
dc.subject Árbol DOM es_ES
dc.subject Web page es_ES
dc.subject DOM tree es_ES
dc.subject Content extraction es_ES
dc.subject.classification LENGUAJES Y SISTEMAS INFORMATICOS es_ES
dc.subject.other Grado en Ingeniería Informática-Grau en Enginyeria Informàtica es_ES
dc.title Desarrollo de un Extractor de Información de la Web para Firefox es_ES
dc.type Proyecto/Trabajo fin de carrera/grado es_ES
dc.rights.accessRights Abierto es_ES
dc.contributor.affiliation Universitat Politècnica de València. Departamento de Sistemas Informáticos y Computación - Departament de Sistemes Informàtics i Computació es_ES
dc.contributor.affiliation Universitat Politècnica de València. Escola Tècnica Superior d'Enginyeria Informàtica es_ES
dc.description.bibliographicCitation Adelantado Romero, L. (2018). Desarrollo de un Extractor de Información de la Web para Firefox. http://hdl.handle.net/10251/110755 es_ES
dc.description.accrualMethod TFGM es_ES
dc.relation.pasarela TFGM\75822 es_ES


This item appears in the following Collection(s)

Show simple item record