Mostrar el registro sencillo del ítem
dc.contributor.advisor | Silva Galiana, Josep Francesc | es_ES |
dc.contributor.author | Adelantado Romero, Luis | es_ES |
dc.date.accessioned | 2018-10-17T16:14:59Z | |
dc.date.available | 2018-10-17T16:14:59Z | |
dc.date.created | 2018-09-19 | |
dc.date.issued | 2018-10-17 | es_ES |
dc.identifier.uri | http://hdl.handle.net/10251/110755 | |
dc.description.abstract | [ES] La extracción del contenido web comprende un conjunto de técnicas que le permiten a un programa localizar los diversos componentes de una página web y extraer aquellos que puedan ser de utilidad u ocultar los que sean innecesarios. Hay diversas herramientas software que permiten hacer esto, como por ejemplo los bloqueadores de publicidad que le ocultan al usuario todos los mensajes publicitarios que le puedan resultar molestos. En la tienda de aplicaciones de Firefox hay varios add-ons que permiten realizar estas tareas. Lo que difiere de unas herramientas dedicadas a la extracción del contenido web a otras es, fundamentalmente, la manera de extraer el contenido. Hay herramientas que analizan el documento HTML en busca de patrones (HTML parsing) e incluso herramientas que intentan hacer uso de machine learning para interpretar una página web como lo hace un ser humano. En el caso de este proyecto trabajaremos con herramientas que analizan la estructura interna de una página accediendo al árbol DOM. A finales del año 2017 la fundación Mozilla lanzó una nueva versión del navegador que cambiaba completamente la manera de desarrollar estas extensiones. El objetivo de este proyecto consiste en la migración a esta nueva arquitectura de tres herramientas diferentes que extraen el contenido principal, el menú y la plantilla de una página web. | es_ES |
dc.description.abstract | [EN] The extraction of web content includes a set of techniques that allow a program to locate the components of a web page and extract those that may be useful or hide those that are unnecessary. There are several software tools that allow the user to do it, such as advertising blockers that hide all advertising messages that may be annoying to the user. In the Firefox application store there are several add-ons that allow you to perform these tasks. What differs from some tools dedicated to the extraction of web content to others is, fundamentally, the way to extract the content. There are tools that analyze the HTML document in search of patterns (HTML parsing) and even tools that try to use machine learning to interpret a web page as a human being does. In the case of this project we will work with tools that analyze the internal structure of a page by accessing the DOM tree. At the end of 2017 the Mozilla Foundation launched a new version of the browser that completely changed the way to develop these extensions. The objective of this project consists of the migration to this new architecture of three different tools that extract the main content, the menu and the template of a web page | es_ES |
dc.format.extent | 52 | es_ES |
dc.language | Español | es_ES |
dc.publisher | Universitat Politècnica de València | es_ES |
dc.rights | Reconocimiento (by) | es_ES |
dc.subject | Extracción de información | es_ES |
dc.subject | Recuperación de información de la web | es_ES |
dc.subject | Firefox. | es_ES |
dc.subject | Páginas web | es_ES |
dc.subject | Plugins | es_ES |
dc.subject | HTML | es_ES |
dc.subject | JavaScript | es_ES |
dc.subject | Extracción de contenido | es_ES |
dc.subject | Árbol DOM | es_ES |
dc.subject | Web pages | es_ES |
dc.subject | DOM tree | es_ES |
dc.subject | Content extraction | es_ES |
dc.subject.classification | LENGUAJES Y SISTEMAS INFORMATICOS | es_ES |
dc.subject.other | Grado en Ingeniería Informática-Grau en Enginyeria Informàtica | es_ES |
dc.title | Desarrollo de un Extractor de Información de la Web para Firefox | es_ES |
dc.type | Proyecto/Trabajo fin de carrera/grado | es_ES |
dc.rights.accessRights | Abierto | es_ES |
dc.contributor.affiliation | Universitat Politècnica de València. Departamento de Sistemas Informáticos y Computación - Departament de Sistemes Informàtics i Computació | es_ES |
dc.contributor.affiliation | Universitat Politècnica de València. Escola Tècnica Superior d'Enginyeria Informàtica | es_ES |
dc.description.bibliographicCitation | Adelantado Romero, L. (2018). Desarrollo de un Extractor de Información de la Web para Firefox. http://hdl.handle.net/10251/110755 | es_ES |
dc.description.accrualMethod | TFGM | es_ES |
dc.relation.pasarela | TFGM\75822 | es_ES |