[ES] La extracción del contenido web comprende un conjunto de técnicas que le permiten a
un programa localizar los diversos componentes de una página web y extraer aquellos que
puedan ser de utilidad u ocultar los que ...[+]
[ES] La extracción del contenido web comprende un conjunto de técnicas que le permiten a
un programa localizar los diversos componentes de una página web y extraer aquellos que
puedan ser de utilidad u ocultar los que sean innecesarios. Hay diversas herramientas software
que permiten hacer esto, como por ejemplo los bloqueadores de publicidad que le ocultan al
usuario todos los mensajes publicitarios que le puedan resultar molestos.
En la tienda de aplicaciones de Firefox hay varios add-ons que permiten realizar estas
tareas. Lo que difiere de unas herramientas dedicadas a la extracción del contenido web a otras
es, fundamentalmente, la manera de extraer el contenido. Hay herramientas que analizan el
documento HTML en busca de patrones (HTML parsing) e incluso herramientas que intentan
hacer uso de machine learning para interpretar una página web como lo hace un ser humano.
En el caso de este proyecto trabajaremos con herramientas que analizan la estructura interna
de una página accediendo al árbol DOM.
A finales del año 2017 la fundación Mozilla lanzó una nueva versión del navegador
que cambiaba completamente la manera de desarrollar estas extensiones. El objetivo de este
proyecto consiste en la migración a esta nueva arquitectura de tres herramientas diferentes que
extraen el contenido principal, el menú y la plantilla de una página web.
[-]
[EN] The extraction of web content includes a set of techniques that allow a program to
locate the components of a web page and extract those that may be useful or hide those that
are unnecessary. There are several ...[+]
[EN] The extraction of web content includes a set of techniques that allow a program to
locate the components of a web page and extract those that may be useful or hide those that
are unnecessary. There are several software tools that allow the user to do it, such as
advertising blockers that hide all advertising messages that may be annoying to the user.
In the Firefox application store there are several add-ons that allow you to perform
these tasks. What differs from some tools dedicated to the extraction of web content to others
is, fundamentally, the way to extract the content. There are tools that analyze the HTML
document in search of patterns (HTML parsing) and even tools that try to use machine
learning to interpret a web page as a human being does. In the case of this project we will
work with tools that analyze the internal structure of a page by accessing the DOM tree.
At the end of 2017 the Mozilla Foundation launched a new version of the browser that
completely changed the way to develop these extensions. The objective of this project consists
of the migration to this new architecture of three different tools that extract the main content,
the menu and the template of a web page
[-]
|