Abstract:
|
[ES] La recolección de datos, también conocida como web scraping, es el proceso de recolectar información de sitios web de manera automática. Los sitios web dinámicos, caracterizados por su capacidad de actualizar el ...[+]
[ES] La recolección de datos, también conocida como web scraping, es el proceso de recolectar información de sitios web de manera automática. Los sitios web dinámicos, caracterizados por su capacidad de actualizar el contenido en tiempo real (AJAX), presentan desafíos únicos para la recolección de datos. La importancia de esta información para las personas, empresas e investigadores es fundamental, ya que se puede utilizar para una variedad de propósitos como el análisis de negocios, la investigación y para el uso personal, e incluso para el entrenamiento de Modelos del Lenguaje Grandes (LLM). Describimos la arquitectura, el diseño e implementación de una herramienta modular, extensible y open-source que hemos creado usando Python, Cython y la librería "Playwright", entre otras muchas librerías de Procesamiento del lenguaje natural (NLP), específicamente hecha para abordar estos retos, y evaluamos su rendimiento a través de experimentos y estudios de casos. Como parte de la reflexión, se concluirá discutiendo las posibles aplicaciones de los datos recolectados en estos sitios web dinámicos y las tendencias a futuro en este campo.
[-]
[EN] Data harvesting, also known as web scraping, is the process of collecting information from websites automatically. Dynamic websites, which are characterized by their ability to update content in real-time (AJAX), ...[+]
[EN] Data harvesting, also known as web scraping, is the process of collecting information from websites automatically. Dynamic websites, which are characterized by their ability to update content in real-time (AJAX), present unique challenges for data harvesting. The importance of this information for people, companies and researchers is paramount, as it can be used for a variety of purposes such as business intelligence, research and personal usage, and even for training Large Language Models (LLM). We describe the architecture, design, and implementation of a modular, extensible and open-source data harvesting tool that we have created using Python, Cython and the library "Playwright", among many other Natural Language Processing (NLP) libraries, specifically made to address these challenges, and whose performance we will evaluate through experiments and case studies. As part of the reflection about this tool, we will conclude by discussing the potential applications of data harvested from these dynamic websites and the future trends in this field.
[-]
[CA]La recol·lecció de dades, també coneguda com web scraping, és el procés de
recolectar informació de pàgines web de manera automàtica. Les pàgines web dinàmiques, caracteritzades per la seua capacitat d’actualitzar el ...[+]
[CA]La recol·lecció de dades, també coneguda com web scraping, és el procés de
recolectar informació de pàgines web de manera automàtica. Les pàgines web dinàmiques, caracteritzades per la seua capacitat d’actualitzar el contingut el temps
real (AJAX), presenten reptes únics per a la recol·lecció de dades.
La importància d’aquesta informació per a les persones, empreses i investigadors
és fundamental, ja que s’hi pot gastar en una gran varietat de propòsits com en
l’anàlisi de negòcis, l’investigació i l’ús personal, i fins i tot per a l’entrenament
de Models del Llenguatge Grans (LLM).
Describim l’arquitectura, el disseny i l’implementació de una ferramenta modular, extensible i open-source que hem creat amb l’ús de Python, Cython i la llibreria "Playwright", entre moltes altres llibreries de Processament del llenguatge
natural (NLP), específicament feta per abordar aquestos reptes, i evaluem el seu
rendiment a través d’experiments i estudis de casos.
Com a part de la reflexió, concluïrem discutint les possibles aplicacions de les
dades recolectades en aquestes pàgines web dinàmiques i les tendències a futur
d’aquest camp.
[-]
|