Web Data Scraper

Prieto Roig, Ausiàs

Identificarse

Buscar en RiuNet

Listar

Todo RiuNet
Esta colección

Mi cuenta

Acceder

Estadísticas

Ver Estadísticas de uso

Ayuda RiuNet

Admin. UPV

Compartir/Enviar a

Citas

Estadísticas

Web Data Scraper

Mostrar el registro sencillo del ítem

Ficheros en el ítem

Nombre: Prieto - Web Data ...

Tamaño: 2.126Mb

Formato: PDF

Abrir

dc.contributor.advisor	Hurtado Oliver, Lluis Felip	es_ES
dc.contributor.advisor	Segarra Soriano, Encarnación	es_ES
dc.contributor.author	Prieto Roig, Ausiàs	es_ES
dc.date.accessioned	2023-09-19T10:44:57Z
dc.date.available	2023-09-19T10:44:57Z
dc.date.created	2023-07-17
dc.date.issued	2023-09-19	es_ES
dc.identifier.uri	http://hdl.handle.net/10251/196744
dc.description.abstract	[ES] La recolección de datos, también conocida como web scraping, es el proceso de recolectar información de sitios web de manera automática. Los sitios web dinámicos, caracterizados por su capacidad de actualizar el contenido en tiempo real (AJAX), presentan desafíos únicos para la recolección de datos. La importancia de esta información para las personas, empresas e investigadores es fundamental, ya que se puede utilizar para una variedad de propósitos como el análisis de negocios, la investigación y para el uso personal, e incluso para el entrenamiento de Modelos del Lenguaje Grandes (LLM). Describimos la arquitectura, el diseño e implementación de una herramienta modular, extensible y open-source que hemos creado usando Python, Cython y la librería "Playwright", entre otras muchas librerías de Procesamiento del lenguaje natural (NLP), específicamente hecha para abordar estos retos, y evaluamos su rendimiento a través de experimentos y estudios de casos. Como parte de la reflexión, se concluirá discutiendo las posibles aplicaciones de los datos recolectados en estos sitios web dinámicos y las tendencias a futuro en este campo.	es_ES
dc.description.abstract	[EN] Data harvesting, also known as web scraping, is the process of collecting information from websites automatically. Dynamic websites, which are characterized by their ability to update content in real-time (AJAX), present unique challenges for data harvesting. The importance of this information for people, companies and researchers is paramount, as it can be used for a variety of purposes such as business intelligence, research and personal usage, and even for training Large Language Models (LLM). We describe the architecture, design, and implementation of a modular, extensible and open-source data harvesting tool that we have created using Python, Cython and the library "Playwright", among many other Natural Language Processing (NLP) libraries, specifically made to address these challenges, and whose performance we will evaluate through experiments and case studies. As part of the reflection about this tool, we will conclude by discussing the potential applications of data harvested from these dynamic websites and the future trends in this field.	es_ES
dc.description.abstract	[CA]La recol·lecció de dades, també coneguda com web scraping, és el procés de recolectar informació de pàgines web de manera automàtica. Les pàgines web dinàmiques, caracteritzades per la seua capacitat d’actualitzar el contingut el temps real (AJAX), presenten reptes únics per a la recol·lecció de dades. La importància d’aquesta informació per a les persones, empreses i investigadors és fundamental, ja que s’hi pot gastar en una gran varietat de propòsits com en l’anàlisi de negòcis, l’investigació i l’ús personal, i fins i tot per a l’entrenament de Models del Llenguatge Grans (LLM). Describim l’arquitectura, el disseny i l’implementació de una ferramenta modular, extensible i open-source que hem creat amb l’ús de Python, Cython i la llibreria "Playwright", entre moltes altres llibreries de Processament del llenguatge natural (NLP), específicament feta per abordar aquestos reptes, i evaluem el seu rendiment a través d’experiments i estudis de casos. Com a part de la reflexió, concluïrem discutint les possibles aplicacions de les dades recolectades en aquestes pàgines web dinàmiques i les tendències a futur d’aquest camp.	es_ES
dc.format.extent	65	es_ES
dc.language	Inglés	es_ES
dc.publisher	Universitat Politècnica de València	es_ES
dc.rights	Reconocimiento (by)	es_ES
dc.subject	Extracción de información	es_ES
dc.subject	Scraping	es_ES
dc.subject	Crawling	es_ES
dc.subject	Páginas web dinámicas	es_ES
dc.subject	AJAX	es_ES
dc.subject	Playwright	es_ES
dc.subject	Data harvesting	es_ES
dc.subject	Open-source	es_ES
dc.subject	Python	es_ES
dc.subject	NLP	es_ES
dc.subject	Information Extraction	es_ES
dc.subject	Dynamic websites	es_ES
dc.subject.classification	LENGUAJES Y SISTEMAS INFORMATICOS	es_ES
dc.subject.other	Grado en Ingeniería Informática-Grau en Enginyeria Informàtica	es_ES
dc.title	Web Data Scraper	es_ES
dc.title.alternative	Recolector de datos web	es_ES
dc.title.alternative	Recol·lector de dades web	es_ES
dc.type	Proyecto/Trabajo fin de carrera/grado	es_ES
dc.rights.accessRights	Abierto	es_ES
dc.contributor.affiliation	Universitat Politècnica de València. Departamento de Sistemas Informáticos y Computación - Departament de Sistemes Informàtics i Computació	es_ES
dc.contributor.affiliation	Universitat Politècnica de València. Escola Tècnica Superior d'Enginyeria Informàtica	es_ES
dc.description.bibliographicCitation	Prieto Roig, A. (2023). Web Data Scraper. Universitat Politècnica de València. http://hdl.handle.net/10251/196744	es_ES
dc.description.accrualMethod	TFGM	es_ES
dc.relation.pasarela	TFGM\150044	es_ES

Este ítem aparece en la(s) siguiente(s) colección(ones)

ETSINF - Trabajos académicos [5160]
Escola Tècnica Superior d'Enginyeria Informàtica

Mostrar el registro sencillo del ítem

Web Data Scraper

RiuNet: Repositorio Institucional de la Universidad Politécnica de Valencia

Buscar en RiuNet

Listar

Todo RiuNet

Esta colección

Mi cuenta

Estadísticas

Ayuda RiuNet

Admin. UPV

Compartir/Enviar a

Citas

Estadísticas

Web Data Scraper

Ficheros en el ítem

Este ítem aparece en la(s) siguiente(s) colección(ones)