- -

Web Data Scraper

RiuNet: Repositorio Institucional de la Universidad Politécnica de Valencia

Compartir/Enviar a

Citas

Estadísticas

  • Estadisticas de Uso

Web Data Scraper

Mostrar el registro sencillo del ítem

Ficheros en el ítem

dc.contributor.advisor Hurtado Oliver, Lluis Felip es_ES
dc.contributor.advisor Segarra Soriano, Encarnación es_ES
dc.contributor.author Prieto Roig, Ausiàs es_ES
dc.date.accessioned 2023-09-19T10:44:57Z
dc.date.available 2023-09-19T10:44:57Z
dc.date.created 2023-07-17
dc.date.issued 2023-09-19 es_ES
dc.identifier.uri http://hdl.handle.net/10251/196744
dc.description.abstract [ES] La recolección de datos, también conocida como web scraping, es el proceso de recolectar información de sitios web de manera automática. Los sitios web dinámicos, caracterizados por su capacidad de actualizar el contenido en tiempo real (AJAX), presentan desafíos únicos para la recolección de datos. La importancia de esta información para las personas, empresas e investigadores es fundamental, ya que se puede utilizar para una variedad de propósitos como el análisis de negocios, la investigación y para el uso personal, e incluso para el entrenamiento de Modelos del Lenguaje Grandes (LLM). Describimos la arquitectura, el diseño e implementación de una herramienta modular, extensible y open-source que hemos creado usando Python, Cython y la librería "Playwright", entre otras muchas librerías de Procesamiento del lenguaje natural (NLP), específicamente hecha para abordar estos retos, y evaluamos su rendimiento a través de experimentos y estudios de casos. Como parte de la reflexión, se concluirá discutiendo las posibles aplicaciones de los datos recolectados en estos sitios web dinámicos y las tendencias a futuro en este campo. es_ES
dc.description.abstract [EN] Data harvesting, also known as web scraping, is the process of collecting information from websites automatically. Dynamic websites, which are characterized by their ability to update content in real-time (AJAX), present unique challenges for data harvesting. The importance of this information for people, companies and researchers is paramount, as it can be used for a variety of purposes such as business intelligence, research and personal usage, and even for training Large Language Models (LLM). We describe the architecture, design, and implementation of a modular, extensible and open-source data harvesting tool that we have created using Python, Cython and the library "Playwright", among many other Natural Language Processing (NLP) libraries, specifically made to address these challenges, and whose performance we will evaluate through experiments and case studies. As part of the reflection about this tool, we will conclude by discussing the potential applications of data harvested from these dynamic websites and the future trends in this field. es_ES
dc.description.abstract [CA]La recol·lecció de dades, també coneguda com web scraping, és el procés de recolectar informació de pàgines web de manera automàtica. Les pàgines web dinàmiques, caracteritzades per la seua capacitat d’actualitzar el contingut el temps real (AJAX), presenten reptes únics per a la recol·lecció de dades. La importància d’aquesta informació per a les persones, empreses i investigadors és fundamental, ja que s’hi pot gastar en una gran varietat de propòsits com en l’anàlisi de negòcis, l’investigació i l’ús personal, i fins i tot per a l’entrenament de Models del Llenguatge Grans (LLM). Describim l’arquitectura, el disseny i l’implementació de una ferramenta modular, extensible i open-source que hem creat amb l’ús de Python, Cython i la llibreria "Playwright", entre moltes altres llibreries de Processament del llenguatge natural (NLP), específicament feta per abordar aquestos reptes, i evaluem el seu rendiment a través d’experiments i estudis de casos. Com a part de la reflexió, concluïrem discutint les possibles aplicacions de les dades recolectades en aquestes pàgines web dinàmiques i les tendències a futur d’aquest camp. es_ES
dc.format.extent 65 es_ES
dc.language Inglés es_ES
dc.publisher Universitat Politècnica de València es_ES
dc.rights Reconocimiento (by) es_ES
dc.subject Extracción de información es_ES
dc.subject Scraping es_ES
dc.subject Crawling es_ES
dc.subject Páginas web dinámicas es_ES
dc.subject AJAX es_ES
dc.subject Playwright es_ES
dc.subject Data harvesting es_ES
dc.subject Open-source es_ES
dc.subject Python es_ES
dc.subject NLP es_ES
dc.subject Information Extraction es_ES
dc.subject Dynamic websites es_ES
dc.subject.classification LENGUAJES Y SISTEMAS INFORMATICOS es_ES
dc.subject.other Grado en Ingeniería Informática-Grau en Enginyeria Informàtica es_ES
dc.title Web Data Scraper es_ES
dc.title.alternative Recolector de datos web es_ES
dc.title.alternative Recol·lector de dades web es_ES
dc.type Proyecto/Trabajo fin de carrera/grado es_ES
dc.rights.accessRights Abierto es_ES
dc.contributor.affiliation Universitat Politècnica de València. Departamento de Sistemas Informáticos y Computación - Departament de Sistemes Informàtics i Computació es_ES
dc.contributor.affiliation Universitat Politècnica de València. Escola Tècnica Superior d'Enginyeria Informàtica es_ES
dc.description.bibliographicCitation Prieto Roig, A. (2023). Web Data Scraper. Universitat Politècnica de València. http://hdl.handle.net/10251/196744 es_ES
dc.description.accrualMethod TFGM es_ES
dc.relation.pasarela TFGM\150044 es_ES


Este ítem aparece en la(s) siguiente(s) colección(ones)

Mostrar el registro sencillo del ítem