Mostrar el registro sencillo del ítem
dc.contributor.advisor | Hurtado Oliver, Lluis Felip | es_ES |
dc.contributor.advisor | Segarra Soriano, Encarnación | es_ES |
dc.contributor.author | Prieto Roig, Ausiàs | es_ES |
dc.date.accessioned | 2023-09-19T10:44:57Z | |
dc.date.available | 2023-09-19T10:44:57Z | |
dc.date.created | 2023-07-17 | |
dc.date.issued | 2023-09-19 | es_ES |
dc.identifier.uri | http://hdl.handle.net/10251/196744 | |
dc.description.abstract | [ES] La recolección de datos, también conocida como web scraping, es el proceso de recolectar información de sitios web de manera automática. Los sitios web dinámicos, caracterizados por su capacidad de actualizar el contenido en tiempo real (AJAX), presentan desafíos únicos para la recolección de datos. La importancia de esta información para las personas, empresas e investigadores es fundamental, ya que se puede utilizar para una variedad de propósitos como el análisis de negocios, la investigación y para el uso personal, e incluso para el entrenamiento de Modelos del Lenguaje Grandes (LLM). Describimos la arquitectura, el diseño e implementación de una herramienta modular, extensible y open-source que hemos creado usando Python, Cython y la librería "Playwright", entre otras muchas librerías de Procesamiento del lenguaje natural (NLP), específicamente hecha para abordar estos retos, y evaluamos su rendimiento a través de experimentos y estudios de casos. Como parte de la reflexión, se concluirá discutiendo las posibles aplicaciones de los datos recolectados en estos sitios web dinámicos y las tendencias a futuro en este campo. | es_ES |
dc.description.abstract | [EN] Data harvesting, also known as web scraping, is the process of collecting information from websites automatically. Dynamic websites, which are characterized by their ability to update content in real-time (AJAX), present unique challenges for data harvesting. The importance of this information for people, companies and researchers is paramount, as it can be used for a variety of purposes such as business intelligence, research and personal usage, and even for training Large Language Models (LLM). We describe the architecture, design, and implementation of a modular, extensible and open-source data harvesting tool that we have created using Python, Cython and the library "Playwright", among many other Natural Language Processing (NLP) libraries, specifically made to address these challenges, and whose performance we will evaluate through experiments and case studies. As part of the reflection about this tool, we will conclude by discussing the potential applications of data harvested from these dynamic websites and the future trends in this field. | es_ES |
dc.description.abstract | [CA]La recol·lecció de dades, també coneguda com web scraping, és el procés de recolectar informació de pàgines web de manera automàtica. Les pàgines web dinàmiques, caracteritzades per la seua capacitat d’actualitzar el contingut el temps real (AJAX), presenten reptes únics per a la recol·lecció de dades. La importància d’aquesta informació per a les persones, empreses i investigadors és fundamental, ja que s’hi pot gastar en una gran varietat de propòsits com en l’anàlisi de negòcis, l’investigació i l’ús personal, i fins i tot per a l’entrenament de Models del Llenguatge Grans (LLM). Describim l’arquitectura, el disseny i l’implementació de una ferramenta modular, extensible i open-source que hem creat amb l’ús de Python, Cython i la llibreria "Playwright", entre moltes altres llibreries de Processament del llenguatge natural (NLP), específicament feta per abordar aquestos reptes, i evaluem el seu rendiment a través d’experiments i estudis de casos. Com a part de la reflexió, concluïrem discutint les possibles aplicacions de les dades recolectades en aquestes pàgines web dinàmiques i les tendències a futur d’aquest camp. | es_ES |
dc.format.extent | 65 | es_ES |
dc.language | Inglés | es_ES |
dc.publisher | Universitat Politècnica de València | es_ES |
dc.rights | Reconocimiento (by) | es_ES |
dc.subject | Extracción de información | es_ES |
dc.subject | Scraping | es_ES |
dc.subject | Crawling | es_ES |
dc.subject | Páginas web dinámicas | es_ES |
dc.subject | AJAX | es_ES |
dc.subject | Playwright | es_ES |
dc.subject | Data harvesting | es_ES |
dc.subject | Open-source | es_ES |
dc.subject | Python | es_ES |
dc.subject | NLP | es_ES |
dc.subject | Information Extraction | es_ES |
dc.subject | Dynamic websites | es_ES |
dc.subject.classification | LENGUAJES Y SISTEMAS INFORMATICOS | es_ES |
dc.subject.other | Grado en Ingeniería Informática-Grau en Enginyeria Informàtica | es_ES |
dc.title | Web Data Scraper | es_ES |
dc.title.alternative | Recolector de datos web | es_ES |
dc.title.alternative | Recol·lector de dades web | es_ES |
dc.type | Proyecto/Trabajo fin de carrera/grado | es_ES |
dc.rights.accessRights | Abierto | es_ES |
dc.contributor.affiliation | Universitat Politècnica de València. Departamento de Sistemas Informáticos y Computación - Departament de Sistemes Informàtics i Computació | es_ES |
dc.contributor.affiliation | Universitat Politècnica de València. Escola Tècnica Superior d'Enginyeria Informàtica | es_ES |
dc.description.bibliographicCitation | Prieto Roig, A. (2023). Web Data Scraper. Universitat Politècnica de València. http://hdl.handle.net/10251/196744 | es_ES |
dc.description.accrualMethod | TFGM | es_ES |
dc.relation.pasarela | TFGM\150044 | es_ES |