Extracción de información relevante del BOE mediante web scraping y tecnologías de procesamiento del lenguaje natural

Ávila Sánchez, Miguel Ángel

Identificarse

Buscar en RiuNet

Listar

Todo RiuNet
Esta colección

Mi cuenta

Acceder

Estadísticas

Ver Estadísticas de uso

Ayuda RiuNet

Admin. UPV

Compartir/Enviar a

Citas

Estadísticas

Extracción de información relevante del BOE mediante web scraping y tecnologías de procesamiento del lenguaje natural

Mostrar el registro sencillo del ítem

Ficheros en el ítem

Nombre: Avila - Extraccion ...

Tamaño: 3.966Mb

Formato: PDF

Solicitar una copia al autor

dc.contributor.advisor	Ferri Ramírez, César	es_ES
dc.contributor.author	Ávila Sánchez, Miguel Ángel	es_ES
dc.date.accessioned	2024-10-23T08:18:19Z
dc.date.available	2024-10-23T08:18:19Z
dc.date.created	2024-09-25
dc.date.issued	2024-10-23	es_ES
dc.identifier.uri	http://hdl.handle.net/10251/210716
dc.description.abstract	[ES] El proyecto BOE_Extractor es una herramienta de Web Scraping desarrollada para extraer información del Boletín Oficial del Estado (BOE) de forma automática, eficiente y rápida. La herramienta realiza búsquedas en la web para convertir los resultados obtenidos (textos no estructurados) en datos estructurados y útiles mediante el tratamiento del lenguaje natural. El objetivo es ofrecer un valor añadido a la hora de consultar el BOE, que permita recibir publicaciones con mayor anticipación frente a búsquedas convencionales, generar paneles de control con información útil, facilitar la toma de decisiones y estrategias comerciales. Para su desarrollo se utilizó un proceso automatizado en Python que hace uso de técnicas de Web Scraping (con BeautifulSoup, Requests, Selenium, etc.) para acceder a las publicaciones del BOE y extraer su contenido. A continuación, aplicamos IA con modelos de clasificación NER para extraer nombres de personas, localidades, entre otras entidades. También se buscaron patrones en el texto para determinar la tipología de la publicación que se ha obtenido en cada búsqueda y características de la misma. Finalmente, se obtiene información sobre diferentes campos de la publicación para generar datos estructurados y poder almacenarlos en bases de datos. Con toda esta información recopilada, se diseñan paneles de control en PowerBI, construyendo gráficos interactivos que permitan filtrar por diferentes criterios y tomar decisiones a partir de los datos obtenidos en el proceso automático, de tal forma que, se facilita el análisis y la gestión de la información del BOE.	es_ES
dc.description.abstract	[EN] The BOE_Extractor project is a Web Scraping tool developed to extract information from the Boletín Oficial del Estado (BOE) in an automatic, efficient and fast way. The tool performs web searches to convert the results obtained (unstructured texts) into structured and useful data through natural language processing. The objective is to offer added value when consulting the BOE, allowing to receive publications earlier than conventional searches, generate control panels with useful information, facilitate decision-making and commercial strategies. For its development we used an automated process in Python that makes use of Web Wcraping techniques (with BeautifulSoup, Requests, Selenium, etc.) to access BOE publications and extract their content. We then applied AI with NER classification models to extract names of people, localities, among other entities. We also searched for patterns in the text to determine the typology of the publication obtained in each search and its characteristics. Finally, information on different fields of the publication is obtained to generate structured data to be stored in databases. With all this information collected, control panels are designed in PowerBI, building interactive graphs that allow filtering by different criteria and making decisions based on the data obtained in the automatic process, thus facilitating the analysis and management of the BOE information.	es_ES
dc.format.extent	92	es_ES
dc.language	Español	es_ES
dc.publisher	Universitat Politècnica de València	es_ES
dc.rights	Reserva de todos los derechos	es_ES
dc.subject	Web scraping	es_ES
dc.subject	BOE	es_ES
dc.subject	NLP	es_ES
dc.subject	NER	es_ES
dc.subject	IA	es_ES
dc.subject	Python	es_ES
dc.subject	Análisis de datos	es_ES
dc.subject	Data analysis	es_ES
dc.subject.classification	LENGUAJES Y SISTEMAS INFORMATICOS	es_ES
dc.subject.other	Máster Universitario en Gestión de la Información-Màster Universitari en Gestió de la Informació	es_ES
dc.title	Extracción de información relevante del BOE mediante web scraping y tecnologías de procesamiento del lenguaje natural	es_ES
dc.title.alternative	Extraction of relevant information from the BOE using web scraping and natural language processing technologies	es_ES
dc.title.alternative	Extracció d'informació rellevant del BOE mitjançant tecnologies de web scraping i processament del llenguatge natural	es_ES
dc.type	Tesis de máster	es_ES
dc.rights.accessRights	Cerrado	es_ES
dc.contributor.affiliation	Universitat Politècnica de València. Departamento de Sistemas Informáticos y Computación - Departament de Sistemes Informàtics i Computació	es_ES
dc.contributor.affiliation	Universitat Politècnica de València. Escola Tècnica Superior d'Enginyeria Informàtica	es_ES
dc.description.bibliographicCitation	Ávila Sánchez, MÁ. (2024). Extracción de información relevante del BOE mediante web scraping y tecnologías de procesamiento del lenguaje natural. Universitat Politècnica de València. http://hdl.handle.net/10251/210716	es_ES
dc.description.accrualMethod	TFGM	es_ES
dc.relation.pasarela	TFGM\157862	es_ES

Este ítem aparece en la(s) siguiente(s) colección(ones)

ETSINF - Trabajos académicos [5160]
Escola Tècnica Superior d'Enginyeria Informàtica

Mostrar el registro sencillo del ítem

Extracción de información relevante del BOE mediante web scraping y tecnologías de procesamiento del lenguaje natural

RiuNet: Repositorio Institucional de la Universidad Politécnica de Valencia

Buscar en RiuNet

Listar

Todo RiuNet

Esta colección

Mi cuenta

Estadísticas

Ayuda RiuNet

Admin. UPV

Compartir/Enviar a

Citas

Estadísticas

Extracción de información relevante del BOE mediante web scraping y tecnologías de procesamiento del lenguaje natural

Ficheros en el ítem

Este ítem aparece en la(s) siguiente(s) colección(ones)