- -

Extracción de información relevante del BOE mediante web scraping y tecnologías de procesamiento del lenguaje natural

RiuNet: Repositorio Institucional de la Universidad Politécnica de Valencia

Compartir/Enviar a

Citas

Estadísticas

  • Estadisticas de Uso

Extracción de información relevante del BOE mediante web scraping y tecnologías de procesamiento del lenguaje natural

Mostrar el registro sencillo del ítem

Ficheros en el ítem

dc.contributor.advisor Ferri Ramírez, César es_ES
dc.contributor.author Ávila Sánchez, Miguel Ángel es_ES
dc.date.accessioned 2024-10-23T08:18:19Z
dc.date.available 2024-10-23T08:18:19Z
dc.date.created 2024-09-25
dc.date.issued 2024-10-23 es_ES
dc.identifier.uri http://hdl.handle.net/10251/210716
dc.description.abstract [ES] El proyecto BOE_Extractor es una herramienta de Web Scraping desarrollada para extraer información del Boletín Oficial del Estado (BOE) de forma automática, eficiente y rápida. La herramienta realiza búsquedas en la web para convertir los resultados obtenidos (textos no estructurados) en datos estructurados y útiles mediante el tratamiento del lenguaje natural. El objetivo es ofrecer un valor añadido a la hora de consultar el BOE, que permita recibir publicaciones con mayor anticipación frente a búsquedas convencionales, generar paneles de control con información útil, facilitar la toma de decisiones y estrategias comerciales. Para su desarrollo se utilizó un proceso automatizado en Python que hace uso de técnicas de Web Scraping (con BeautifulSoup, Requests, Selenium, etc.) para acceder a las publicaciones del BOE y extraer su contenido. A continuación, aplicamos IA con modelos de clasificación NER para extraer nombres de personas, localidades, entre otras entidades. También se buscaron patrones en el texto para determinar la tipología de la publicación que se ha obtenido en cada búsqueda y características de la misma. Finalmente, se obtiene información sobre diferentes campos de la publicación para generar datos estructurados y poder almacenarlos en bases de datos. Con toda esta información recopilada, se diseñan paneles de control en PowerBI, construyendo gráficos interactivos que permitan filtrar por diferentes criterios y tomar decisiones a partir de los datos obtenidos en el proceso automático, de tal forma que, se facilita el análisis y la gestión de la información del BOE. es_ES
dc.description.abstract [EN] The BOE_Extractor project is a Web Scraping tool developed to extract information from the Boletín Oficial del Estado (BOE) in an automatic, efficient and fast way. The tool performs web searches to convert the results obtained (unstructured texts) into structured and useful data through natural language processing. The objective is to offer added value when consulting the BOE, allowing to receive publications earlier than conventional searches, generate control panels with useful information, facilitate decision-making and commercial strategies. For its development we used an automated process in Python that makes use of Web Wcraping techniques (with BeautifulSoup, Requests, Selenium, etc.) to access BOE publications and extract their content. We then applied AI with NER classification models to extract names of people, localities, among other entities. We also searched for patterns in the text to determine the typology of the publication obtained in each search and its characteristics. Finally, information on different fields of the publication is obtained to generate structured data to be stored in databases. With all this information collected, control panels are designed in PowerBI, building interactive graphs that allow filtering by different criteria and making decisions based on the data obtained in the automatic process, thus facilitating the analysis and management of the BOE information. es_ES
dc.format.extent 92 es_ES
dc.language Español es_ES
dc.publisher Universitat Politècnica de València es_ES
dc.rights Reserva de todos los derechos es_ES
dc.subject Web scraping es_ES
dc.subject BOE es_ES
dc.subject NLP es_ES
dc.subject NER es_ES
dc.subject IA es_ES
dc.subject Python es_ES
dc.subject Análisis de datos es_ES
dc.subject Data analysis es_ES
dc.subject.classification LENGUAJES Y SISTEMAS INFORMATICOS es_ES
dc.subject.other Máster Universitario en Gestión de la Información-Màster Universitari en Gestió de la Informació es_ES
dc.title Extracción de información relevante del BOE mediante web scraping y tecnologías de procesamiento del lenguaje natural es_ES
dc.title.alternative Extraction of relevant information from the BOE using web scraping and natural language processing technologies es_ES
dc.title.alternative Extracció d'informació rellevant del BOE mitjançant tecnologies de web scraping i processament del llenguatge natural es_ES
dc.type Tesis de máster es_ES
dc.rights.accessRights Cerrado es_ES
dc.contributor.affiliation Universitat Politècnica de València. Departamento de Sistemas Informáticos y Computación - Departament de Sistemes Informàtics i Computació es_ES
dc.contributor.affiliation Universitat Politècnica de València. Escola Tècnica Superior d'Enginyeria Informàtica es_ES
dc.description.bibliographicCitation Ávila Sánchez, MÁ. (2024). Extracción de información relevante del BOE mediante web scraping y tecnologías de procesamiento del lenguaje natural. Universitat Politècnica de València. http://hdl.handle.net/10251/210716 es_ES
dc.description.accrualMethod TFGM es_ES
dc.relation.pasarela TFGM\157862 es_ES


Este ítem aparece en la(s) siguiente(s) colección(ones)

Mostrar el registro sencillo del ítem