Resumen:
|
[ES] El proyecto BOE_Extractor es una herramienta de Web Scraping desarrollada para extraer información del Boletín Oficial del Estado (BOE) de forma automática, eficiente y rápida. La herramienta realiza búsquedas en la ...[+]
[ES] El proyecto BOE_Extractor es una herramienta de Web Scraping desarrollada para extraer información del Boletín Oficial del Estado (BOE) de forma automática, eficiente y rápida. La herramienta realiza búsquedas en la web para convertir los resultados obtenidos (textos no estructurados) en datos estructurados y útiles mediante el tratamiento del lenguaje natural.
El objetivo es ofrecer un valor añadido a la hora de consultar el BOE, que permita recibir publicaciones con mayor anticipación frente a búsquedas convencionales, generar paneles de control con información útil, facilitar la toma de decisiones y estrategias comerciales.
Para su desarrollo se utilizó un proceso automatizado en Python que hace uso de técnicas de Web Scraping (con BeautifulSoup, Requests, Selenium, etc.) para acceder a las publicaciones del BOE y extraer su contenido. A continuación, aplicamos IA con modelos de clasificación NER para extraer nombres de personas, localidades, entre otras entidades. También se buscaron patrones en el texto para determinar la tipología de la publicación que se ha obtenido en cada búsqueda y características de la misma. Finalmente, se obtiene información sobre diferentes campos de la publicación para generar datos estructurados y poder almacenarlos en bases de datos.
Con toda esta información recopilada, se diseñan paneles de control en PowerBI, construyendo gráficos interactivos que permitan filtrar por diferentes criterios y tomar decisiones a partir de los datos obtenidos en el proceso automático, de tal forma que, se facilita el análisis y la gestión de la información del BOE.
[-]
[EN] The BOE_Extractor project is a Web Scraping tool developed to extract information from the Boletín Oficial del Estado (BOE) in an automatic, efficient and fast way. The tool performs web searches to convert the results ...[+]
[EN] The BOE_Extractor project is a Web Scraping tool developed to extract information from the Boletín Oficial del Estado (BOE) in an automatic, efficient and fast way. The tool performs web searches to convert the results obtained (unstructured texts) into structured and useful data through natural language processing.
The objective is to offer added value when consulting the BOE, allowing to receive publications earlier than conventional searches, generate control panels with useful information, facilitate decision-making and commercial strategies.
For its development we used an automated process in Python that makes use of Web Wcraping techniques (with BeautifulSoup, Requests, Selenium, etc.) to access BOE publications and extract their content. We then applied AI with NER classification models to extract names of people, localities, among other entities. We also searched for patterns in the text to determine the typology of the publication obtained in each search and its characteristics. Finally, information on different fields of the publication is obtained to generate structured data to be stored in databases.
With all this information collected, control panels are designed in PowerBI, building interactive graphs that allow filtering by different criteria and making decisions based on the data obtained in the automatic process, thus facilitating the analysis and management of the BOE information.
[-]
|