Abstract:
|
[ES] La extracción de datos de la Web y su posterior análisis, le sirve a las empresas
para la toma de decisiones a nivel estratégico. Pero para poder analizar esos datos, es
necesario estructurarlos previamente en una ...[+]
[ES] La extracción de datos de la Web y su posterior análisis, le sirve a las empresas
para la toma de decisiones a nivel estratégico. Pero para poder analizar esos datos, es
necesario estructurarlos previamente en una base de datos. Cuando se trabaja con
grandes cantidades de datos, estas tareas se hacen tediosas y repetitivas, por lo que se
convierte en imprescindible la automatización de estos procedimientos.
En este trabajo, se pretende establecer las bases tecnológicas para automatizar
los procesos de estructuración de los datos Web, importación de éstos a una base de
datos y posterior extracción de los mismos para que puedan ser analizados y
visualizados. Para ello, se aplican las técnicas diseñadas a un caso de estudio concreto,
como son las empresas españolas del sector vinícola. Estas técnicas consisten en la
implementación de una serie de scripts en el lenguaje de programación Python (para
realizar las tareas de estructuración e importación de los datos a una base de datos) y
de otra serie de scripts en R (para la parte final de prueba del análisis y visualización).
Se ha logrado automatizar gran parte de todo el proceso, queda pendiente de
resolver, en el origen de la extracción de los datos, el problema de la existencia de
caracteres mal codificados, imposibles de recodificar de manera automatizada tras su
exportación a ficheros.
[-]
[EN] Data extraction and its subsequent analysis from the Web serve companies to
decision-taking activities at strategic level. However, in order to correctly analyze these
data, it is compelled to previously structure ...[+]
[EN] Data extraction and its subsequent analysis from the Web serve companies to
decision-taking activities at strategic level. However, in order to correctly analyze these
data, it is compelled to previously structure them in a database. When it comes to work
with large amounts of data, these procedures turn tedious and repetitive, especially
when data come from different sources and different formats, preventing their direct
analysis.
This work intends to establish the technological foundations to automate some
web data structure processes by importing them into a database to be analyzed and
visualized automatically through exporting routines. To do this, the designed
techniques are applied to the case study of those Spanish companies belonging to the
wine market. These techniques consist on the one hand of the implementation of a set
of scripts written in Python (responsible for the structure and data import from the
native files from to a database), and on the other hand a set of scripts written in R
(responsible for the analysis and visualization of the results).
Much of the whole process has been automated. However, the problem about
characters wrongly codified in the data extraction starting process remains unresolved,
since these characters could not been recodified automatically after exporting them into
files.
[-]
|