Resumen:
|
[ES] En este trabajo se ha desarrollado un análisis sobre un listado de
expresiones de búsqueda relacionas con industrias culturales en un motor de
búsqueda. El objetivo principal de este estudio es encontrar una metodología ...[+]
[ES] En este trabajo se ha desarrollado un análisis sobre un listado de
expresiones de búsqueda relacionas con industrias culturales en un motor de
búsqueda. El objetivo principal de este estudio es encontrar una metodología de
trabajo efectiva sobre conjuntos masivos de datos consistentes en expresiones de
búsqueda o palabras clave extraídas de motores de búsqueda, con independencia de
su temática. Para llevarlo a cabo se partió de un listado de expresiones de búsqueda
relacionas con industrias culturales extraídas de Google mediante el uso de la
herramienta Google Keyword Planner. Tras probar diferentes conjuntos de datos y
herramientas especializadas en análisis de grafos, finalmente se decidió trabajar con
una muestra aleatoria del 5% de los datos originales y el programa Gephi. A partir de
esta muestra se creó una matriz que enfrentaba cada búsqueda de la muestra con el
resto de búsquedas y recogía el número de palabras que coincidían en cada caso.
Además, se eliminó la diagonal de la matriz y los conectores más comunes de las
búsquedas para evitar sesgos y ruido. Con esta matriz y mediante el algoritmo
Fruchterman Reingold se obtuvo un grafo formado por 1.506 nodos y 28.242 aristas
que contenía 27 comunidades, siendo la comunidad más grande y céntrica, la
correspondiente al conjunto formado por las expresiones contenedoras de la palabra
clave “libros”. Dados los resultados, les puede considerar que la metodología final
propuesta es efectiva y cabría tenerla en cuenta para poder replicarla en el futuro a
una escala mayor
[-]
[EN] In this paper an analysis has been developed on a list of queries related to cultural
industries in a search engine. The main objective of the study is to find an effective
working methodology on massive datasets ...[+]
[EN] In this paper an analysis has been developed on a list of queries related to cultural
industries in a search engine. The main objective of the study is to find an effective
working methodology on massive datasets consisting of queries or keywords extracted
from search engines, regardless of their subject matter. To carry it out, we started from
a list of search expressions related to cultural industries extracted from Google using
the Google Keyword Planner tool. After testing different data sets and specialized tools
in graph analysis, it was decided to work with a random sample of a 5% of the original
dataset and the Gephi software. From this sample, a matrix was created that compared
each query of the sample with the rest of the queries and collected the number of
words that matched in each case. In addition, the diagonal of the matrix and the most
common connectors of the searches were eliminated to avoid bias and noise. With this
matrix and working with the Fruchterman Reingold algorithm, a graph formed by 1,506
nodes and 28,242 edges was obtained that contained 27 communities, where the
largest and most central community being the one corresponding to the set formed by
the expressions containing the keyword “libros”. Given the results, it can be considered
that the final proposed methodology is effective and should be taken into account to be
able to replicate it in the future on a larger scale
[-]
|