- -

Can language models automate data wrangling?

RiuNet: Repositorio Institucional de la Universidad Politécnica de Valencia

Compartir/Enviar a

Citas

Estadísticas

  • Estadisticas de Uso

Can language models automate data wrangling?

Mostrar el registro sencillo del ítem

Ficheros en el ítem

dc.contributor.author Jaimovitch-López, Gonzalo es_ES
dc.contributor.author Ferri, Cesar es_ES
dc.contributor.author Hernández-Orallo, José es_ES
dc.contributor.author Martínez-Plumed, Fernando es_ES
dc.contributor.author Ramírez-Quintana, María José es_ES
dc.date.accessioned 2022-09-01T08:12:31Z
dc.date.available 2022-09-01T08:12:31Z
dc.date.issued 2021-09
dc.identifier.other http://www.dmip.webs.upv.es/papers/autods2021_paper_9.pdf
dc.identifier.uri http://hdl.handle.net/10251/185029
dc.description.abstract [ES] La automatización de la ciencia de datos y otros procesos de manipulación de datos dependen de la integración y el formateo de los datos "desordenados". La manipulación de datos es un término que engloba estas tareas tediosas y que requieren mucho tiempo. Tareas como la transformación de fechas, unidades o nombres expresados en diferentes formatos han sido un reto para el aprendizaje automático porque los usuarios esperan resolverlas con pistas cortas o pocos ejemplos, y los problemas dependen en gran medida del conocimiento del dominio. Curiosamente, los grandes modelos lingüísticos de hoy en día infieren a partir de muy pocos ejemplos o incluso de una breve pista en lenguaje natural, e integran grandes cantidades de conocimiento del dominio. Por tanto, es una cuestión de investigación importante analizar si los modelos de lenguaje son un enfoque prometedor para la gestión de datos, especialmente porque sus capacidades siguen creciendo. En este artículo aplicamos diferentes variantes de modelos lingüísticos de GPT a problemas de gestión de datos, comparando sus resultados con los de herramientas especializadas de gestión de datos, y analizando también las tendencias, variaciones y nuevas posibilidades y riesgos de los modelos lingüísticos en esta tarea. Nuestro principal hallazgo es que parecen ser una herramienta poderosa para una amplia gama de tareas de búsqueda de datos, pero la fiabilidad puede ser un problema importante a superar. es_ES
dc.description.abstract [EN] The automation of data science and other data manipulation processes depend on the integration and formatting of ‘messy’ data. Data wran gling is an umbrella term for these tedious and time-consuming tasks. Tasks such as transforming dates, units or names expressed in different formats have been challenging for machine learning because users expect to solve them with short cues or few examples, and the problems depend heavily on domain knowledge. Interestingly, large language models today infer from very few examples or even a short clue in natural language, and integrate vast amounts of domain knowledge. It is then an important research question to analyse whether language models are a promising approach for data wrangling, especially as their capabilities continue growing. In this paper we apply different language model variants of GPT to data wrangling problems, comparing their results to specialised data wrangling tools, also analysing the trends, variations and further possibilities and risks of language models in this task. Our major finding is that they appear as a powerful tool for a wide range of data wrangling tasks, but reliability may be an important issue to overcome. es_ES
dc.language Inglés es_ES
dc.publisher Universitat Politècnica de València es_ES
dc.rights Reconocimiento (by) es_ES
dc.subject Modelos lingüísticos es_ES
dc.subject Gestión de datos es_ES
dc.subject Ciencia de datos es_ES
dc.subject Automatización de datos es_ES
dc.subject Data Science Automation es_ES
dc.subject Data Wrangling es_ES
dc.subject Language Models es_ES
dc.title Can language models automate data wrangling? es_ES
dc.type Artículo es_ES
dc.rights.accessRights Abierto es_ES
dc.contributor.affiliation Universitat Politècnica de València. Instituto Universitario Valenciano de Investigación en Inteligencia Artificial - Institut Universitari Valencià de Recerca en Intel·ligència Artificial es_ES
dc.description.bibliographicCitation Jaimovitch-López, G.; Ferri, C.; Hernández-Orallo, J.; Martínez-Plumed, F.; Ramírez-Quintana, MJ. (2021). Can language models automate data wrangling?. http://hdl.handle.net/10251/185029 es_ES
dc.relation.publisherversion http://www.dmip.webs.upv.es/papers/autods2021_paper_9.pdf es_ES
dc.type.version info:eu-repo/semantics/publishedVersion es_ES


Este ítem aparece en la(s) siguiente(s) colección(ones)

Mostrar el registro sencillo del ítem