- -

Data Analysis about the Progress of language models

RiuNet: Repositorio Institucional de la Universidad Politécnica de Valencia

Compartir/Enviar a

Citas

Estadísticas

  • Estadisticas de Uso

Data Analysis about the Progress of language models

Mostrar el registro sencillo del ítem

Ficheros en el ítem

dc.contributor.advisor Hernández Orallo, José es_ES
dc.contributor.advisor Martínez Plumed, Fernando es_ES
dc.contributor.author Feliu Descalzo, Miguel es_ES
dc.date.accessioned 2024-06-17T10:56:52Z
dc.date.available 2024-06-17T10:56:52Z
dc.date.created 2024-05-22
dc.date.issued 2024-06-17 es_ES
dc.identifier.uri http://hdl.handle.net/10251/205191
dc.description.abstract [EN] Large language models or LLMs are transforming the artificial intelligence sphere, causing an unprecedented investment, but it is difficult to know objectively how they behave in different fields and how to compare them with their new versions. This work addresses the solutions proposed by the community in the form of bench- marks to evaluate these models, showing real examples and results, following the progress since their beginnings. We further explore how these test sets are constructed, with the different disciplines to be evaluated and the metrics used. Then we propose as a case study the benchmark BIG-Bench, analyzing the results obtained for two main LLMs fam- ilies (GPT and Big-G) in the different tasks used for their evaluation, focusing on the performance trends they show as the trainable parameters increase. They are also com- pared with results obtained by humans in the same tests. We set as a main objective to find disciplines in which these models still have difficulties and their score does not scale with the number of parameters. es_ES
dc.description.abstract [ES] Los modelos de lenguaje grandes o LLMs están revolucionando la esfera de la in- teligencia artificial, causando una inversión sin precendetes, sin embargo es complicado conocer de forma objetiva cómo se comportan en distintos campos y de qué manera com- pararlos con sus nuevas versiones. Este trabajo aborda las soluciones propuestas por la comunidad en forma de bench- marks para evaluar estos modelos, mostrando ejemplos y resultados reales, siguiendo el progreso desde sus inicios. Exploramos además como se construyen estos conjuntos de prueba, con las distintas disciplinas a evaluar y las métricas empleadas. Seguidamente proponemos como caso de estudio el benchmark BIG-Bench, analizando los resultados obtenidos para dos de las principales familias de LLMs (GPT y Big-G) en las distintas tareas usadas para su evaluación, poniendo el foco en las tendencias de rendimiento que muestran a medida que van aumentando los parámetros entrenables. También se compa- ran con resultados obtenidos por humanos en las mismas pruebas. Establecemos como objetivo principal buscar disciplinas en las que estos modelos todavía tengan dificultades y su puntuación no escale con el número de parámetros. es_ES
dc.description.abstract [CA] Els models de llenguatge grans o LLMs estan revolucionant l’esfera de la intel·ligència artificial, causant una inversió sense precendets, no obstant això és complicat conéixer de manera objectiva com es comporten en diferents camps i de quina manera comparar-los amb les seues noves versions. Este treball aborda les solucions proposades per la comunitat en forma de benchmarks per a avaluar estos models, mostrant exemples i resultats reals, seguint el progrés des dels seus inicis. Explorem a més com es construïxen estos conjunts de prova, amb les diferents disciplines a avaluar i les mètriques empleades. Seguidament proposem com a cas d’estudi el benchmark BIG-Bench, analitzant els resultats obtinguts per a dos de les principals famílies de LLMs (GPT i Big-G) en les diferents tasques usades per a la seua avaluació, posant el focus en les tendències de rendiment que mostren a mesura que van augmentant els paràmetres entrenables. També es comparen amb resultats obtinguts per humans en les mateixes proves. Establim com a objectiu principal buscar disciplines en les quals estos models encara tinguen dificultats i la seua puntuació no escale amb el nombre de paràmetres. es_ES
dc.format.extent 101 es_ES
dc.language Inglés es_ES
dc.publisher Universitat Politècnica de València es_ES
dc.rights Reconocimiento (by) es_ES
dc.subject Language Models es_ES
dc.subject LLM es_ES
dc.subject BIG-bench es_ES
dc.subject AI Progress es_ES
dc.subject Data Analysis es_ES
dc.subject Modelos de Lenguaje es_ES
dc.subject Progreso en IA es_ES
dc.subject Análisis de Datos es_ES
dc.subject.classification LENGUAJES Y SISTEMAS INFORMATICOS es_ES
dc.subject.other Máster Universitario en Ingeniería Informática-Màster Universitari en Enginyeria Informàtica es_ES
dc.title Data Analysis about the Progress of language models es_ES
dc.title.alternative Análisis de datos sobre el progreso de los modelos lingüísticos es_ES
dc.title.alternative Análisis de dades sobre el progrés en models de llenguatge es_ES
dc.type Tesis de máster es_ES
dc.rights.accessRights Abierto es_ES
dc.contributor.affiliation Universitat Politècnica de València. Departamento de Sistemas Informáticos y Computación - Departament de Sistemes Informàtics i Computació es_ES
dc.contributor.affiliation Universitat Politècnica de València. Escola Tècnica Superior d'Enginyeria Informàtica es_ES
dc.description.bibliographicCitation Feliu Descalzo, M. (2024). Data Analysis about the Progress of language models. Universitat Politècnica de València. http://hdl.handle.net/10251/205191 es_ES
dc.description.accrualMethod TFGM es_ES
dc.relation.pasarela TFGM\152828 es_ES


Este ítem aparece en la(s) siguiente(s) colección(ones)

Mostrar el registro sencillo del ítem