Resumen:
|
[EN] Large language models or LLMs are transforming the artificial intelligence sphere,
causing an unprecedented investment, but it is difficult to know objectively how they
behave in different fields and how to compare ...[+]
[EN] Large language models or LLMs are transforming the artificial intelligence sphere,
causing an unprecedented investment, but it is difficult to know objectively how they
behave in different fields and how to compare them with their new versions.
This work addresses the solutions proposed by the community in the form of bench-
marks to evaluate these models, showing real examples and results, following the progress
since their beginnings. We further explore how these test sets are constructed, with the
different disciplines to be evaluated and the metrics used. Then we propose as a case
study the benchmark BIG-Bench, analyzing the results obtained for two main LLMs fam-
ilies (GPT and Big-G) in the different tasks used for their evaluation, focusing on the
performance trends they show as the trainable parameters increase. They are also com-
pared with results obtained by humans in the same tests. We set as a main objective to
find disciplines in which these models still have difficulties and their score does not scale
with the number of parameters.
[-]
[ES] Los modelos de lenguaje grandes o LLMs están revolucionando la esfera de la in-
teligencia artificial, causando una inversión sin precendetes, sin embargo es complicado
conocer de forma objetiva cómo se comportan ...[+]
[ES] Los modelos de lenguaje grandes o LLMs están revolucionando la esfera de la in-
teligencia artificial, causando una inversión sin precendetes, sin embargo es complicado
conocer de forma objetiva cómo se comportan en distintos campos y de qué manera com-
pararlos con sus nuevas versiones.
Este trabajo aborda las soluciones propuestas por la comunidad en forma de bench-
marks para evaluar estos modelos, mostrando ejemplos y resultados reales, siguiendo el
progreso desde sus inicios. Exploramos además como se construyen estos conjuntos de
prueba, con las distintas disciplinas a evaluar y las métricas empleadas. Seguidamente
proponemos como caso de estudio el benchmark BIG-Bench, analizando los resultados
obtenidos para dos de las principales familias de LLMs (GPT y Big-G) en las distintas
tareas usadas para su evaluación, poniendo el foco en las tendencias de rendimiento que
muestran a medida que van aumentando los parámetros entrenables. También se compa-
ran con resultados obtenidos por humanos en las mismas pruebas. Establecemos como
objetivo principal buscar disciplinas en las que estos modelos todavía tengan dificultades
y su puntuación no escale con el número de parámetros.
[-]
[CA] Els models de llenguatge grans o LLMs estan revolucionant l’esfera de la intel·ligència
artificial, causant una inversió sense precendets, no obstant això és complicat conéixer de
manera objectiva com es comporten ...[+]
[CA] Els models de llenguatge grans o LLMs estan revolucionant l’esfera de la intel·ligència
artificial, causant una inversió sense precendets, no obstant això és complicat conéixer de
manera objectiva com es comporten en diferents camps i de quina manera comparar-los
amb les seues noves versions.
Este treball aborda les solucions proposades per la comunitat en forma de benchmarks
per a avaluar estos models, mostrant exemples i resultats reals, seguint el progrés des
dels seus inicis. Explorem a més com es construïxen estos conjunts de prova, amb les
diferents disciplines a avaluar i les mètriques empleades. Seguidament proposem com
a cas d’estudi el benchmark BIG-Bench, analitzant els resultats obtinguts per a dos de les
principals famílies de LLMs (GPT i Big-G) en les diferents tasques usades per a la seua
avaluació, posant el focus en les tendències de rendiment que mostren a mesura que van
augmentant els paràmetres entrenables. També es comparen amb resultats obtinguts per
humans en les mateixes proves. Establim com a objectiu principal buscar disciplines en
les quals estos models encara tinguen dificultats i la seua puntuació no escale amb el
nombre de paràmetres.
[-]
|