Mostrar el registro sencillo del ítem
dc.contributor.advisor | Hernández Orallo, José | es_ES |
dc.contributor.advisor | Martínez Plumed, Fernando | es_ES |
dc.contributor.author | Feliu Descalzo, Miguel | es_ES |
dc.date.accessioned | 2024-06-17T10:56:52Z | |
dc.date.available | 2024-06-17T10:56:52Z | |
dc.date.created | 2024-05-22 | |
dc.date.issued | 2024-06-17 | es_ES |
dc.identifier.uri | http://hdl.handle.net/10251/205191 | |
dc.description.abstract | [EN] Large language models or LLMs are transforming the artificial intelligence sphere, causing an unprecedented investment, but it is difficult to know objectively how they behave in different fields and how to compare them with their new versions. This work addresses the solutions proposed by the community in the form of bench- marks to evaluate these models, showing real examples and results, following the progress since their beginnings. We further explore how these test sets are constructed, with the different disciplines to be evaluated and the metrics used. Then we propose as a case study the benchmark BIG-Bench, analyzing the results obtained for two main LLMs fam- ilies (GPT and Big-G) in the different tasks used for their evaluation, focusing on the performance trends they show as the trainable parameters increase. They are also com- pared with results obtained by humans in the same tests. We set as a main objective to find disciplines in which these models still have difficulties and their score does not scale with the number of parameters. | es_ES |
dc.description.abstract | [ES] Los modelos de lenguaje grandes o LLMs están revolucionando la esfera de la in- teligencia artificial, causando una inversión sin precendetes, sin embargo es complicado conocer de forma objetiva cómo se comportan en distintos campos y de qué manera com- pararlos con sus nuevas versiones. Este trabajo aborda las soluciones propuestas por la comunidad en forma de bench- marks para evaluar estos modelos, mostrando ejemplos y resultados reales, siguiendo el progreso desde sus inicios. Exploramos además como se construyen estos conjuntos de prueba, con las distintas disciplinas a evaluar y las métricas empleadas. Seguidamente proponemos como caso de estudio el benchmark BIG-Bench, analizando los resultados obtenidos para dos de las principales familias de LLMs (GPT y Big-G) en las distintas tareas usadas para su evaluación, poniendo el foco en las tendencias de rendimiento que muestran a medida que van aumentando los parámetros entrenables. También se compa- ran con resultados obtenidos por humanos en las mismas pruebas. Establecemos como objetivo principal buscar disciplinas en las que estos modelos todavía tengan dificultades y su puntuación no escale con el número de parámetros. | es_ES |
dc.description.abstract | [CA] Els models de llenguatge grans o LLMs estan revolucionant l’esfera de la intel·ligència artificial, causant una inversió sense precendets, no obstant això és complicat conéixer de manera objectiva com es comporten en diferents camps i de quina manera comparar-los amb les seues noves versions. Este treball aborda les solucions proposades per la comunitat en forma de benchmarks per a avaluar estos models, mostrant exemples i resultats reals, seguint el progrés des dels seus inicis. Explorem a més com es construïxen estos conjunts de prova, amb les diferents disciplines a avaluar i les mètriques empleades. Seguidament proposem com a cas d’estudi el benchmark BIG-Bench, analitzant els resultats obtinguts per a dos de les principals famílies de LLMs (GPT i Big-G) en les diferents tasques usades per a la seua avaluació, posant el focus en les tendències de rendiment que mostren a mesura que van augmentant els paràmetres entrenables. També es comparen amb resultats obtinguts per humans en les mateixes proves. Establim com a objectiu principal buscar disciplines en les quals estos models encara tinguen dificultats i la seua puntuació no escale amb el nombre de paràmetres. | es_ES |
dc.format.extent | 101 | es_ES |
dc.language | Inglés | es_ES |
dc.publisher | Universitat Politècnica de València | es_ES |
dc.rights | Reconocimiento (by) | es_ES |
dc.subject | Language Models | es_ES |
dc.subject | LLM | es_ES |
dc.subject | BIG-bench | es_ES |
dc.subject | AI Progress | es_ES |
dc.subject | Data Analysis | es_ES |
dc.subject | Modelos de Lenguaje | es_ES |
dc.subject | Progreso en IA | es_ES |
dc.subject | Análisis de Datos | es_ES |
dc.subject.classification | LENGUAJES Y SISTEMAS INFORMATICOS | es_ES |
dc.subject.other | Máster Universitario en Ingeniería Informática-Màster Universitari en Enginyeria Informàtica | es_ES |
dc.title | Data Analysis about the Progress of language models | es_ES |
dc.title.alternative | Análisis de datos sobre el progreso de los modelos lingüísticos | es_ES |
dc.title.alternative | Análisis de dades sobre el progrés en models de llenguatge | es_ES |
dc.type | Tesis de máster | es_ES |
dc.rights.accessRights | Abierto | es_ES |
dc.contributor.affiliation | Universitat Politècnica de València. Departamento de Sistemas Informáticos y Computación - Departament de Sistemes Informàtics i Computació | es_ES |
dc.contributor.affiliation | Universitat Politècnica de València. Escola Tècnica Superior d'Enginyeria Informàtica | es_ES |
dc.description.bibliographicCitation | Feliu Descalzo, M. (2024). Data Analysis about the Progress of language models. Universitat Politècnica de València. http://hdl.handle.net/10251/205191 | es_ES |
dc.description.accrualMethod | TFGM | es_ES |
dc.relation.pasarela | TFGM\152828 | es_ES |