Mostrar el registro sencillo del ítem
dc.contributor.advisor | Hernández Orallo, José | es_ES |
dc.contributor.advisor | Martínez Plumed, Fernando | es_ES |
dc.contributor.author | Jiang Chen, Ke-Xin | es_ES |
dc.date.accessioned | 2024-09-17T14:41:22Z | |
dc.date.available | 2024-09-17T14:41:22Z | |
dc.date.created | 2024-07-16 | |
dc.date.issued | 2024-09-17 | es_ES |
dc.identifier.uri | http://hdl.handle.net/10251/208256 | |
dc.description.abstract | [CA] El camp de la intel·ligència artificial ha portat al desenvolupament de grans models de llenguatge avançats amb impressionants habilitats lingüístiques. No obstant això, encara no està clar fins a quin punt aquests models posseeixen habilitats metacognitives, les quals són fonamentals per a un raonament i aprenentatge avançats. Aquest projecte té com a objectiu avaluar les habilitats de metacognició i pensament crític en els grans models de llenguatge, amb un enfocament en la identificació de les escales i dimensions més efectives per a l’avaluació. Proposem un marc integral, que abasta tres dimensions clau: la necessitat de processos de pensament crític, la dificultat de calibrar el conegut i l’inconegut, i la dificultat en identificar informació rellevant. Aquest marc s’utilitza per anotar instàncies de preguntes en diversos benchmarks de BIG-Bench i HELM, destinats a mesurar habilitats cognitives avançades en els grans models de llenguatge. Les anotacions són generades pel model de llenguatge de última generació, GPT-4. Aquestes anotacions s’utilitzen després com a predictors per a construir models de rendiment per a diversos grans models de llenguatge en aquests benchmarks, amb l’objectiu final de determinar fins a quin punt aquests benchmarks realment mesuren les capacitats metacognitives. Els nostres resultats mostren que, mentre que molts models manquen de capacitats metacognitives, els models més grans mostren algunes indicacions de tals habilitats. A més, l’ús d’una escala multidimensional per a les demandes metacognitives millora la predictibilitat del rendiment en comparació amb una escala integrada única. En proporcionar una eina d’avaluació per a la metacognició en els grans models de llenguatge, aquest projecte ofereix informació sobre l’efectivitat dels benchmarks en l’avaluació de les habilitats metacognitives. Els resultats destaquen la importància d’un disseny meticulós dels benchmarks i el potencial de les escales multidimensionals per capturar la naturalesa complexa de la metacognició. | es_ES |
dc.description.abstract | [ES] El campo de la inteligencia artificial ha llevado al desarrollo grandes modelos de lenguaje avanzados con impresionantes habilidades lingüísticas. Sin embargo, aún no está claro hasta qué punto estos modelos poseen habilidades metacognitivas, las cuales son fundamentales para un razonamiento y aprendizaje avanzados. Este proyecto tiene como objetivo evaluar las habilidades de metacognición y pensamiento crítico en los grandes modelos de lenguaje, con un enfoque en la identificación de las escalas y dimensiones más efectivas para la evaluación. Proponemos un marco integral, que abarca tres dimensiones clave: la necesidad de procesos de pensamiento crítico, la dificultad de calibrar lo conocido y lo desconocido, y la dificultad en identificar información relevante. Este marco se utiliza para anotar instancias de preguntas en varios benchmarks de BIG-Bench y HELM, destinados a medir habilidades cognitivas avanzadas en los grandes modelos de lenguaje. Las anotaciones son generadas por el modelo de lenguaje de última generación, GPT-4. Estas anotaciones se utilizan luego como predictores para construir modelos de rendimiento para varios grandes modelos de lenguaje en estos benchmarks, con el objetivo final de determinar hasta qué punto estos benchmarks realmente miden las capacidades metacognitivas. Nuestros resultados muestran que, mientras que muchos modelos carecen de capacidades metacognitivas, los modelos más grandes muestran algunas indicaciones de tales habilidades. Además, el uso de una escala multidimensional para las demandas metacognitivas mejora la predictibilidad del rendimiento en comparación con una escala integrada única. Al proporcionar una herramienta de evaluación para la metacognición en los grandes modelos de lenguaje, este proyecto ofrece información sobre la efectividad de los benchmarks en la evaluación de las habilidades metacognitivas. Los resultados destacan la importancia de un diseño meticuloso de los benchmarks y el potencial de las escalas multidimensionales para capturar la naturaleza compleja de la metacognición. | es_ES |
dc.description.abstract | [EN] The rapidly growing field of artificial intelligence has led to the development of advanced Large Language Models (LLMs) with impressive language skills. However, it is still unclear the extent to which these models possess metacognitive abilities, which are critical for advanced reasoning and learning. This study aims to evaluate metacognition and critical thinking abilities in LLMs, with a focus on identifying the most effective scales and dimensions for assessment. We propose a comprehensive framework, encompassing three key dimensions: the need for critical thinking processes, the difficulty of calibrating knowns and unknowns, and the difficulty in identifying relevant information. This framework is used to annotate question instances across several benchmarks from BIG-Bench and HELM, aimed at measuring advanced cognitive skills in LLMs. The annotations are generated by the state-of-the-art LLM, GPT-4. These annotations are then used as predictors to build performance models for various LLMs on these benchmarks, with the ultimate goal of determining the extent to which the benchmarks truly measure metacognitive capabilities. Our findings reveal that while many models lack metacognitive capabilities, larger models exhibit some indications of such abilities. Furthermore, the use of a multi-dimensional scale for metacognitive demands improves the predictability compared to a single integrated scale. By providing an evaluation tool for metacognition in LLMs, this study provides insights into the effectiveness of benchmarks in assessing metacognitive abilities. The finding highlights the importance of careful benchmark design and the potential of multi-dimensional scales in capturing the complex nature of metacognition. | es_ES |
dc.format.extent | 76 | es_ES |
dc.language | Español | es_ES |
dc.publisher | Universitat Politècnica de València | es_ES |
dc.rights | Reserva de todos los derechos | es_ES |
dc.subject | Evaluación de IA | es_ES |
dc.subject | GPT4 | es_ES |
dc.subject | Metacognición | es_ES |
dc.subject | Pensamiento crítico | es_ES |
dc.subject | Predictibilidad. | es_ES |
dc.subject | AI evaluation | es_ES |
dc.subject | Large language models | es_ES |
dc.subject | Metacognition | es_ES |
dc.subject | Critical thinking | es_ES |
dc.subject | Predictability | es_ES |
dc.subject | Avaluació d’IA | es_ES |
dc.subject | Grans models de llenguatge (LLM) | es_ES |
dc.subject | Metacognició | es_ES |
dc.subject | Pensament crític | es_ES |
dc.subject | Predictibilitat | es_ES |
dc.subject | Grandes modelos de lenguaje (LLM) | es_ES |
dc.subject | Large language models (LLMs) | es_ES |
dc.subject.classification | LENGUAJES Y SISTEMAS INFORMATICOS | es_ES |
dc.subject.other | Grado en Ciencia de Datos-Grau en Ciència de Dades | es_ES |
dc.title | Metacognition and critical thinking: instance-level demand scales and annotation by LLMs | es_ES |
dc.title.alternative | Metacognició i pensament crític: escales de demanda a nivell d'instància i anotació per LLMs | es_ES |
dc.title.alternative | Metacognición y pensamiento crítico: escalas de exigencia a nivel de instancia y anotación por LLMs | es_ES |
dc.type | Proyecto/Trabajo fin de carrera/grado | es_ES |
dc.rights.accessRights | Cerrado | es_ES |
dc.contributor.affiliation | Universitat Politècnica de València. Departamento de Sistemas Informáticos y Computación - Departament de Sistemes Informàtics i Computació | es_ES |
dc.contributor.affiliation | Universitat Politècnica de València. Escola Tècnica Superior d'Enginyeria Informàtica | es_ES |
dc.description.bibliographicCitation | Jiang Chen, K. (2024). Metacognition and critical thinking: instance-level demand scales and annotation by LLMs. Universitat Politècnica de València. http://hdl.handle.net/10251/208256 | es_ES |
dc.description.accrualMethod | TFGM | es_ES |
dc.relation.pasarela | TFGM\161969 | es_ES |