- -

Metacognition and critical thinking: instance-level demand scales and annotation by LLMs

RiuNet: Repositorio Institucional de la Universidad Politécnica de Valencia

Compartir/Enviar a

Citas

Estadísticas

  • Estadisticas de Uso

Metacognition and critical thinking: instance-level demand scales and annotation by LLMs

Mostrar el registro sencillo del ítem

Ficheros en el ítem

dc.contributor.advisor Hernández Orallo, José es_ES
dc.contributor.advisor Martínez Plumed, Fernando es_ES
dc.contributor.author Jiang Chen, Ke-Xin es_ES
dc.date.accessioned 2024-09-17T14:41:22Z
dc.date.available 2024-09-17T14:41:22Z
dc.date.created 2024-07-16
dc.date.issued 2024-09-17 es_ES
dc.identifier.uri http://hdl.handle.net/10251/208256
dc.description.abstract [CA] El camp de la intel·ligència artificial ha portat al desenvolupament de grans models de llenguatge avançats amb impressionants habilitats lingüístiques. No obstant això, encara no està clar fins a quin punt aquests models posseeixen habilitats metacognitives, les quals són fonamentals per a un raonament i aprenentatge avançats. Aquest projecte té com a objectiu avaluar les habilitats de metacognició i pensament crític en els grans models de llenguatge, amb un enfocament en la identificació de les escales i dimensions més efectives per a l’avaluació. Proposem un marc integral, que abasta tres dimensions clau: la necessitat de processos de pensament crític, la dificultat de calibrar el conegut i l’inconegut, i la dificultat en identificar informació rellevant. Aquest marc s’utilitza per anotar instàncies de preguntes en diversos benchmarks de BIG-Bench i HELM, destinats a mesurar habilitats cognitives avançades en els grans models de llenguatge. Les anotacions són generades pel model de llenguatge de última generació, GPT-4. Aquestes anotacions s’utilitzen després com a predictors per a construir models de rendiment per a diversos grans models de llenguatge en aquests benchmarks, amb l’objectiu final de determinar fins a quin punt aquests benchmarks realment mesuren les capacitats metacognitives. Els nostres resultats mostren que, mentre que molts models manquen de capacitats metacognitives, els models més grans mostren algunes indicacions de tals habilitats. A més, l’ús d’una escala multidimensional per a les demandes metacognitives millora la predictibilitat del rendiment en comparació amb una escala integrada única. En proporcionar una eina d’avaluació per a la metacognició en els grans models de llenguatge, aquest projecte ofereix informació sobre l’efectivitat dels benchmarks en l’avaluació de les habilitats metacognitives. Els resultats destaquen la importància d’un disseny meticulós dels benchmarks i el potencial de les escales multidimensionals per capturar la naturalesa complexa de la metacognició. es_ES
dc.description.abstract [ES] El campo de la inteligencia artificial ha llevado al desarrollo grandes modelos de lenguaje avanzados con impresionantes habilidades lingüísticas. Sin embargo, aún no está claro hasta qué punto estos modelos poseen habilidades metacognitivas, las cuales son fundamentales para un razonamiento y aprendizaje avanzados. Este proyecto tiene como objetivo evaluar las habilidades de metacognición y pensamiento crítico en los grandes modelos de lenguaje, con un enfoque en la identificación de las escalas y dimensiones más efectivas para la evaluación. Proponemos un marco integral, que abarca tres dimensiones clave: la necesidad de procesos de pensamiento crítico, la dificultad de calibrar lo conocido y lo desconocido, y la dificultad en identificar información relevante. Este marco se utiliza para anotar instancias de preguntas en varios benchmarks de BIG-Bench y HELM, destinados a medir habilidades cognitivas avanzadas en los grandes modelos de lenguaje. Las anotaciones son generadas por el modelo de lenguaje de última generación, GPT-4. Estas anotaciones se utilizan luego como predictores para construir modelos de rendimiento para varios grandes modelos de lenguaje en estos benchmarks, con el objetivo final de determinar hasta qué punto estos benchmarks realmente miden las capacidades metacognitivas. Nuestros resultados muestran que, mientras que muchos modelos carecen de capacidades metacognitivas, los modelos más grandes muestran algunas indicaciones de tales habilidades. Además, el uso de una escala multidimensional para las demandas metacognitivas mejora la predictibilidad del rendimiento en comparación con una escala integrada única. Al proporcionar una herramienta de evaluación para la metacognición en los grandes modelos de lenguaje, este proyecto ofrece información sobre la efectividad de los benchmarks en la evaluación de las habilidades metacognitivas. Los resultados destacan la importancia de un diseño meticuloso de los benchmarks y el potencial de las escalas multidimensionales para capturar la naturaleza compleja de la metacognición. es_ES
dc.description.abstract [EN] The rapidly growing field of artificial intelligence has led to the development of advanced Large Language Models (LLMs) with impressive language skills. However, it is still unclear the extent to which these models possess metacognitive abilities, which are critical for advanced reasoning and learning. This study aims to evaluate metacognition and critical thinking abilities in LLMs, with a focus on identifying the most effective scales and dimensions for assessment. We propose a comprehensive framework, encompassing three key dimensions: the need for critical thinking processes, the difficulty of calibrating knowns and unknowns, and the difficulty in identifying relevant information. This framework is used to annotate question instances across several benchmarks from BIG-Bench and HELM, aimed at measuring advanced cognitive skills in LLMs. The annotations are generated by the state-of-the-art LLM, GPT-4. These annotations are then used as predictors to build performance models for various LLMs on these benchmarks, with the ultimate goal of determining the extent to which the benchmarks truly measure metacognitive capabilities. Our findings reveal that while many models lack metacognitive capabilities, larger models exhibit some indications of such abilities. Furthermore, the use of a multi-dimensional scale for metacognitive demands improves the predictability compared to a single integrated scale. By providing an evaluation tool for metacognition in LLMs, this study provides insights into the effectiveness of benchmarks in assessing metacognitive abilities. The finding highlights the importance of careful benchmark design and the potential of multi-dimensional scales in capturing the complex nature of metacognition. es_ES
dc.format.extent 76 es_ES
dc.language Español es_ES
dc.publisher Universitat Politècnica de València es_ES
dc.rights Reserva de todos los derechos es_ES
dc.subject Evaluación de IA es_ES
dc.subject GPT4 es_ES
dc.subject Metacognición es_ES
dc.subject Pensamiento crítico es_ES
dc.subject Predictibilidad. es_ES
dc.subject AI evaluation es_ES
dc.subject Large language models es_ES
dc.subject Metacognition es_ES
dc.subject Critical thinking es_ES
dc.subject Predictability es_ES
dc.subject Avaluació d’IA es_ES
dc.subject Grans models de llenguatge (LLM) es_ES
dc.subject Metacognició es_ES
dc.subject Pensament crític es_ES
dc.subject Predictibilitat es_ES
dc.subject Grandes modelos de lenguaje (LLM) es_ES
dc.subject Large language models (LLMs) es_ES
dc.subject.classification LENGUAJES Y SISTEMAS INFORMATICOS es_ES
dc.subject.other Grado en Ciencia de Datos-Grau en Ciència de Dades es_ES
dc.title Metacognition and critical thinking: instance-level demand scales and annotation by LLMs es_ES
dc.title.alternative Metacognició i pensament crític: escales de demanda a nivell d'instància i anotació per LLMs es_ES
dc.title.alternative Metacognición y pensamiento crítico: escalas de exigencia a nivel de instancia y anotación por LLMs es_ES
dc.type Proyecto/Trabajo fin de carrera/grado es_ES
dc.rights.accessRights Cerrado es_ES
dc.contributor.affiliation Universitat Politècnica de València. Departamento de Sistemas Informáticos y Computación - Departament de Sistemes Informàtics i Computació es_ES
dc.contributor.affiliation Universitat Politècnica de València. Escola Tècnica Superior d'Enginyeria Informàtica es_ES
dc.description.bibliographicCitation Jiang Chen, K. (2024). Metacognition and critical thinking: instance-level demand scales and annotation by LLMs. Universitat Politècnica de València. http://hdl.handle.net/10251/208256 es_ES
dc.description.accrualMethod TFGM es_ES
dc.relation.pasarela TFGM\161969 es_ES


Este ítem aparece en la(s) siguiente(s) colección(ones)

Mostrar el registro sencillo del ítem