Metacognition and critical thinking: instance-level demand scales and annotation by LLMs

Jiang Chen, Ke-Xin

Identificarse

Buscar en RiuNet

Listar

Todo RiuNet
Esta colección

Mi cuenta

Acceder

Estadísticas

Ver Estadísticas de uso

Ayuda RiuNet

Admin. UPV

Compartir/Enviar a

Citas

Estadísticas

Metacognition and critical thinking: instance-level demand scales and annotation by LLMs

Mostrar el registro sencillo del ítem

Ficheros en el ítem

Nombre: Jiang - Metacognition ...

Tamaño: 2.803Mb

Formato: PDF

Solicitar una copia al autor

dc.contributor.advisor	Hernández Orallo, José	es_ES
dc.contributor.advisor	Martínez Plumed, Fernando	es_ES
dc.contributor.author	Jiang Chen, Ke-Xin	es_ES
dc.date.accessioned	2024-09-17T14:41:22Z
dc.date.available	2024-09-17T14:41:22Z
dc.date.created	2024-07-16
dc.date.issued	2024-09-17	es_ES
dc.identifier.uri	http://hdl.handle.net/10251/208256
dc.description.abstract	[CA] El camp de la intel·ligència artificial ha portat al desenvolupament de grans models de llenguatge avançats amb impressionants habilitats lingüístiques. No obstant això, encara no està clar fins a quin punt aquests models posseeixen habilitats metacognitives, les quals són fonamentals per a un raonament i aprenentatge avançats. Aquest projecte té com a objectiu avaluar les habilitats de metacognició i pensament crític en els grans models de llenguatge, amb un enfocament en la identificació de les escales i dimensions més efectives per a l’avaluació. Proposem un marc integral, que abasta tres dimensions clau: la necessitat de processos de pensament crític, la dificultat de calibrar el conegut i l’inconegut, i la dificultat en identificar informació rellevant. Aquest marc s’utilitza per anotar instàncies de preguntes en diversos benchmarks de BIG-Bench i HELM, destinats a mesurar habilitats cognitives avançades en els grans models de llenguatge. Les anotacions són generades pel model de llenguatge de última generació, GPT-4. Aquestes anotacions s’utilitzen després com a predictors per a construir models de rendiment per a diversos grans models de llenguatge en aquests benchmarks, amb l’objectiu final de determinar fins a quin punt aquests benchmarks realment mesuren les capacitats metacognitives. Els nostres resultats mostren que, mentre que molts models manquen de capacitats metacognitives, els models més grans mostren algunes indicacions de tals habilitats. A més, l’ús d’una escala multidimensional per a les demandes metacognitives millora la predictibilitat del rendiment en comparació amb una escala integrada única. En proporcionar una eina d’avaluació per a la metacognició en els grans models de llenguatge, aquest projecte ofereix informació sobre l’efectivitat dels benchmarks en l’avaluació de les habilitats metacognitives. Els resultats destaquen la importància d’un disseny meticulós dels benchmarks i el potencial de les escales multidimensionals per capturar la naturalesa complexa de la metacognició.	es_ES
dc.description.abstract	[ES] El campo de la inteligencia artificial ha llevado al desarrollo grandes modelos de lenguaje avanzados con impresionantes habilidades lingüísticas. Sin embargo, aún no está claro hasta qué punto estos modelos poseen habilidades metacognitivas, las cuales son fundamentales para un razonamiento y aprendizaje avanzados. Este proyecto tiene como objetivo evaluar las habilidades de metacognición y pensamiento crítico en los grandes modelos de lenguaje, con un enfoque en la identificación de las escalas y dimensiones más efectivas para la evaluación. Proponemos un marco integral, que abarca tres dimensiones clave: la necesidad de procesos de pensamiento crítico, la dificultad de calibrar lo conocido y lo desconocido, y la dificultad en identificar información relevante. Este marco se utiliza para anotar instancias de preguntas en varios benchmarks de BIG-Bench y HELM, destinados a medir habilidades cognitivas avanzadas en los grandes modelos de lenguaje. Las anotaciones son generadas por el modelo de lenguaje de última generación, GPT-4. Estas anotaciones se utilizan luego como predictores para construir modelos de rendimiento para varios grandes modelos de lenguaje en estos benchmarks, con el objetivo final de determinar hasta qué punto estos benchmarks realmente miden las capacidades metacognitivas. Nuestros resultados muestran que, mientras que muchos modelos carecen de capacidades metacognitivas, los modelos más grandes muestran algunas indicaciones de tales habilidades. Además, el uso de una escala multidimensional para las demandas metacognitivas mejora la predictibilidad del rendimiento en comparación con una escala integrada única. Al proporcionar una herramienta de evaluación para la metacognición en los grandes modelos de lenguaje, este proyecto ofrece información sobre la efectividad de los benchmarks en la evaluación de las habilidades metacognitivas. Los resultados destacan la importancia de un diseño meticuloso de los benchmarks y el potencial de las escalas multidimensionales para capturar la naturaleza compleja de la metacognición.	es_ES
dc.description.abstract	[EN] The rapidly growing field of artificial intelligence has led to the development of advanced Large Language Models (LLMs) with impressive language skills. However, it is still unclear the extent to which these models possess metacognitive abilities, which are critical for advanced reasoning and learning. This study aims to evaluate metacognition and critical thinking abilities in LLMs, with a focus on identifying the most effective scales and dimensions for assessment. We propose a comprehensive framework, encompassing three key dimensions: the need for critical thinking processes, the difficulty of calibrating knowns and unknowns, and the difficulty in identifying relevant information. This framework is used to annotate question instances across several benchmarks from BIG-Bench and HELM, aimed at measuring advanced cognitive skills in LLMs. The annotations are generated by the state-of-the-art LLM, GPT-4. These annotations are then used as predictors to build performance models for various LLMs on these benchmarks, with the ultimate goal of determining the extent to which the benchmarks truly measure metacognitive capabilities. Our findings reveal that while many models lack metacognitive capabilities, larger models exhibit some indications of such abilities. Furthermore, the use of a multi-dimensional scale for metacognitive demands improves the predictability compared to a single integrated scale. By providing an evaluation tool for metacognition in LLMs, this study provides insights into the effectiveness of benchmarks in assessing metacognitive abilities. The finding highlights the importance of careful benchmark design and the potential of multi-dimensional scales in capturing the complex nature of metacognition.	es_ES
dc.format.extent	76	es_ES
dc.language	Español	es_ES
dc.publisher	Universitat Politècnica de València	es_ES
dc.rights	Reserva de todos los derechos	es_ES
dc.subject	Evaluación de IA	es_ES
dc.subject	GPT4	es_ES
dc.subject	Metacognición	es_ES
dc.subject	Pensamiento crítico	es_ES
dc.subject	Predictibilidad.	es_ES
dc.subject	AI evaluation	es_ES
dc.subject	Large language models	es_ES
dc.subject	Metacognition	es_ES
dc.subject	Critical thinking	es_ES
dc.subject	Predictability	es_ES
dc.subject	Avaluació d’IA	es_ES
dc.subject	Grans models de llenguatge (LLM)	es_ES
dc.subject	Metacognició	es_ES
dc.subject	Pensament crític	es_ES
dc.subject	Predictibilitat	es_ES
dc.subject	Grandes modelos de lenguaje (LLM)	es_ES
dc.subject	Large language models (LLMs)	es_ES
dc.subject.classification	LENGUAJES Y SISTEMAS INFORMATICOS	es_ES
dc.subject.other	Grado en Ciencia de Datos-Grau en Ciència de Dades	es_ES
dc.title	Metacognition and critical thinking: instance-level demand scales and annotation by LLMs	es_ES
dc.title.alternative	Metacognició i pensament crític: escales de demanda a nivell d'instància i anotació per LLMs	es_ES
dc.title.alternative	Metacognición y pensamiento crítico: escalas de exigencia a nivel de instancia y anotación por LLMs	es_ES
dc.type	Proyecto/Trabajo fin de carrera/grado	es_ES
dc.rights.accessRights	Cerrado	es_ES
dc.contributor.affiliation	Universitat Politècnica de València. Departamento de Sistemas Informáticos y Computación - Departament de Sistemes Informàtics i Computació	es_ES
dc.contributor.affiliation	Universitat Politècnica de València. Escola Tècnica Superior d'Enginyeria Informàtica	es_ES
dc.description.bibliographicCitation	Jiang Chen, K. (2024). Metacognition and critical thinking: instance-level demand scales and annotation by LLMs. Universitat Politècnica de València. http://hdl.handle.net/10251/208256	es_ES
dc.description.accrualMethod	TFGM	es_ES
dc.relation.pasarela	TFGM\161969	es_ES

Este ítem aparece en la(s) siguiente(s) colección(ones)

ETSINF - Trabajos académicos [5160]
Escola Tècnica Superior d'Enginyeria Informàtica

Mostrar el registro sencillo del ítem

Metacognition and critical thinking: instance-level demand scales and annotation by LLMs

RiuNet: Repositorio Institucional de la Universidad Politécnica de Valencia

Buscar en RiuNet

Listar

Todo RiuNet

Esta colección

Mi cuenta

Estadísticas

Ayuda RiuNet

Admin. UPV

Compartir/Enviar a

Citas

Estadísticas

Metacognition and critical thinking: instance-level demand scales and annotation by LLMs

Ficheros en el ítem

Este ítem aparece en la(s) siguiente(s) colección(ones)