Sources and Kinds of Unreliability in Language Models

Zhou, Lexin

Identificarse

Buscar en RiuNet

Listar

Todo RiuNet
Esta colección

Mi cuenta

Acceder

Estadísticas

Ver Estadísticas de uso

Ayuda RiuNet

Admin. UPV

Compartir/Enviar a

Citas

Estadísticas

Sources and Kinds of Unreliability in Language Models

Mostrar el registro sencillo del ítem

Ficheros en el ítem

Nombre: Zhou - Sources and ...

Tamaño: 3.190Mb

Formato: PDF

Solicitar una copia al autor

dc.contributor.advisor	Hernández Orallo, José	es_ES
dc.contributor.author	Zhou, Lexin	es_ES
dc.date.accessioned	2023-06-20T09:42:49Z
dc.date.available	2023-06-20T09:42:49Z
dc.date.created	2023-05-29
dc.date.issued	2023-06-20	es_ES
dc.identifier.uri	http://hdl.handle.net/10251/194400
dc.description.abstract	[EN] Pretrained artificial intelligence models are made more human-like and human-aligned by scaling them up in resources (e.g., by increasing compute, training data and parameter size) and shaping them up with human feedback. One of the major concerns about the trustworthiness of Large Language Models (LLMs) is their unpredictability from the human point of view. First, the model can solve very challenging tasks while some questions that are considered easy by humans are completely missed by these models (difficulty discordance). Second, models that avoid answering the questions and digress in an unpredictable way may also be considered unreliable (task avoidance). Third, the same question can get solved or not depending on minor changes in the formulation of the question (prompt sensitivity). While all these cases are related to confidence estimation, they are not simply solved by having better logprob estimates from the model. These three unreliability issues are usually identified by experts or users (e.g., in social media) as the most striking or stupid, and not understanding them jeopardises the penetration of LLMs and our trust in them. Consequently, these three elements require specific analysis. This work describes three kinds of unreliability in LLMs (prompt sensitivity, difficulty discordance, and task avoidance), as well as their relations with question difficulty in LLMs. This helps identifying regions of risks. We construct a set of questions of various difficulties in the domain of mathematics (addition), combinatorics (anagrams), and geography (location), with a collection of natural prompt templates (i.e., human-understandable variations of the exact same question) in each domain. With these elements, we analyse where exactly more powerful LLMs make their improvements and whether they create areas of high reliability as a function of instance difficulty, and whether this difficulty is aligned with the human perception of difficulty in which an affirmative case will help reduce unexpected behaviour and increase acceptability. As a result, surprisingly, we have provided evidence that recent models (e.g., GPT-4) have not become more reliable for humans. By studying difficulty discordance, task avoidance and prompt sensitivity of the GPT family we discover that: (1) easy instances for humans are also easy for the models, but scaled-up shaped-up models do not secure a threshold level of difficulty below which the model is fully reliable, (2) early models often avoid user questions, but scaled-up shaped-up models tend to give an apparently sensible, yet wrong answer much more often, and (3) robustness to different natural prompts of the same question is compromised by scaling-up and shaping-up interventions, such as post-filtering moderation mechanism. All this indicates that the path towards reliable general-purpose AI needs an overhaul.	es_ES
dc.description.abstract	[ES] Los modelos de inteligencia artificial preentrenados se vuelven más parecidos y alineados con los humanos al ampliarlos en recursos y refinarlos con retroalimentación humana. Una de las principales preocupaciones acerca de la confiabilidad de los Grandes Modelos de Lenguaje (GML) es su imprevisibilidad desde el punto de vista de los humanos. Primero, estos modelos pueden resolver tareas muy desafiantes, mientras que fallan algunas preguntas que los humanos consideran fáciles (discordancia de dificultad). En segundo lugar, los modelos que evitan responder a las preguntas y se desvían de forma impredecible también pueden considerarse poco fiables (evitación de tareas). En tercer lugar, la misma pregunta puede resolverse o no dependiendo de cambios menores en la formulación de la pregunta (sensibilidad de prompt). Si bien todos estos casos están relacionados con la estimación de confianza, no se resuelven simplemente teniendo mejores estimaciones logprob del modelo. Estos tres problemas de inconfiabilidad (sensibilidad de prompt, discordancia de dificultad y evitación de tareas) suelen ser amplificados por expertos o usuarios (por ejemplo, en las redes sociales), destacando los más llamativos o estúpidos. No entender este problema de fiabilidad pone en peligro la penetración de los GML y nuestra confianza en ellos. En consecuencia, estos tres elementos requieren un análisis específico. Este trabajo describe estos tres tipos de inconfiabilidad en los GML, así como sus relaciones con la dificultad de las preguntas en los GMLs. Así se puede identificar las regiones de riesgo. Construimos un conjunto de preguntas de diversas dificultades en el dominio de las matemáticas (suma), la combinatoria (anagramas) y la geografía (localidades), con una colección de plantillas de prompt naturales (es decir, variaciones comprensibles por humanos de exactamente la misma pregunta) en cada dominio. Con estos elementos, analizamos dónde exactamente los GML más potentes hacen sus mejoras y si crean áreas de alta confiabilidad en función de la dificultad, y si esta dificultad está alineada con la percepción humana de dificultad en la que un caso afirmativo ayudar a reducir el comportamiento inesperado y aumentar la aceptabilidad. Como resultado, sorprendentemente, hemos proporcionado evidencia de que los modelos recientes (p. ej., GPT-4) no se han vuelto más confiables para los humanos. Al estudiar la discordancia de la dificultad, la evitación de tareas y la sensibilidad de prompt de la familia GPT, descubrimos que: (1) las instancias fáciles para los humanos también lo son para los modelos, pero los modelos con más grandes no aseguran un nivel de dificultad por debajo del cual el modelo es completamente confiable, (2) los primeros modelos a menudo evitan las preguntas de los usuarios, pero los modelos de mayor escala tienden a dar una respuesta aparentemente sensata, aunque incorrecta, con mucha más frecuencia, y (3) la solidez a diferentes indicaciones naturales de la misma pregunta se ve comprometida por la ampliación y refinado de estos modelos, tales como el mecanismo de moderación posterior al filtrado. Todo esto indica que el camino hacia una IA confiable de propósito general necesita repensarse.	es_ES
dc.description.abstract	[CA] Els models d’intel·ligència artificial preentrenats esdevenen més semblants i alineats als humans en ampliar-los en recursos i refinar-los amb retroalimentació humana. Una de les principals preocupacions sobre la confiança dels grans models de llenguatge (GML) és la seua imprevisibilitat des del punt de vista dels humans. Primer, aquests models poden resoldre tasques molt desafiadores, mentre que aquests models fallen algunes preguntes que els humans consideren fàcils (discordança de dificultat). En segon lloc, els models que eviten respondre les preguntes i desbarren d’una manera imprevisible també es poden considerar poc fiables (evitació de tasques). En tercer lloc, la mateixa pregunta es pot resoldre o no depenent de canvis menors en la formulació de la pregunta (sensibilitat de prompt). Tot i que tots aquests casos estan relacionats amb l’estimació de confiança, no es resolen simplement tenint millors estimacions logprob del model. Aquests tres problemes d’inconfiabilitat (sensibilitat de prompt, discordança de dificultat i evitació de tasques) solen ser amplificats per experts o usuaris (per exemple, a les xarxes socials) quan identifiquen els casos més cridaners o estúpids. No entendre aquest problem de fiabilitat posa en perill la penetració de els GMLs i la nostra confiança en ells. En conseqüència, aquests tres elements requereixen una anàlisi específica. Aquest treball descriu estos tres tipus d’inconfiabilitat als GMLs, així com la relació amb la dificultat de les preguntes. Així poden identificar les regions de risc. Construïm un conjunt de preguntes de diverses dificultats en el domini de les matemàtiques (suma), la combinatòria (anagrames) i la geografia (localitats), amb una col·lecció de plantilles de prompts que siguen naturals (és a dir, variacions comprensibles per humans d’exactament la mateixa pregunta) a cada domini. Amb aquests elements, analitzem on exactament els GMLs més potents fan les seues millores i si creen àrees d’alta fiabilitat en funció de la dificultat, i si aquesta dificultat està alineada amb la percepció humana de dificultat. Com a resultat, sorprenentment, hem proporcionat evidència que els models recents (p. ex., GPT-4) no han esdevingut més fiables per als humans. En estudiar la discordança de la dificultat, l’evitació de tasques i la sensibilitat de prompt de la família GPT, descobrim que: (1) les instàncies fàcils per als humans també ho són per als models, però els models amb forma ampliada no asseguren un nivell de dificultat per sota del qual el model és completament fiable, (2) els primers models sovint eviten les preguntes dels usuaris, però els models modelats a major escala tendeixen a donar una resposta aparentment sensata, encara que incorrecta, amb molta més freqüència , i (3) la solidesa a diferents prompts naturals de la mateixa pregunta es ve compromesa per l’ampliació i refinament d’aquests models, com el mecanisme de moderació de post-filtratge. Tot això indica que el camí cap a una IA fiable de propòsit general necessita repensar-se.	es_ES
dc.format.extent	70	es_ES
dc.language	Inglés	es_ES
dc.publisher	Universitat Politècnica de València	es_ES
dc.rights	Reserva de todos los derechos	es_ES
dc.subject	Artificial intelligence	es_ES
dc.subject	Language model	es_ES
dc.subject	AI evaluation	es_ES
dc.subject	AI unreliability	es_ES
dc.subject	Prompt sensitivity	es_ES
dc.subject	Difficulty discordance	es_ES
dc.subject	Task avoidance	es_ES
dc.subject	Inteligencia artificial	es_ES
dc.subject	Modelo de lenguaje	es_ES
dc.subject	Evaluación de IA	es_ES
dc.subject	Falta de confiabilidad de IA	es_ES
dc.subject	Sensibilidad de prompt	es_ES
dc.subject	Discordancia de dificultad	es_ES
dc.subject	Evitación de tareas	es_ES
dc.subject.classification	LENGUAJES Y SISTEMAS INFORMATICOS	es_ES
dc.subject.other	Grado en Ciencia de Datos-Grau en Ciència de Dades	es_ES
dc.title	Sources and Kinds of Unreliability in Language Models	es_ES
dc.title.alternative	Fuentes y Tipos de Infiabilidad en Modelos de Lenguaje	es_ES
dc.title.alternative	Fonts i Tipus d'Infiabilitat en Models de Llenguatge	es_ES
dc.type	Proyecto/Trabajo fin de carrera/grado	es_ES
dc.rights.accessRights	Cerrado	es_ES
dc.contributor.affiliation	Universitat Politècnica de València. Departamento de Sistemas Informáticos y Computación - Departament de Sistemes Informàtics i Computació	es_ES
dc.contributor.affiliation	Universitat Politècnica de València. Escola Tècnica Superior d'Enginyeria Informàtica	es_ES
dc.description.bibliographicCitation	Zhou, L. (2023). Sources and Kinds of Unreliability in Language Models. Universitat Politècnica de València. http://hdl.handle.net/10251/194400	es_ES
dc.description.accrualMethod	TFGM	es_ES
dc.relation.pasarela	TFGM\154808	es_ES

Este ítem aparece en la(s) siguiente(s) colección(ones)

ETSINF - Trabajos académicos [5160]
Escola Tècnica Superior d'Enginyeria Informàtica

Mostrar el registro sencillo del ítem

Sources and Kinds of Unreliability in Language Models

RiuNet: Repositorio Institucional de la Universidad Politécnica de Valencia

Buscar en RiuNet

Listar

Todo RiuNet

Esta colección

Mi cuenta

Estadísticas

Ayuda RiuNet

Admin. UPV

Compartir/Enviar a

Citas

Estadísticas

Sources and Kinds of Unreliability in Language Models

Ficheros en el ítem

Este ítem aparece en la(s) siguiente(s) colección(ones)