- -

Sources and Kinds of Unreliability in Language Models

RiuNet: Repositorio Institucional de la Universidad Politécnica de Valencia

Compartir/Enviar a

Citas

Estadísticas

  • Estadisticas de Uso

Sources and Kinds of Unreliability in Language Models

Mostrar el registro sencillo del ítem

Ficheros en el ítem

dc.contributor.advisor Hernández Orallo, José es_ES
dc.contributor.author Zhou, Lexin es_ES
dc.date.accessioned 2023-06-20T09:42:49Z
dc.date.available 2023-06-20T09:42:49Z
dc.date.created 2023-05-29
dc.date.issued 2023-06-20 es_ES
dc.identifier.uri http://hdl.handle.net/10251/194400
dc.description.abstract [EN] Pretrained artificial intelligence models are made more human-like and human-aligned by scaling them up in resources (e.g., by increasing compute, training data and parameter size) and shaping them up with human feedback. One of the major concerns about the trustworthiness of Large Language Models (LLMs) is their unpredictability from the human point of view. First, the model can solve very challenging tasks while some questions that are considered easy by humans are completely missed by these models (difficulty discordance). Second, models that avoid answering the questions and digress in an unpredictable way may also be considered unreliable (task avoidance). Third, the same question can get solved or not depending on minor changes in the formulation of the question (prompt sensitivity). While all these cases are related to confidence estimation, they are not simply solved by having better logprob estimates from the model. These three unreliability issues are usually identified by experts or users (e.g., in social media) as the most striking or stupid, and not understanding them jeopardises the penetration of LLMs and our trust in them. Consequently, these three elements require specific analysis. This work describes three kinds of unreliability in LLMs (prompt sensitivity, difficulty discordance, and task avoidance), as well as their relations with question difficulty in LLMs. This helps identifying regions of risks. We construct a set of questions of various difficulties in the domain of mathematics (addition), combinatorics (anagrams), and geography (location), with a collection of natural prompt templates (i.e., human-understandable variations of the exact same question) in each domain. With these elements, we analyse where exactly more powerful LLMs make their improvements and whether they create areas of high reliability as a function of instance difficulty, and whether this difficulty is aligned with the human perception of difficulty in which an affirmative case will help reduce unexpected behaviour and increase acceptability. As a result, surprisingly, we have provided evidence that recent models (e.g., GPT-4) have not become more reliable for humans. By studying difficulty discordance, task avoidance and prompt sensitivity of the GPT family we discover that: (1) easy instances for humans are also easy for the models, but scaled-up shaped-up models do not secure a threshold level of difficulty below which the model is fully reliable, (2) early models often avoid user questions, but scaled-up shaped-up models tend to give an apparently sensible, yet wrong answer much more often, and (3) robustness to different natural prompts of the same question is compromised by scaling-up and shaping-up interventions, such as post-filtering moderation mechanism. All this indicates that the path towards reliable general-purpose AI needs an overhaul. es_ES
dc.description.abstract [ES] Los modelos de inteligencia artificial preentrenados se vuelven más parecidos y alineados con los humanos al ampliarlos en recursos y refinarlos con retroalimentación humana. Una de las principales preocupaciones acerca de la confiabilidad de los Grandes Modelos de Lenguaje (GML) es su imprevisibilidad desde el punto de vista de los humanos. Primero, estos modelos pueden resolver tareas muy desafiantes, mientras que fallan algunas preguntas que los humanos consideran fáciles (discordancia de dificultad). En segundo lugar, los modelos que evitan responder a las preguntas y se desvían de forma impredecible también pueden considerarse poco fiables (evitación de tareas). En tercer lugar, la misma pregunta puede resolverse o no dependiendo de cambios menores en la formulación de la pregunta (sensibilidad de prompt). Si bien todos estos casos están relacionados con la estimación de confianza, no se resuelven simplemente teniendo mejores estimaciones logprob del modelo. Estos tres problemas de inconfiabilidad (sensibilidad de prompt, discordancia de dificultad y evitación de tareas) suelen ser amplificados por expertos o usuarios (por ejemplo, en las redes sociales), destacando los más llamativos o estúpidos. No entender este problema de fiabilidad pone en peligro la penetración de los GML y nuestra confianza en ellos. En consecuencia, estos tres elementos requieren un análisis específico. Este trabajo describe estos tres tipos de inconfiabilidad en los GML, así como sus relaciones con la dificultad de las preguntas en los GMLs. Así se puede identificar las regiones de riesgo. Construimos un conjunto de preguntas de diversas dificultades en el dominio de las matemáticas (suma), la combinatoria (anagramas) y la geografía (localidades), con una colección de plantillas de prompt naturales (es decir, variaciones comprensibles por humanos de exactamente la misma pregunta) en cada dominio. Con estos elementos, analizamos dónde exactamente los GML más potentes hacen sus mejoras y si crean áreas de alta confiabilidad en función de la dificultad, y si esta dificultad está alineada con la percepción humana de dificultad en la que un caso afirmativo ayudar a reducir el comportamiento inesperado y aumentar la aceptabilidad. Como resultado, sorprendentemente, hemos proporcionado evidencia de que los modelos recientes (p. ej., GPT-4) no se han vuelto más confiables para los humanos. Al estudiar la discordancia de la dificultad, la evitación de tareas y la sensibilidad de prompt de la familia GPT, descubrimos que: (1) las instancias fáciles para los humanos también lo son para los modelos, pero los modelos con más grandes no aseguran un nivel de dificultad por debajo del cual el modelo es completamente confiable, (2) los primeros modelos a menudo evitan las preguntas de los usuarios, pero los modelos de mayor escala tienden a dar una respuesta aparentemente sensata, aunque incorrecta, con mucha más frecuencia, y (3) la solidez a diferentes indicaciones naturales de la misma pregunta se ve comprometida por la ampliación y refinado de estos modelos, tales como el mecanismo de moderación posterior al filtrado. Todo esto indica que el camino hacia una IA confiable de propósito general necesita repensarse. es_ES
dc.description.abstract [CA] Els models d’intel·ligència artificial preentrenats esdevenen més semblants i alineats als humans en ampliar-los en recursos i refinar-los amb retroalimentació humana. Una de les principals preocupacions sobre la confiança dels grans models de llenguatge (GML) és la seua imprevisibilitat des del punt de vista dels humans. Primer, aquests models poden resoldre tasques molt desafiadores, mentre que aquests models fallen algunes preguntes que els humans consideren fàcils (discordança de dificultat). En segon lloc, els models que eviten respondre les preguntes i desbarren d’una manera imprevisible també es poden considerar poc fiables (evitació de tasques). En tercer lloc, la mateixa pregunta es pot resoldre o no depenent de canvis menors en la formulació de la pregunta (sensibilitat de prompt). Tot i que tots aquests casos estan relacionats amb l’estimació de confiança, no es resolen simplement tenint millors estimacions logprob del model. Aquests tres problemes d’inconfiabilitat (sensibilitat de prompt, discordança de dificultat i evitació de tasques) solen ser amplificats per experts o usuaris (per exemple, a les xarxes socials) quan identifiquen els casos més cridaners o estúpids. No entendre aquest problem de fiabilitat posa en perill la penetració de els GMLs i la nostra confiança en ells. En conseqüència, aquests tres elements requereixen una anàlisi específica. Aquest treball descriu estos tres tipus d’inconfiabilitat als GMLs, així com la relació amb la dificultat de les preguntes. Així poden identificar les regions de risc. Construïm un conjunt de preguntes de diverses dificultats en el domini de les matemàtiques (suma), la combinatòria (anagrames) i la geografia (localitats), amb una col·lecció de plantilles de prompts que siguen naturals (és a dir, variacions comprensibles per humans d’exactament la mateixa pregunta) a cada domini. Amb aquests elements, analitzem on exactament els GMLs més potents fan les seues millores i si creen àrees d’alta fiabilitat en funció de la dificultat, i si aquesta dificultat està alineada amb la percepció humana de dificultat. Com a resultat, sorprenentment, hem proporcionat evidència que els models recents (p. ex., GPT-4) no han esdevingut més fiables per als humans. En estudiar la discordança de la dificultat, l’evitació de tasques i la sensibilitat de prompt de la família GPT, descobrim que: (1) les instàncies fàcils per als humans també ho són per als models, però els models amb forma ampliada no asseguren un nivell de dificultat per sota del qual el model és completament fiable, (2) els primers models sovint eviten les preguntes dels usuaris, però els models modelats a major escala tendeixen a donar una resposta aparentment sensata, encara que incorrecta, amb molta més freqüència , i (3) la solidesa a diferents prompts naturals de la mateixa pregunta es ve compromesa per l’ampliació i refinament d’aquests models, com el mecanisme de moderació de post-filtratge. Tot això indica que el camí cap a una IA fiable de propòsit general necessita repensar-se. es_ES
dc.format.extent 70 es_ES
dc.language Inglés es_ES
dc.publisher Universitat Politècnica de València es_ES
dc.rights Reserva de todos los derechos es_ES
dc.subject Artificial intelligence es_ES
dc.subject Language model es_ES
dc.subject AI evaluation es_ES
dc.subject AI unreliability es_ES
dc.subject Prompt sensitivity es_ES
dc.subject Difficulty discordance es_ES
dc.subject Task avoidance es_ES
dc.subject Inteligencia artificial es_ES
dc.subject Modelo de lenguaje es_ES
dc.subject Evaluación de IA es_ES
dc.subject Falta de confiabilidad de IA es_ES
dc.subject Sensibilidad de prompt es_ES
dc.subject Discordancia de dificultad es_ES
dc.subject Evitación de tareas es_ES
dc.subject.classification LENGUAJES Y SISTEMAS INFORMATICOS es_ES
dc.subject.other Grado en Ciencia de Datos-Grau en Ciència de Dades es_ES
dc.title Sources and Kinds of Unreliability in Language Models es_ES
dc.title.alternative Fuentes y Tipos de Infiabilidad en Modelos de Lenguaje es_ES
dc.title.alternative Fonts i Tipus d'Infiabilitat en Models de Llenguatge es_ES
dc.type Proyecto/Trabajo fin de carrera/grado es_ES
dc.rights.accessRights Cerrado es_ES
dc.contributor.affiliation Universitat Politècnica de València. Departamento de Sistemas Informáticos y Computación - Departament de Sistemes Informàtics i Computació es_ES
dc.contributor.affiliation Universitat Politècnica de València. Escola Tècnica Superior d'Enginyeria Informàtica es_ES
dc.description.bibliographicCitation Zhou, L. (2023). Sources and Kinds of Unreliability in Language Models. Universitat Politècnica de València. http://hdl.handle.net/10251/194400 es_ES
dc.description.accrualMethod TFGM es_ES
dc.relation.pasarela TFGM\154808 es_ES


Este ítem aparece en la(s) siguiente(s) colección(ones)

Mostrar el registro sencillo del ítem