Artificial intelligence models using speech and text for psychological assessment
Date
Authors
Editors
Other authorships
Organizational Units
Handle
Citation
Degree
Abstract
[ES] La Inteligencia Artificial (IA) está avanzando rápidamente y transformando la forma en que trabajamos, nos comunicamos y vivimos, con un uso cada vez mayor en múltiples campos. En salud mental, la IA tiene un gran potencial para abordar desafíos únicos, como la falta de marcadores objetivos para la evaluación psicológica y la dependencia de autoinformes y observaciones clínicas que son propensos a sesgos. A medida que continúan los esfuerzos por mejorar la evaluación clínica, la IA ofrece un camino para descubrir vínculos cuantificables entre el comportamiento y el funcionamiento psicológico. Entre las señales de comportamiento estudiadas en la literatura, el habla es una fuente particularmente rica y no invasiva de información. La producción del habla es altamente sensible a los cambios psicológicos, capturando tanto las manifestaciones conscientes como inconscientes de los estados mentales. Estos cambios son observables en dos dimensiones principales: las propiedades acústicas del habla, es decir, cómo se dice algo; y su contenido lingüístico, es decir, lo que se dice. Por tanto, la aplicación de técnicas de procesamiento de habla y texto permite identificar patrones relevantes asociados con trastornos de salud mental. Esta tesis investiga el uso de la IA y el análisis del habla para evaluar tres constructos que abarcan diferentes dimensiones de la psicología humana: el estilo de apego, un estado interno y estable que determina cómo se comportan los individuos en sus relaciones cercanas a lo largo de su vida; las emociones, que son estados internos y transitorios que fluctúan en respuesta al contexto; y la depresión, un trastorno de salud mental caracterizado por alteraciones persistentes en el estado de ánimo, la cognición y el comportamiento. Al examinar el habla como una ventana hacia cada una de estas dimensiones, esta tesis adopta un enfoque basado en datos para la evaluación psicológica. Se diseñaron y recopilaron cuidadosamente conjuntos de datos específicos para estudiar cada uno de los constructos psicológicos. Para el apego, se utilizó un sistema remoto para recopilar respuestas orales a preguntas abiertas. Para las emociones, se creó y liberó públicamente la novedosa base de datos EMOVOME, que contiene mensajes de voz espontáneos de conversaciones reales. Para la depresión, se obtuvo la base de datos DEPTALK utilizando un innovador sistema de humanos virtuales diseñados para entablar conversaciones informales y abiertas. Usando estas bases de datos, se desarrollaron modelos de IA utilizando tanto características acústicas como lingüísticas. Las técnicas de modelado variaron desde el aprendizaje automático tradicional con características definidas manualmente hasta los modelos de aprendizaje profundo y modelos fundamentales de vanguardia, reflejando la evolución en el campo de la IA. Estos modelos fueron evaluados mediante análisis cuantitativos y cualitativos para asegurar su rendimiento e interpretabilidad. Además, se evaluó la equidad examinando el sesgo de género en los modelos de IA. En general, esta tesis resalta el potencial del habla como un marcador objetivo y subraya el valor de las metodologías basadas en IA para avanzar en la evaluación psicológica. Al abordar diversas dimensiones psicológicas -estados estables y transitorios, y trastornos clínicos- este trabajo contribuye al desarrollo de herramientas objetivas y escalables que pueden asistir a los clínicos en la detección, comprensión y monitoreo de los trastornos de salud mental.
[CA] La Intel·ligència Artificial (IA) està avançant ràpidament i transformant la manera com treballem, ens comuniquem i vivim, amb un ús cada vegada major en múltiples camps. En salut mental, la IA té un gran potencial per afrontar desafiaments únics, com la manca de marcadors objectius per a l'avaluació psicològica i la dependència d'autoinformes i observacions clíniques que són propensos a biaixos. A mesura que els esforços per millorar l'avaluació clínica continuen, la IA ofereix un camí per descobrir vincles quantificables entre el comportament i el funcionament psicològic. Entre els senyals de comportament estudiats en la literatura, la parla és una font especialment rica i no invasiva d'informació. La producció de la parla és altament sensible als canvis psicològics, capturant tant les manifestacions conscients com inconscients dels estats mentals. Estos canvis són observables en dos dimensions principals: les propietats acústiques de la parla, és a dir, com es diu alguna cosa; i el seu contingut lingüístic, és a dir, què es diu. Per tant, l'aplicació de tècniques de processament de parla i text permet identificar patrons rellevants associats amb trastorns de salut mental. Esta tesi investiga l'ús de la IA i l'anàlisi de la parla per avaluar tres constructes que abasten diferents dimensions de la psicologia humana: l'estil d'aferrament, un estat intern i estable que modela com es comporten els individus en les seues relacions properes al llarg de la seua vida; les emocions, que són estats interns i transitoris que fluctuen en resposta al context; i la depressió, un trastorn de salut mental caracteritzat per alteracions persistents en l'estat d'ànim, la cognició i el comportament. En examinar la parla com una finestra a cada una d'aquestes dimensions, esta tesi adopta un enfocament basat en dades per a l'avaluació psicològica. Es van dissenyar i recopilar acuradament conjunts de dades específics per estudiar cadascun dels constructes psicològics. Per a l'aferrament, es va utilitzar un sistema remot per recopilar respostes orals a preguntes obertes. Per a les emocions, es va crear i alliberar públicament la nova base de dades EMOVOME, que conté missatges de veu espontanis de converses reals. Per a la depressió, es va recopilar la base de dades DEPTALK utilitzant un sistema innovador d'humans virtuals dissenyats per entaular converses informals i obertes. Utilitzant aquestes bases de dades, es van desenvolupar models d'IA utilitzant tant característiques acústiques com lingüístiques. Les tècniques de modelatge van variar des de l'aprenentatge automàtic tradicional amb característiques definides manualment fins als models d'aprenentatge profund i els models fonamentals d'avantguarda, reflectint l'evolució en el camp de la IA. Estos models van ser avaluats mitjançant anàlisis quantitatives i qualitatives per assegurar el seu rendiment i interpretabilitat. A més, es va avaluar l'equitat examinant el biaix de gènere en els models d'IA. En general, esta tesi ressalta el potencial de la parla com a marcador objectiu i subratlla el valor de les metodologies basades en IA per avançar en l'avaluació psicològica. En abordar diverses dimensions psicològiques -estats estables i transitoris, i trastorns clínics- aquest treball contribueix al desenvolupament d'eines objectives i escalables que poden ajudar els clínics en la detecció, comprensió i seguiment dels trastorns de salut mental.
[EN] Artificial Intelligence (AI) is rapidly advancing and transforming the way we work, communicate, and live, with an increasing use in multiple fields. In mental health, AI has great potential to address unique challenges, such as the lack of objective markers for psychological assessment and the reliance on self-reports and clinical observations which are prone to bias. As efforts continue to improve clinical evaluation, AI provides a pathway to uncover quantifiable links between behavior and psychological functioning. Among the behavioral signals studied in the literature, speech is as a particularly rich and non-invasive source of information. Speech production is highly sensitive to psychological changes, capturing both conscious and unconscious manifestations of mental states. These changes are observable across two primary dimensions: the acoustic properties of speech, i.e. how something is said; and its linguistic content, i.e. what is said. Consequently, the application of speech and text processing techniques enables the identification of meaningful patterns associated with mental health conditions. This thesis investigates the use of AI and speech analysis to assess three constructs that span different dimensions of human psychology: attachment style, an internal stable state that shapes how individuals behave in their close relationships across the lifespan; emotions, which are internal transitory states that fluctuate in response to context; and depression, a mental health disorder characterized by persistent disturbances in mood, cognition, and behavior. By examining speech as a window into each of these dimensions, this thesis adopts a data-driven approach to psychological assessment. Dedicated datasets were carefully designed and collected to study each of the psychological constructs. For attachment, a remote system was used to collect speech responses to open-ended questions. For emotions, the novel EMOVOME dataset was created and publicly released, featuring spontaneous voice messages from real-life conversations. For depression, the DEPTALK dataset was collected using an innovative system of virtual humans designed to engage in casual, open-ended conversation. Leveraging these datasets, AI models were developed using both acoustic and linguistic features. The modeling approaches ranged from traditional machine learning with hand-crafted features to cutting-edge deep learning and foundation models, reflecting the evolving landscape of AI. These models were evaluated using quantitative and qualitative analyses to ensure performance and interpretability. Furthermore, fairness was evaluated by examining gender bias in AI models. Overall, this thesis highlights the potential of speech as an objective marker and underscores the value of AI-based methodologies in advancing psychological assessment. By addressing a range of psychological dimensions -stable and transitory states, and clinical disorders- this work contributes to the development of objective and scalable tools that can assist clinicians in the detection, understanding, and monitoring of mental health conditions.



