%PDF-1.4
%
1 0 obj
<>
endobj
2 0 obj
<>stream
Detección de emociones
Aprendizaje profundo
Acoustic echo cancellation
Emotion detection
Deep learning
[ES] El análisis de la señal de audio puede definirse como el proceso de extracción de información relevante a partir de las muestras de la señal. En la mayoría de los casos, las señales de voz y música son captadas por equipos electrónicos para su posterior análisis, pero también son alteradas por señales externas como ecos, ruidos, etc., que dificultan su posterior análisis. En este sentido, es fundamental el desarrollo de algoritmos que preprocesen la señal para reducir al máximo las fuentes externas que la alteran. Este TFG se centra en soluciones basadas en Deep Learning (DL) para dos aplicaciones de audio: la cancelación del eco acústico en sistemas de teleconferencia y la detección de emociones en la voz de una persona. Para la cancelación del eco, se utilizarán algoritmos basados en Redes Generativas Adversariales Condicionales (Conditional Generative Adversarial Networks, cGAN), que han demostrado tener un mejor rendimiento en el campo de la mejora del habla que otros modelos de DL. En cuanto al problema de la detección de emociones, se explorarán técnicas híbridas basadas en redes neuronales convolucionales (Convolutional Neural Networks, CNN) y redes de memoria larga a corto plazo (Long Short-Term Memory , LSTM), así como nuevos modelos DL como los Transformers.
[EN] Audio signal analysis can be defined as the process of extracting relevant information from signal samples. In most cases, speech and music signals are captured by electronic equipment for further analysis, but they are also altered by external signals such as echoes, noise, etc., which hinder their further analysis. In this sense, it is essential to develop algorithms that preprocess the signal to reduce as much as possible the external sources that alter it. This TFG focuses on Deep Learning (DL) based solutions for two audio applications: acoustic echo cancellation in teleconferencing systems and emotion detection in a person's speech. For echo cancellation, algorithms based on conditional Generative Adversarial Networks (cGAN), which have been shown to perform better in the field of speech enhancement than other DL models, will be used. For the emotion detection problem, hybrid techniques based on Convolutional Neural Networks (CNN) and Long Short-Term Memory (LSTM) networks will be explored, as well as new DL models such as Transformers.
Reserva de todos los derechos
Abierto
María Gemma Piñero Sipán
María Rocío del Amor del Amor
http://hdl.handle.net/10251/187795
Universitat Politècnica de València
Español
endstream
endobj
3 0 obj
<>
endobj
4 0 obj
<>
endobj
5 0 obj
<>
endobj
6 0 obj
<>
endobj
7 0 obj
<>
endobj
8 0 obj
<>
endobj
9 0 obj
<>
endobj
10 0 obj
<>
endobj
11 0 obj
<>
endobj
12 0 obj
<>
endobj
13 0 obj
<>
endobj
14 0 obj
<>
endobj
15 0 obj
<>
endobj
16 0 obj
<>
endobj
17 0 obj
<>
endobj
18 0 obj
<>
endobj
19 0 obj
<>
endobj
20 0 obj
<>
endobj
21 0 obj
<>
endobj
22 0 obj
<>
endobj
23 0 obj
<>
endobj
24 0 obj
<>
endobj
25 0 obj
<>
endobj
26 0 obj
<>
endobj
27 0 obj
<>
endobj
28 0 obj
<>
endobj
29 0 obj
<>
endobj
30 0 obj
<>
endobj
31 0 obj
<>
endobj
32 0 obj
<>
endobj
33 0 obj
<>
endobj
34 0 obj
<>
endobj
35 0 obj
<>
endobj
36 0 obj
<>
endobj
37 0 obj
<>
endobj
38 0 obj
<>
endobj
39 0 obj
<>
endobj
40 0 obj
<>
endobj
41 0 obj
<>
endobj
42 0 obj
<>
endobj
43 0 obj
<>
endobj
44 0 obj
<>
endobj
45 0 obj
<>
endobj
46 0 obj
<>
endobj
47 0 obj
<>
endobj
48 0 obj
<>
endobj
49 0 obj
<>
endobj
50 0 obj
<>
endobj
51 0 obj
<>
endobj
52 0 obj
<>
endobj
53 0 obj
<>
endobj
54 0 obj
<>
endobj
55 0 obj
<>
endobj
56 0 obj
<>
endobj
57 0 obj
<>
endobj
58 0 obj
<>
endobj
59 0 obj
<>
endobj
60 0 obj
<>
endobj
61 0 obj
<>
endobj
62 0 obj
<>
endobj
63 0 obj
<>
endobj
64 0 obj
<>
endobj
65 0 obj
<>
endobj
66 0 obj
<>
endobj
67 0 obj
<>
endobj
68 0 obj
<>
endobj
69 0 obj
<>
endobj
70 0 obj
<>
endobj
71 0 obj
<>
endobj
72 0 obj
<>
endobj
73 0 obj
<>
endobj
74 0 obj
<>
endobj
75 0 obj
<>
endobj
76 0 obj
<>
endobj
77 0 obj
<>
endobj
78 0 obj
<>
endobj
79 0 obj
<>
endobj
80 0 obj
<>
endobj
81 0 obj
<>
endobj
82 0 obj
<>
endobj
83 0 obj
<>stream
xS(T0T0 BCs#s3K=K\;C;?
endstream
endobj
84 0 obj
<>
endobj
85 0 obj
<>>
endobj
86 0 obj
<>>
endobj
87 0 obj
<>
endobj
88 0 obj
<
>>
endobj
89 0 obj
<>>
endobj
90 0 obj
<>>
endobj
91 0 obj
<>
endobj
92 0 obj
<>
endobj
93 0 obj
<>stream
xT]o0}ϯN2Ђۗi^"# _>i`N:PP')8s}*`",@AW7*z8UsNީq D&,c@1HвCKMG|y߯gۨ8f~D<^W/bnarw& bpRJFm/J\/S:]K.{4agΛHCitgL4Yi3
TUHˑ)Y{tJ5S\3