Resumen:
|
[ES] Las orejas tienen un carácter único para cada persona. Debido a este hecho, el interés por
determinar su forma ha aumentado considerablemente en las últimas décadas. Algunas aplicaciones en
las que la detección de ...[+]
[ES] Las orejas tienen un carácter único para cada persona. Debido a este hecho, el interés por
determinar su forma ha aumentado considerablemente en las últimas décadas. Algunas aplicaciones en
las que la detección de puntos de referencia del oído es útil son: Determinación de la función de
transferencia relacionada con la cabeza, reconstrucción de la cabeza humana en 3D y aplicaciones
biométricas.
Este trabajo parte de la colección A de la base de datos de oído "In-the-wild", que contiene 605
imágenes de oído que contienen anotaciones para 55 puntos. Para compensar el tamaño limitado de la
base de datos utilizada, se pueden utilizar varias técnicas de aumento de datos. Los mecanismos
estándar utilizados para el aumento son: operaciones para rotar, voltear, cambiar brillo, contraste, tono,
saturación o canales. Así, este trabajo presenta una comparación entre 5 pipelines de aumento de datos
basados en las técnicas mencionadas anteriormente.Se utilizan para entrenar múltiples modelos con la
misma arquitectura para la detección de puntos de referencia del oído. Los resultados obtenidos
después de la capacitación se comparan para ver qué canalización de aumento de datos proporciona los
mejores resultados.
Además de comparar las 5 canalizaciones de aumento de datos, este trabajo también propone una
nueva arquitectura de red neuronal, llamada ResNet-42, para detectar los puntos de referencia del oído.
Además, se utiliza una función de pérdida diferente, a saber, Wing Loss, en contraste con las clásicas
utilizadas hasta ahora para esta tarea.
[-]
[EN] The ears have a unique character for each person. Due to this fact, the interest in determining its
shape has increased considerably in recent decades. Some applications where the ear landmarks
detection is useful ...[+]
[EN] The ears have a unique character for each person. Due to this fact, the interest in determining its
shape has increased considerably in recent decades. Some applications where the ear landmarks
detection is useful are: Head-Related Transfer Function determination, 3D human head reconstruction
and biometric applications.
This work starts from collection A of the "In-the-wild" Ear Database, which contains 605 ear
images containing annotations for 55-points. In order to compensate the limited size of the used
database, several data augmentation techniques can be used. The standard mechanisms used for
augmentation are: operations to rotate, flip, change brightness, contrast, hue, saturation or channels.
Thus, this work presents a comparison between 5 data augmentation pipelines based on the previously
mentioned techniques They are used to train multiple models with same architecture for ear landmarks
detection. The results obtained after the training are then compared to see which data augmentation
pipeline provides the best results
In addition to comparing the 5 data augmentation pipelines, this work also proposes a new neural
network architecture, called ResNet-42, for detecting the ear landmarks. Moreover, a different loss
function, namely the Wing Loss, is used in contrast to the classical ones used so far for this task.
[-]
|