Resumen:
|
[ES] La identificación de patrones de señales musicales es la base para identificar la correspondencia de un determinado extracto musical con alguno de los contenidos incluidos dentro de una base de datos. Conocidas ...[+]
[ES] La identificación de patrones de señales musicales es la base para identificar la correspondencia de un determinado extracto musical con alguno de los contenidos incluidos dentro de una base de datos. Conocidas aplicaciones como Shazam o Soundhound realizan esta operación para identificar temas musicales a partir de cortos fragmentos de los mismos. Los patrones o huellas espectrales habitualmente usados se basan en la detección de puntos relevantes en el espectrograma (generalmente relacionados con máximos de energía) que contienen cierta singularidad que permite diferenciarlos del resto. Algunas de estas estrategias no son robustas cuando, más allá del problema de identificación, se pretende resolver un problema de emparejamiento de audio (identificación de los temas de audio que guardan alguna correspondencia con el fragmento en cuestión, independientemente de si no contiene exactamente la misma versión, ritmo, tono, o simplemente hay ruido en el ambiente o es una versión simplificada como puede ser un extracto silbado o tatareado).
En este trabajo se pretende explorar la capacidad del empleo de técnicas de aprendizaje automático basado en el manejo de datos (Machine Learning), como un ejemplo de la aplicación de las técnicas de inteligencia artificial para resolver el problema de identificación y emparejamiento de patrones de audio. En concreto, se analizará la aptitud de los clasificadores basados en redes neuronales para realizar esta tarea. Para ello se partirá de una base de datos reducida, que aplicando técnicas de aumento de datos dotará a la red robustez para realizar correctamente la tarea de emparejamiento además de la de identificación.
[-]
[EN] The identification of patterns of musical signals is the basis for identifying the matching of a certain musical excerpt with any of the contents included within a database. Well-known applications such as Shazam or ...[+]
[EN] The identification of patterns of musical signals is the basis for identifying the matching of a certain musical excerpt with any of the contents included within a database. Well-known applications such as Shazam or Soundhound perform this operation to identify musical themes from short fragments of them. The commonly used spectral patterns or fingerprints are based on the detection of relevant points in the spectrogram (generally related to energy maxima) that contain a certain singularity that allows them to be differentiated from the rest. Some of these strategies are not robust when, beyond the identification problem, the aim is to solve an audio matching problem (identification of audio file that have some correspondence with the fragment in question, regardless of whether they do not contain exactly the same version, rhythm, tone, or there is some noise in the environment or it is a simplified version such as a whistled or hummed extract).
This work aims to explore the capacity of using machine learning techniques, as an example of the application of artificial intelligence techniques to solve the problem of identifying and matching audio patterns. Specifically, the ability of classifiers based on neural networks to perform this task will be analyzed. To do this, a reduced database jointly with data augmentation techniques will be used, providing the network with robustness to correctly perform the matching task in addition to the identification task.
[-]
|