Resumen:
|
[ES] El presente trabajo tiene por finalidad desarrollar una integración de reconocimiento de voz y transcripción de audio a texto para una aplicación desarrollada en .NET. Dicha aplicación todavía se encuentra en fase de ...[+]
[ES] El presente trabajo tiene por finalidad desarrollar una integración de reconocimiento de voz y transcripción de audio a texto para una aplicación desarrollada en .NET. Dicha aplicación todavía se encuentra en fase de desarrollo y la integración de estas herramientas de inteligencia artificial supone un punto clave para ofrecer notables diferencias respecto a los competidores. En concreto, proporcionará la posibilidad de autenticarse en la aplicación mediante el reconocimiento de voz. Como también la transcripción de archivos de audio a texto. Estas funcionalidades ayudarán a aumentar la accesibilidad y la facilidad de uso. Este proyecto se ha llevado a cabo siguiendo una metodología ágil adaptada al contexto del desarrollo de software. De esta forma se ha podido realizar el desarrollo de la integración de manera incremental, verificando el correcto funcionamiento del producto software en un entorno real de ejecución. Además, ha permitido asegurar la calidad del código ya que se han ido descubriendo errores y mejoras a realizar durante el proceso. La tecnología utilizada para el desarrollo de la integración ha sido ASP.NET Core, para adaptar el microservicio ya existente, desarrollado en C#, permitiendo la comunicación con estas nuevas aplicaciones. Para ofrecer la funcionalidad externa de reconocimiento de voz y transcripción de audio a texto se han desarrollado servicios en Python que utilizan Whisper y Pyannote, dos librerías que proporcionan dicha funcionalidad.
[-]
[EN] The purpose of this work is to develop an integration of speech recognition and speech-to-text transcription for an application developed in .NET. This application is still in the development phase and the integration ...[+]
[EN] The purpose of this work is to develop an integration of speech recognition and speech-to-text transcription for an application developed in .NET. This application is still in the development phase and the integration of these artificial intelligence tools is a key point to offer significant differences compared to competitors. Specifically, it will provide the possibility of being able to authenticate in the application through voice recognition. Also, the possibility of transcribing audio files to text. These functionalities will help to increase accessibility and ease of use. The project has been carried out following an agile methodology adapted to the context of software development. In this wat, it has been possible to carry out the development of the integration in an incremental way, verifying the correct functionality of the software product in a real execution environment. Furthermore, it has allowed to ensure the quality of the code since errors have been discovered and improvements during the development process. The technology used for the development of the integration has been ASP.NET Core, to adapt the existing microservice, developed in C#, allowing communication with these new applications. To offer the external functionality of speech recognition and speech-to-text transcription, services have been developed in Python that use Whisper and Pyannote, two libraries that provide such functionality.
[-]
[CA] El present treball té per finalitat desenvolupar una integració de reconeixement de veu i
transcripció d'àudio a text per a una aplicació desenvolupada en .NET. Aquesta aplicació
encara es troba en fase de desenvolupament ...[+]
[CA] El present treball té per finalitat desenvolupar una integració de reconeixement de veu i
transcripció d'àudio a text per a una aplicació desenvolupada en .NET. Aquesta aplicació
encara es troba en fase de desenvolupament i la integració d'aquestes eines d'intel·ligència
artificial suposa un punt clau per a oferir notables diferències respecte als competidors. En
concret, proporcionarà la possibilitat de autenticar-se en l'aplicació mitjançant el
reconeixement de veu. També serà possible la transcripció de fitxers de àudio a text. Aquestes
funcionalitats ajudaràn a augmentar l'accessibilitat i la facilitat d'ús.
Aquest projecte s'ha dut a terme seguint una metodologia àgil adaptada al context del
desenvolupament de software. D'aquesta manera s'ha pogut realitzar el desenvolupament de la
integració de manera incremental, verificant el correcte funcionament del producte software en
un entorn real d'execució. A més, ha permés assegurar la qualitat del codi ja que s'han anat
descobrint errors i millores a realitzar durant el procés.
La tecnologia utilitzada per al desenvolupament de la integració ha sigut ASP.NET Core,
per a adaptar el microservei ja existent, desenvolupat en C#, permetent la comunicació amb
aquestes noves aplicacions. Per a oferir la funcionalitat externa de reconeixement de veu i
transcripció d'àudio a text s'han desenvolupat serveis en Python que utilitzen Whisper i
Pyannote, dues llibreries que proporcionen aquesta funcionalitat.
[-]
|