Iranzo Sánchez, Jorge

Job Title
ORCID
Name
Email Address

Search Results

Now showing 1 - 3 of 3
  • Publication
    Segmentation-Free Streaming Machine Translation
    (MIT Press, 2024-09-04) Iranzo-Sánchez, Javier; Iranzo Sánchez, Jorge; Giménez, Adria; Civera Saiz, Jorge; Juan Císcar, Alfonso; Departamento de Sistemas Informáticos y Computación; Escuela Técnica Superior de Ingeniería Informática; Instituto Universitario Valenciano de Investigación en Inteligencia Artificial; European Commission; Generalitat Valenciana; Agencia Estatal de Investigación; Ministerio de Ciencia, Innovación y Universidades
    [EN] Streaming Machine Translation (MT) is the task of translating an unbounded input text stream in real-time. The traditional cascade approach, which combines an Automatic Speech Recognition (ASR) and an MT system, relies on an intermediate segmentation step which splits the transcription stream into sentence-like units. However, the incorporation of a hard segmentation constrains the MT system and is a source of errors. This paper proposes a Segmentation-Free framework that enables the model to translate an unsegmented source stream by delaying the segmentation decision until after the translation has been generated. Extensive experiments show how the proposed Segmentation-Free framework has better quality-latency trade-off than competing approaches that use an independent segmentation model.1
  • Publication
    Evaluation of strategies for the adaptation of large neural models to the task of machine translation in constrained scenarios
    (Universitat Politècnica de València, 2023-10-22) Iranzo Sánchez, Jorge; Civera Saiz, Jorge; Iranzo Sánchez, Javier; Departamento de Sistemas Informáticos y Computación; Escuela Técnica Superior de Ingeniería Informática; Instituto Universitario Valenciano de Investigación en Inteligencia Artificial
    [ES] Históricamente, la traducción automática (TA) ha sido una de las áreas más activas dentro de la inteligencia artificial y, más precisamente, dentro del campo del aprendizaje automático. Gracias al importante progreso en el entrenamiento de grandes redes neuronales utilizando grandes colecciones de datos que han aportado los principales proveedores tecnológicos, como Google, Meta, Microsoft, etc., la traducción automática multilingüe y los grandes modelos de lenguaje se han convertido en productos básicos que abordan tareas amplias que en algunos casos carecen de especificidad. Aunque el rendimiento general de estos modelos está fuera de discusión, no está claro en qué medida también logran una precisión superior para dominios específicos con acceso limitado a grandes infraestructuras informáticas. En este contexto, este trabajo evalúa el rendimiento de grandes modelos cuando se adaptan a tareas de TA con factores limitantes, como especificidades de dominio, pares de idiomas involucrados y capacidad de cómputo. Para ser más precisos, este trabajo evalúa la aplicabilidad de modelos neuronales grandes en comparación con modelos base sólidos al traducir del inglés a idiomas europeos dentro del dominio médico en el marco del proyecto europeo INTERACT-EUROPE.
  • Publication
    Sistemas de síntesis de voz basados en redes neuronales para lenguas europeas
    (Universitat Politècnica de València, 2022-09-07) Iranzo Sánchez, Jorge; Juan Císcar, Alfonso; Iranzo Sánchez, Javier; Pérez González de Martos, Alejandro Manuel; Departamento de Sistemas Informáticos y Computación; Escuela Técnica Superior de Ingeniería Informática; Instituto Universitario Valenciano de Investigación en Inteligencia Artificial
    [ES] La síntesis de voz (TTS, del inglés Text-To-Speech) es una de las áreas más activas dentro de la inteligencia artificial, particularmente en el campo del aprendizaje automático. Recientemente, esta área ha sido el foco de atención por parte de importantes figuras tecnológicas como Google, Facebook, Microsoft, etc. debido a las mejoras de rendimiento obtenidas por esta tecnología gracias a la incorporación de redes neuronales artificiales. En este sentido, la nueva era de sistemas TTS basados en redes neuronales ha traído consigo sistemas de síntesis de voz de gran naturalidad que, en contraste con los sistemas tradicionales, no requieren de gran conocimiento experto en procesado de la señal y aspectos lingüísticos. En este trabajo se propone estudiar e implementar modelos avanzados de TTS en lenguas europeas y, en particular, en castellano y alemán. Para ello, se hará uso de datos, tecnología y experiencia del grupo MLLP del VRAIN, adquiridos en el marco de proyectos de investigación y transferencia tecnológica desarrollados en los últimos cinco años.