Resumen:
|
[EN] At present, there are very few deep learning toolkits focused on the task of
Handwritten Text Recognition (HTR). HTR refers to the problem of recognizing a
sequence of characters in an input image. For this reason, ...[+]
[EN] At present, there are very few deep learning toolkits focused on the task of
Handwritten Text Recognition (HTR). HTR refers to the problem of recognizing a
sequence of characters in an input image. For this reason, we have decided to build
PyLaia, a toolkit for performing handwritten text document analysis experiments.
PyLaia is flexible, open-source, device-agnostic, and can be used to express a
wide variety of experiments, including training and inference over Convolutional
and Recurrent based deep Neural Network models. It has been used for conducting
research over the IAM and RIMES datasets. PyLaia is also a successor to Laia,
written in Lua.
This work describes the implementation of the system that we have built using
PyTorch as the basis for our toolkit. The software is extensible and easily configurable
and provides a rich set of functional layers with a particular focus on HTR.
Additionally, we also describe the implementation of our custom model architecture
which combines convolutional and recurrent layers to compete with current
state-of-the-art architectures in the field.
A wide array of experiments have been carried out to validate our implementation.
The experiments presented achieve improved results over those done using the
toolkit’s predecessor. We also compare the impact of several features such as the
usage of a model which allows inputs of variable height or the use of dropout.
PyLaia is mantained as an open-source package under the MIT license and is
available at https://github.com/jpuigcerver/PyLaia
[-]
[ES] En la actualidad, hay muy pocos toolkits de aprendizaje profundo centrado en
la tarea de Reconocimiento de Texto Manuscrito (HTR). HTR se refiere al problema
de reconocer una secuencia de caracteres en una imagen ...[+]
[ES] En la actualidad, hay muy pocos toolkits de aprendizaje profundo centrado en
la tarea de Reconocimiento de Texto Manuscrito (HTR). HTR se refiere al problema
de reconocer una secuencia de caracteres en una imagen de entrada. Por este
motivo, hemos decidido crear PyLaia, un conjunto de herramientas para realizar
experimentos de análisis de documentos de texto manuscrito.
PyLaia es flexible, de código abierto, independiente del dispositivo en el que
se ejecuta y se puede utilizar para expresar una amplia variedad de experimentos,
incluido el entrenamiento y la inferencia sobre modelos de redes neuronales profundas
convolucionales y recurrentes. Se ha utilizado para realizar investigaciones sobre los
conjuntos de datos IAM y RIMES. PyLaia también es un sucesor de Laia, escrito
en Lua.
Este trabajo describe la implementación del sistema que hemos construido utilizando
PyTorch como base para nuestro toolkit. El software es extensible y fácilmente
configurable y proporciona un amplio conjunto de capas funcionales con un
enfoque particular en HTR. Además, también describimos la implementación de la arquitectura de nuestro modelo personalizado que combina capas convolucionales y
recurrentes para competir con las arquitecturas actuales de vanguardia en el campo.
Una amplia gama de experimentos se han llevado a cabo para validar nuestra
implementación. Los experimentos presentados logran mejores resultados que los
obtenidos con el predecesor del toolkit. También comparamos el impacto de varias
características, como el uso del modelo que permite la entrada de imagenes de altura
variable o el uso del dropout.
PyLaia se mantiene como un paquete de código abierto bajo la licencia de MIT
y está disponible en https://github.com/jpuigcerver/PyLaia
[-]
[CA] En l’actualitat, hi ha molt pocs toolkits d’aprenentatge profund centrat en la
tasca de Reconeixement de Text Manuscrit (HTR) . HTR es referix al problema
de reconéixer una seqüència de caràcters en una imatge ...[+]
[CA] En l’actualitat, hi ha molt pocs toolkits d’aprenentatge profund centrat en la
tasca de Reconeixement de Text Manuscrit (HTR) . HTR es referix al problema
de reconéixer una seqüència de caràcters en una imatge d’entrada. Per aquest motiu,
hem decidit crear PyLaia, un toolkit per a realitzar experiments d’anàlisi de
documents manuscrits.
PyLaia és flexible, de codi obert, independent del dispositiu en què s’executa i es
pot utilitzar per a expressar una àmplia varietat d’experiments, inclòs l’entrenament
i la inferència sobre models de xarxes neuronals profundes convolucionals i recurrents.
S’ha utilitzat per a realitzar investigacions sobre els conjunts de dades IAM
i RIMES. PyLaia també és un successor de Laia, escrit en Lua.
Este treball descriu la implementació del sistema que hem construït utilitzant
PyTorch com a base per al nostre toolkit. El programari és extensible i fàcilment
configurable i proporciona un ampli conjunt de capes funcionals amb un enfocament
particular en HTR. A més, també descrivim la implementació de l’arquitectura
del nostre model personalitzat que combina capes convolucionals i recurrents per a
competir amb les arquitectures actuals d’avantguarda en el camp.
Una àmplia gamma d’experiments s’han dut a terme per a validar la nostra
implementació. Els experiments presentats aconseguixen millors resultats que els
obtinguts amb el predecessor del toolkit. També comparem l’impacte de diverses
característiques, com l’ús del model que permet l’entrada d’imatges d’altura variable
o l’ús del dropout.
PyLaia es manté com un paquet de codi obert sota la llicència de MIT i està
disponible en https://github.com/jpuigcerver/PyLaia
[-]
|