Resumen:
|
[ES] La codificación es un proceso indispensable para el funcionamiento de un hospital, ya sea para el mantenimiento de una base de datos de calidad como para obtener financiación. Este proceso consiste en la lectura de ...[+]
[ES] La codificación es un proceso indispensable para el funcionamiento de un hospital, ya sea para el mantenimiento de una base de datos de calidad como para obtener financiación. Este proceso consiste en la lectura de los informes clínicos generados a lo largo de un episodio de hospitalización, con el fin de averiguar cuáles han sido los diagnósticos del paciente y qué procedimientos han sido aplicados. Tras encontrarlos, se les debe de asignar sus códigos correspondientes, siguiendo el estándar de la Clasificación Internacional de Enfermedades (CIE). Este proceso se realiza de forma completamente manual, por lo que se propone un sistema de asistencia que sugiera códigos basándose en informes ya codificados. Este sistema ha de ser interpretable en gran medida, a fin de que al usuario le resulte de utilidad dicho sistema.
Para el sistema propuesto se utilizará una serie de modelos de aprendizaje automático, cada uno encargado de determinar si un código concreto está presente o no en el texto. Estos modelos binarios se anidarán siguiendo la jerarquía de la CIE-10, para formar un clasificador local por nodo (LCN), de forma que un código solo puede ser asignado a un informe si su padre ya ha sido asignado a este. Los resultados del LCN serán comparados con la alternativa ¿plana¿, en la que los distintos clasificadores locales actúan de forma independiente. Se probarán distintos modelos para estos clasificadores locales, en concreto naive bayes (NB), su versión mejorada para tareas de clasificación de textos llamada complement naive bayes (CNB), así como regresión logística (RL) y máquinas de vectores soporte (SVM). La representación de los informes se llevará realizará mediante TF-IDF. La capacidad de interpretación de las predicciones es una característica que influirá todo el proceso de selección y entrenamiento del modelo, que culmina con el desarrollo de una aplicación para la asistencia a la codificación, en el que se integrará el modelo entrenado.
El modelo con mejores resultados fue RL con LCN, que obtuvo un F-1 micro de 72.1%, muy similar al 71.5% de SVM. Cuando se utilizan RL y SVM como modelos locales, las diferencias entre el LCN y el clasificador plano son pequeñas, sin embargo, la velocidad del entrenamiento es mucho mayor con el LCN, ya que disminuye el número de individuos que utiliza cada nodo. Por ello, el LCN resulta mucho más eficiente para esta tarea. Los resultados de NB y CNB son muy inferiores a estos, con un 56.7% y 57.3% respectivamente, con lo que las heurísticas aplicadas por CNB no parecen muy efectivas en este problema. La utilización del LCN para estos modelos es irrelevante en cuanto al tiempo de ejecución dado la alta velocidad de entrenamiento de estos modelos, aunque supone una mejora de entre el 3% y 2% del F-1 micro.
Finalmente se desarrolló una aplicación que permite al usuario visualizar los códigos predichos por el modelo, así como ver en qué palabras se ha basado para esta decisión. Esta aplicación muestra las posibilidades que tiene la aplicación del aprendizaje automático en la codificación.
[-]
[EN] The clinical coding process is vital for a hospital. It affects the quality of its database as well as the funding received. In this process, a coder reads all the medical documents created during the episode, with ...[+]
[EN] The clinical coding process is vital for a hospital. It affects the quality of its database as well as the funding received. In this process, a coder reads all the medical documents created during the episode, with the goal of finding the diagnosis of the pacient and the procedures performed. Once found, they are assigned to their corresponding codes, following the Internacional Classification of Diseases (ICD) standard. Nowadays, this task is performed manually, and so an advisory system is proposed. This system would suggest codes based on already coded documents, and it must be highly interpretable in order to provide real utility to the coder.
Many machine learning models will be used in this system, each one tasked to determine if a particular code is present. These binary models will then be ensembled following the ICD-10 hierarchy, following the Local Classifier per Node (LCN) approach, in which a code could only be assigned if its parent code is already assigned. The results of the LCN will be compared with a plain approach, in which each node will act independently. Different models will be tested, specifically Naive Bayes (NB), its improved version for text classification named Complement Naive Bayes (CNB), Logistic Regression (RL) and Support Vector Machine (SVM). The documents will be represented via TF-IDF. The interpretability of the predicctions is a property that will influence the training and selection process, that will be followed with the development of an application in which to integrate the model.
The best performing model was RL with LCN, with a F-1 micro of 72.1%, very similar to the 71.5% obtained by SVM. Both models, when used as local classifiers, have little differences between the LCN and plain approach in terms of F-1. Regardless, the training time is much lower with the LCN, due to it reducing the number of individuals used in each node, and results in LCN being more efficient in this task than the plain approach. The results for NB and CNB were inferior in terms of F-1, with a 56.7% and 57.3% respectively. The heuristics applied by CNB seem ineffective in this dataset. The LCN approach is irrelevant in terms of execution time, due to the speed of these models, but it improves the F-1 micro in 3% and 2%.
Finally, an application which lets the coder see the predicted codes was developed. It also shows which words where used in the decision process. This application shows the possibilities of the application of machine learning in clinical coding.
[-]
[CA] La codificació és un procés indispensable per al funcionament d’un hospital, ja siga
per al manteniment d’una base de dades de qualitat com per a obtindre finançament.
Aquest procés consisteix en la lectura dels ...[+]
[CA] La codificació és un procés indispensable per al funcionament d’un hospital, ja siga
per al manteniment d’una base de dades de qualitat com per a obtindre finançament.
Aquest procés consisteix en la lectura dels informes clínics generats al llarg d’un episodi
d’hospitalització, amb la finalitat d’esbrinar quins han sigut els diagnòstics del pacient i
quins procediments han sigut aplicats. Després de trobar-los, se’ls ha d’assignar els seus
codis corresponents, seguint l’estàndard de la Classificació Internacional de Malalties
(CIE en castellà). Aquest procés es realitza de forma completament manual, per la qual
cosa es proposa un sistema d’assistència que suggerisca codis basant-se en informes ja
codificats, amb gran pes en la interpretabilitat, a fi que a l’usuari li resulte d’utilitat aquest
sistema.
Per al sistema proposat s’utilitzarà una sèrie de models d’aprenentatge automàtic, cadascun encarregat d’etiquetar un codi diferent. Aquests models binaris es niaran seguint
la jerarquia de la CIE-10, per a formar un classificador local per node (LCN), de manera que un codi només pot ser assignat a un informe si el seu pare ja ha sigut assignat
a aquest. Els resultats del LCN seran comparats amb l’alternativa “plana”, en la qual
els diferents classificadors locals actuen de manera independent. Es provaran diferents
models per a aquests classificadors locals, en concret naive bayes (NB), la seua versió millorada per a tasques de classificació de textos anomenada complement naive bayes (CNB),
així com regressió logística (RL) i màquines de vectors suporte (SVM). La representació
dels informes s’emportarà realitzarà mitjançant TF-IDF. La capacitat d’interpretació de
les prediccions és una característica que influirà tot el procés de selecció i entrenament
del model, que culmina amb el desenvolupament d’una aplicació per a l’assistència a la
codificació, en el qual s’integrarà el model entrenat.
El model amb millors resultats va ser RL amb LCN, que va obtindre un F1 micro de
72.1%, molt similar al 71.5% de SVM. Quan s’utilitzen RL i SVM com a models locals,
les diferències entre el LCN i el classificador pla són baixes, no obstant això, la velocitat
de l’entrenament és molt major amb el LCN, ja que disminueix el nombre d’individus
que utilitza cada node. Per això, el LCN resulta molt més eficient per a aquesta tasca.
Els resultats de NB i CNB són molt inferiors a aquests, amb un 56.7% i 57.3% respectivament, amb el que les heurístiques aplicades per CNB no semblen molt efectives en aquest
problema. La utilització del LCN per a aquests models és irrellevant quant al temps d’execució donat l’alta velocitat d’entrenament d’aquests models, encara que suposa una
millora d’entre el 3% i 2% del F1 micro.
Finalment es va desenvolupar una aplicació que permet a l’usuari visualitzar els codis
predits pel model, així com veure en quines paraules s’ha basat per a aquesta decisió.
Aquesta aplicació mostra les possibilitats que té l’aplicació de l’aprenentatge automàtic
en la codificació.
[-]
|