Extracción de información de historias clínicas electrónicas escritas en español para realizar inteligencia epidémica

Petri, Javier

Registro:

Documento:	Tesis de Grado
Título:	Extracción de información de historias clínicas electrónicas escritas en español para realizar inteligencia epidémica
Autor:	Petri, Javier
Editor:	Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales
Publicación en la web:	2025-12-30
Fecha de defensa:	2025-04-11
Fecha en portada:	Enero 2025
Grado Obtenido:	Grado
Título Obtenido:	Licenciado en Ciencias de la Computación
Departamento Docente:	Departamento de Computación
Director:	Cotik, Viviana
Director Asistente:	Barcena Barbeira, Pilar
Jurado:	Pérez, Juan Manuel; Pesce, Martina
Idioma:	Español
Palabras clave:	NER; BioNLP EN ESPAÑOL; HISTORIAS CLINICAS ELECTRONICAS; TRANSFORMERS; VIGILANCIA BASADA EN EVENTOS; INTELIGENCIA EPIDEMIOLOGICA; COVID-19NER; BioNLP IN SPANISH; ELECTRONIC HEALTH RECORDS; TRANSFORMERS; EVENT-BASED SURVEILLANCE; EPIDEMIOLOGICAL INTELLIGENCE; COVID-19
Formato:	PDF
Handle:	http://hdl.handle.net/20.500.12110/seminario_nCOM000838_Petri
PDF:	https://bibliotecadigital.exactas.uba.ar/download/seminario/seminario_nCOM000838_Petri.pdf
Registro:	https://bibliotecadigital.exactas.uba.ar/collection/seminario/document/seminario_nCOM000838_Petri
Ubicación:	Dep.COM 000838
Derechos de Acceso:	Esta obra puede ser leída, grabada y utilizada con fines de estudio, investigación y docencia. Es necesario el reconocimiento de autoría mediante la cita correspondiente. Petri, Javier. (2025). Extracción de información de historias clínicas electrónicas escritas en español para realizar inteligencia epidémica. (Tesis de Grado. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales.). Recuperado de http://hdl.handle.net/20.500.12110/seminario_nCOM000838_Petri

Resumen:

Las historias clínicas son una herramienta fundamental para la atención médica. La creciente adopción de las historias clínicas electrónicas facilita la extracción automática de datos para realizar análisis que permitan detectar brotes de enfermedades de forma temprana y tomar decisiones basadas en datos, contribuyendo así a la vigilancia basada en eventos. Esta tesis aborda dos tareas principales: la detección automática de síntomas asociados a cinco síndromes de interés —síndrome febril agudo inespecífico, COVID-19, diarrea, neumonía y enfermedad tipo influenza— y la clasificación de historias clínicas en cuanto a la presencia, sospecha o ausencia de COVID-19. Para lograr estos objetivos, se utilizarán corpus de historias clínicas electrónicas escritas en español provenientes del sistema de salud argentino, previamente anotadas por expertos, así como métodos avanzados del procesamiento del lenguaje natural. El trabajo con historias clínicas electrónicas de Argentina es una fortaleza de este trabajo. Para la primer tarea utilizamos 6.228 historias clínicas etiquetados y aproximadamente 1 millón de historias clínicas no etiquetadas. Nuestro enfoque consistió en ajustar (i.e. realizar el fine-tuning) modelos de reconocimiento de entidades nombradas del estado del arte, incluyendo BiLSTM-CRF y modelos basados en transformers de la familia de BERT y RoBERTa. Nos enfocamos en modelos orientados al dominio y a la tarea para mejorar el rendimiento: los primeros fueron pre-entrenados en corpus biomédicos, mientras que losúltimos fueron pre-entrenados adicionalmente en nuestras historias clínicas no etiquetadas. A pesar de las limitaciones computacionales con las que contamos para entrenar nuestros modelos, estos demostraron resultados prometedores. En particular, RoBERTa-Clinico, un transformer preentrenado en nuestro corpus no etiquetado, alcanzó el mejor rendimiento con un micro recall de 79.30 y un micro F1-score de 70.83, resultados comparables a los reportados en estudios similares. Para la tarea de clasificación, se utilizaron 4.996 historias clínicas etiquetadas y se implementaron modelos basados en transformers de la familia BERT y RoBERTa, adaptados al español y al dominio clínico. Los resultados de estos modelos se compararon con los obtenidos previamente por un proyecto anterior que incluyó la implementación de algoritmos clásicos de aprendizaje automático como la regresión logística. Los modelos basados en transformers, al igual que en la tarea de detección de síntomas, fueron preentrenados en grandes corpus de texto biomédico y luego ajustados con nuestro conjunto de datos sin etiquetar. Uno de esos modelos, BETO Clínico, una variante de BERT para el español, ajustado posteriormente con nuestros datos, alcanzó un micro F1 del 88.1 %, superando por un margen pequeño pero significativo el 85.1 % obtenido por regresión logística, siendo este el mejor de los modelos más sencillos.

Abstract:

Medical records are a fundamental tool for healthcare. The growing adoption of electronic medical records facilitates the automatic extraction of data to perform analyses that enable early detection of disease outbreaks and data-driven decision-making, thus contributing to event-based surveillance. This thesis addresses two main tasks: the automatic detection of symptoms associated with five syndromes of interest —acute nonspecific febrile syndrome, COVID-19, diarrhea, pneumonia, and influenza-like illness— and the classification of electronic health records regarding the presence, suspicion, or absence of COVID-19. To achieve these objectives, we use corpus of electronic health records written in Spanish from the Argentine health system, previously annotated by experts, as well as advanced methods in natural language processing. Working with electronic health records from Argentina is a strength of this study. For the first task, we used 6,228 annotated medical records and approximately 1 million unannotated records. Our approach consisted of fine-tuning state-of-the-art named entity recognition models, including BiLSTM-CRF and transformer-based models from the BERT and RoBERTa families. We focused on domain- and task-oriented models to improve performance: the former were pre-trained on biomedical corpora, while the latter were additionally pre-trained on our unannotated medical records. Despite computational limitations for training our models, they showed promising results. Specifically, RoBERTa-Clinico, a transformer pre-trained on our unannotated corpus, achieved the best performance with a micro recall of 79.30 and a micro F1-score of 70.83, results comparable to those reported in similar studies. For the classification task, 4,996 annotated medical records were used, and models based on transformers from the BERT and RoBERTa families, adapted to Spanish and the clinical domain, were implemented. The results of these models were compared to those previously obtained by a prior project that included the implementation of classical machine learning algorithms, such as logistic regression. The transformer-based models, as in the symptom detection task, were pre-trained on large biomedical text corpora and then fine-tuned with our unannotated dataset. One of these models, BETO Clínico, a variant of BERT for Spanish, further fine-tuned with our data, achieved a micro F1 of 88.1 %, slightly but significantly surpassing the 85.1 % obtained by logistic regression, which was the best among the simpler models.

Citación:

---------- APA ----------

Petri, Javier. (2025). Extracción de información de historias clínicas electrónicas escritas en español para realizar inteligencia epidémica. (Tesis de Grado. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales.). Recuperado de https://hdl.handle.net/20.500.12110/seminario_nCOM000838_Petri

---------- CHICAGO ----------

Petri, Javier. "Extracción de información de historias clínicas electrónicas escritas en español para realizar inteligencia epidémica". Tesis de Grado, Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales, 2025.https://hdl.handle.net/20.500.12110/seminario_nCOM000838_Petri

Estadísticas:

Descargas mensuales

Total de descargas desde :

https://bibliotecadigital.exactas.uba.ar/download/seminario/seminario_nCOM000838_Petri.pdf

Navegar

Colección

Tesis de Grado