Registro:
| Documento: | Tesis de Grado |
| Título: | Word-embeddings contextualizados para detección de entidades nombradas en textos de radiología en español |
| Título alternativo: | Contextualized word-embeddings for name entity recognition in spanish radiological texts |
| Autor: | Costa, Manuel J. J. |
| Editor: | Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales |
| Fecha de defensa: | 2025-05-26 |
| Fecha en portada: | Marzo 2025 |
| Grado Obtenido: | Grado |
| Título Obtenido: | Licenciado en Ciencias de la Computación |
| Departamento Docente: | Departamento de Computación |
| Director: | Cotik, Viviana Erica |
| Jurado: | Brusco, Pablo Daniel; Martín Valdivia, María Teresa |
| Idioma: | Español |
| Palabras clave: | EMBEDDINGS; RECONOCIMIENTO DE ENTIDADES NOMBRADAS; BioNLP EN ESPAÑOL; INFORMES CLINICOS; ECOGRAFIAS; TRANSFORMERS; BiLSTM; FASTTEXTEMBEDDINGS; NAMED ENTITY RECOGNITION; SPANISH BioNLP; CLINICAL REPORTS; ULTRASOUND; TRANSFORMERS; BiLSTM; FASTTEXT |
| Formato: | PDF |
| Handle: |
http://hdl.handle.net/20.500.12110/seminario_nCOM000840_Costa |
| PDF: | https://bibliotecadigital.exactas.uba.ar/download/seminario/seminario_nCOM000840_Costa.pdf |
| Registro: | https://bibliotecadigital.exactas.uba.ar/collection/seminario/document/seminario_nCOM000840_Costa |
| Ubicación: | Dep.COM 000840 |
| Derechos de Acceso: | Esta obra puede ser leída, grabada y utilizada con fines de estudio, investigación y docencia. Es necesario el reconocimiento de autoría mediante la cita correspondiente. Costa, Manuel J. J.. (2025). Word-embeddings contextualizados para detección de entidades nombradas en textos de radiología en español. (Tesis de Grado. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales.). Recuperado de http://hdl.handle.net/20.500.12110/seminario_nCOM000840_Costa |
Resumen:
La creciente digitalización de los procesos médicos ha generado una gran cantidad de datos textuales, como informes de estudios clínicos, que permiten mejorar procesos a través de la automatización de la extracción de información de los mismos. Sin embargo, esta última presenta desafíos significativos, especialmente en español, debido a la escasez de recursos en este idioma y al uso de vocabulario especializado. También algunos de estos textos suelen tener abreviaturas, errores ortográficos y de tipeo, lo que agrega una complejidad adicional. Este trabajo busca contribuir al campo del Procesamiento del Lenguaje Natural Biomédico (BioNLP, por sus siglas en inglés) mediante el desarrollo de mejores representaciones de textos que optimicen la extracción de información para informes clínicos escritos en español. En esta tesis se desarrolla un estudio sobre el uso de word embeddings y modelos de lenguaje para informes de ecografía escritos en español. Se proponen y evalúan diferentes modelos de embeddings, incluyendo técnicas estáticas como FastText y modelos basados en arquitecturas contextuales como Transformers y BiLSTM. Los embeddings se entrenaron utilizando un corpus anonimizado de más de 80 mil informes de ecografías. Se realizaron dos tipos de evaluaciones sobre los embeddings: una extrínseca y una intrínseca. Para la evaluación extrínseca se utilizó la tarea de reconocimiento de entidades nombradas con el conjunto de datos de la competencia SpRadIE. Además, se realiza un estudio de ablación para intentar establecer un vínculo más directo entre el uso de las representaciones y el rendimiento obtenido por los modelos. Para la evaluación intrínseca, se presenta un marco basado en análisis cualitativo, para medir la calidad de los embeddings en dominios donde no existen benchmarks estandarizados. Los resultados obtenidos muestran mejoras sobre el estado del arte para la tarea de reconocimiento de entidades nombradas de SpRadIE, destacando el impacto de usar representaciones contextuales adaptadas al sub-dominio específico de la tarea. Observamos que los mejores resultados del reconocimiento de entidades nombradas se obtienen con modelos basados en Transformers, sin embargo las representaciones generadas a partir de BiLSTM parecen capturar información semántica más rica, como evidencian los estudios de ablación y el análisis cualitativo.
Abstract:
The growing digitalization of medical processes has generated a large volume of tex- tual data, such as clinical study reports, which allow for process improvements through the automation of information extraction. However, this task presents significant challenges, especially in Spanish, due to the scarcity of resources in this language and the use of spe- cialized vocabulary. In addition, some of these texts often contain abbreviations, spelling errors, and typos, adding an extra layer of complexity. This work aims to contribute to the field of Biomedical Natural Language Processing (BioNLP) by developing better text representations to enhance information extraction from clinical reports written in Spanish. This thesis presents a study on the use of word embeddings and language models for ul- trasound reports written in Spanish. Different embedding models are proposed and evalua- ted, including static techniques such as FastText and models based on contextual architec- tures like Transformers and BiLSTM. The embeddings were trained using an anonymized corpus of more than 80,000 ultrasound reports. Extrinsic and intric evaluation methods were carried out. For the extrinsic evaluation, the chosen task was named entity recogni- tion, using the dataset from the SpRadIE competition. Additionally, an ablation study was conducted to better understand the relationship between the use of these representations and the performance of the models. For the intrinsic evaluation, a framework based on qualitative analysis is presented to assess the quality of the embeddings in domains where standardized benchmarks are not available. The results show improvements over the state of the art for the named entity re- cognition task in SpRadIE, highlighting the impact of using contextual representations tailored to the specific subdomain. We observe that the best results are obtained with Transformer-based models; however, the representations generated by BiLSTM appear to capture richer semantic information, as evidenced by the ablation studies and qualitative analysis.
Citación:
---------- APA ----------
Costa, Manuel J. J.. (2025). Word-embeddings contextualizados para detección de entidades nombradas en textos de radiología en español. (Tesis de Grado. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales.). Recuperado de https://hdl.handle.net/20.500.12110/seminario_nCOM000840_Costa
---------- CHICAGO ----------
Costa, Manuel J. J.. "Word-embeddings contextualizados para detección de entidades nombradas en textos de radiología en español". Tesis de Grado, Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales, 2025.https://hdl.handle.net/20.500.12110/seminario_nCOM000840_Costa
Estadísticas:
Descargas mensuales
Total de descargas desde :
https://bibliotecadigital.exactas.uba.ar/download/seminario/seminario_nCOM000840_Costa.pdf
Distrubución geográfica