Predicción de secuencias de inserción en genomas bacterianos utilizando algoritmos de machine learning

Barros, Miguel Ángel

Registro:

Documento:	Tesis de Maestría
Título:	Predicción de secuencias de inserción en genomas bacterianos utilizando algoritmos de machine learning
Título alternativo:	Insertion sequence prediction on bacterial genomes via machine learning algorithms
Autor:	Barros, Miguel Ángel
Editor:	Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales
Lugar de trabajo:	Universidad de la República. Facultad de Medicina. Instituto de Higiene. Departamento de Desarrollo Biotecnológico (Uruguay)
Publicación en la Web:	2025-04-01
Fecha de defensa:	2023-07-25
Fecha en portada:	25 julio 2023
Grado Obtenido:	Maestría
Título Obtenido:	Magíster de la Universidad de Buenos Aires en el área de Explotación de Datos y Descubrimiento del Conocimiento
Departamento Docente:	Departamento de Computación
Director:	Traglia, German M.
Director Asistente:	Iriarte, Andrés
Jurado:	Gómez, Sonia Alejandra; Faccone, Diego Francisco; Soria, Marcelo Abel
Idioma:	Español
Formato:	PDF
Handle:	https://hdl.handle.net/20.500.12110/tesis_n7424_Barros
PDF:	https://bibliotecadigital.exactas.uba.ar/download/tesis/tesis_n7424_Barros.pdf
Registro:	https://bibliotecadigital.exactas.uba.ar/collection/tesis/document/tesis_n7424_Barros
Ubicación:	DMI 007424
Derechos de Acceso:	Esta obra puede ser leída, grabada y utilizada con fines de estudio, investigación y docencia. Es necesario el reconocimiento de autoría mediante la cita correspondiente. Barros, Miguel Ángel. (2023). Predicción de secuencias de inserción en genomas bacterianos utilizando algoritmos de machine learning. (Tesis de Maestría. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales). Recuperado de https://hdl.handle.net/20.500.12110/tesis_n7424_Barros

Resumen:

Las secuencias de inserción (IS) son elementos genéticos móviles que tienen la capacidad de desplazarse desde una determinada región del genoma hacia otra. Las IS son una fuente de variabilidad genética que podrían brindar rasgos adaptativos a distintas especies bacterianas, por ejemplo: resistencia antibiótica. Sin embargo, la identificación de las IS no es una tarea simple dado los rasgos genéticos variables entre los distintos tipos existentes. El objetivo del presente trabajo fue desarrollar un software basado en algoritmos de aprendizaje automatizado que permita identificar IS sobre diferentes especies de genomas bacterianos. Para lo cual, para entrenar los diferentes algoritmos de clasificación, se trabajó con un dataset inicial compuesto por 8.223 secuencias aminoacídicas de IS y 8.223 secuencias aminoacídicas pertenecientes a otro tipo de estructura proteica (las cuales se denominaron non-IS). Las primeras se obtuvieron de bases de datos específicas de IS, como ISFinder. En tanto que el resto de las secuencias fueron descargadas de la base PDB, Protein Data Bank. Los clasificadores evaluados fueron seis: Regresión Logística, Support Vector Machines (SVM), Stochastic Gradient Descent (SGD), Xtreme Gradient Boosting (XGBoost), Random Forest y Light Gradient Boosting Machine (LGBM). Para validar el rendimiento del modelo, se incluyó una etapa adicional, validación, en la cual se ejecutaron a los algoritmos sobre datos que a los que dichos clasificadores no habían sido expuestos con anterioridad. Estos datos de validación correspondieron a cinco genomas bacterianos de referencia: Escherichia coli K-12, Salmonella enterica serovar Typhi CT18, Acinetobacter baumannii AYE, Staphylococcus aureus Newman y Pseudomonas aeruginosa. El clasificador que mostró el mejor rendimiento fue XGBoost, el cual obtuvo valores de 93.9% en Sensitividad, 94.1% en Especificidad y 94% en Accuracy en la etapa de testing, demandando 15 segundos de tiempo de cómputo en un ordenador portátil. El posterior análisis, mediante BLAST, sobre los falsos positivos producidos durante la clasificación, demostraron que el modelo desarrollado fue capaz de identificar nuevas IS con un elevado nivel de precisión.

Abstract:

Insertion sequences (IS) are genetic elements capable to move itself from a certain DNA region to another one. ISs are considered as a source of genetic variability that provides adaptative features to different bacterial species, such us antibiotic resentence, among others. Nevertheless, IS identification is not a simple process due to the high genetic variability among different types of these genetic elements The main goal of this study was to develop a software based on machine learning allowing the identification of IS on different species of bacterial genomes. To accomplish that task, an initial dataset composed of 8,223 amino acid sequences belonging to IS (retrieved from IS-Finder repository) and 8,223 amino acid sequences from another type of protein structure (which were called non-IS) was utilized to train the different classifiers. Six classifiers were evaluated: Logistic Regression, Support Vector Machines (SVM), Stochastic Gradient Descent (SGD), Xtreme Gradient Boosting (XGBoost), Random Forest, and Light Gradient Boosting Machine (LGBM). To validate the performance of the model, an additional stage was included referred as validation. Along this phase, the pull of trained classified was executed on new datasets where those algorithms had not been previously exposed. These new datasets consisted five in bacterial aminoacidic sequences from reference organisms. Validation datasets come from Escherichia coli K-12, Salmonella enterica serovar Typhi CT18, Acinetobacter baumannii AYE, Staphylococcus aureus Newman y Pseudomonas aeruginosa. The classifier that showed the best performance was XGBoost, which obtained values of 93.9% in Sensitivity, 94.1% in Specificity and 94% in Accuracy in the testing stage, demanding 15 seconds of computing time on a laptop. The subsequent analysis, using BLAST, on the false positives produced during the classification, demonstrated that the developed model was capable to detect new IS with a high level of precision.

Citación:

---------- APA ----------

Barros, Miguel Ángel. (2023). Predicción de secuencias de inserción en genomas bacterianos utilizando algoritmos de machine learning. (Tesis de Maestría. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales.). Recuperado de https://hdl.handle.net/20.500.12110/tesis_n7424_Barros

---------- CHICAGO ----------

Barros, Miguel Ángel. "Predicción de secuencias de inserción en genomas bacterianos utilizando algoritmos de machine learning". Tesis de Maestría, Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales, 2023.https://hdl.handle.net/20.500.12110/tesis_n7424_Barros

Estadísticas:

Descargas totales desde :

Navegar

Colección

Tesis de Maestría