Inferencia de redes complejas de regulación génica a partir de relevamientos transcripcionales de gran escala

Rabinovich, Andrés

Registro:

Documento:	Tesis Doctoral
Título:	Inferencia de redes complejas de regulación génica a partir de relevamientos transcripcionales de gran escala
Título alternativo:	Inferring complex gene regulatory networks from high throughput transcriptional data
Autor:	Rabinovich, Andrés
Editor:	Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales
Lugar de trabajo:	Fundación Instituto Leloir - CONICET. Instituto de Investigaciones Bioquímicas de Buenos Aires (IIBBA)
Publicación en la Web:	2023-04-03
Fecha de defensa:	2022-11-02
Fecha en portada:	2 de noviembre de 2022
Grado Obtenido:	Doctorado
Título Obtenido:	Doctor de la Universidad de Buenos Aires en el área de Ciencias Físicas
Departamento Docente:	Departamento de Física
Director:	Chernomoretz, Ariel
Director Asistente:	Yanovsky, Marcelo Javier
Consejero:	Balenzuela, Pablo
Jurado:	Tagliazucchi, Enzo Rodolfo; Merino, Gabriela A.; Morelli, Luis Guillermo
Idioma:	Español
Palabras clave:	REDES COMPLEJAS DE ORIGEN BIOLOGICO; RNA-SEQ; SPLICING ALTERNATIVOBIOLOGICAL COMPLEX NETWORKS; RNA-SEQ; ALTERNATIVE SPLICING
Formato:	PDF
Handle:	https://hdl.handle.net/20.500.12110/tesis_n7221_Rabinovich
PDF:	https://bibliotecadigital.exactas.uba.ar/download/tesis/tesis_n7221_Rabinovich.pdf
Registro:	https://bibliotecadigital.exactas.uba.ar/collection/tesis/document/tesis_n7221_Rabinovich
Ubicación:	FIS 007221
Derechos de Acceso:	Esta obra puede ser leída, grabada y utilizada con fines de estudio, investigación y docencia. Es necesario el reconocimiento de autoría mediante la cita correspondiente. Rabinovich, Andrés. (2022). Inferencia de redes complejas de regulación génica a partir de relevamientos transcripcionales de gran escala. (Tesis Doctoral. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales). Recuperado de https://hdl.handle.net/20.500.12110/tesis_n7221_Rabinovich

Resumen:

Una gran variedad de funciones celulares, como la respuesta a estrés, el mantenimiento del estado celular y el dimorfismo, entre otras, son controladas por programas de regulación génica que deben ajustar los cambios en los niveles de expresión de cada gen a lo largo del tiempo de forma coordinada. En los últimos años, avances en técnicas de secuenciación de alto rendimiento permitieron abordar el estudio del funcionamiento celular a partir de propiedades de redes de interacciones entre sus constituyentes moleculares. Este abordaje sistémico, propio del estudio de sistemas complejos, utiliza intensivamente la teoría de redes complejas para el estudio a escala global de propiedades de organización y funcionamiento de genes y proteínas dentro de una célula. En este trabajo abordamos esta temática con especial énfasis en desarrollar nuevas herramientas que permitan sacar provecho de la integración de grandes volúmenes de datos. En la primera parte de esta tesis desarrollamos herramientas computacionales para el análisis cuantitativo de datos de RNA-seq tanto a nivel de expresión génica como a nivel de splicing. En particular lo realizado fue implementado como un paquete de código libre y abierto, ASpli, específicamente diseñado y adaptado para integrar en un único framework estadístico distintas señales de splicing provenientes de junturas y cobertura, tomando en cuenta los distintos patrones de splicing alternativo que pueden ocurrir. ASpli se encuentra disponible para su descarga desde el repositorio de paquetes de análisis biológico Bioconductor. La segunda parte de este trabajo consistió en el armado de redes complejas de regulación génica a partir de datos de RNA-seq. Utilizamos para ello una estrategia basada en una heurística de regresiones del tipo Bosques Aleatorios o Random Forest, modificada para incorporar información biológica preexistente codificada en Ontología Génica o Gene Ontology. Esta ontología provee un vocabulario controlado de términos caracterizando las propiedades de los productos génicos. A partir de la misma, es posible definir similaridades entre genes de tipo reguladores y genes de tipo diana, y esto permite modificar las probabilidades de seleccionar un factor de transcripción como variable explicativa en cada árbol del random forest, para cada gen diana, en función de la similaridad entre ese factor de transcripción y el gen. Utilizando esta metodología analizamos datos de RNA-seq de series temporales en A. thaliana y datos de knockout y knockdown de E. coli y S. cerevisiae, obteniendo resultados biológicamente relevantes y en algunos casos mejorando los resultados obtenidos con otras metodologías ampliamente utilizadas para el análisis de este tipo de datos.

Abstract:

A large variety of cellular functions, like response to stress, cellular state maintenance and dimorfism, among others, are controlled by gene regulatory programs that must adjust changes in gene expression levels over time on a coordinated fashion. During the last years, advances in high throughput sequencing techniques allowed the studying of cellular functions through the properties of interaction networks between it’s molecular constituents. This systemic analysis, typical of complex systems, intensively uses complex networks theory for studying organizational and functional properties of genes and proteins inside a cell on a global scale.In this work we address this issue with particular interest in developing new tools that allow us to take advantage of big data integration. For the first part of this thesis we developed computational tools for RNA-seq quantitative analysis for both gene expression and splicing levels. Specifically, we developed an open software package, called ASpli, designed and adapted to integrate different splicing signals from both junctions and coverage, on a single statistical framework, considering all the distinct splicing patterns that can arise on a cell. ASpli is currently available for download from Bioconductor, the R biological analysis package repository, https://www.bioconductor.org/packages/ASpli, together with examples, use cases and a detailed description of the implemented methodology. ASpli was published in Bioinformatics (DOI: 10.1093/bioinformatics/btab141). For the second part of this thesis we inferred complex gene regulatory networks from RNA-seq data. We used a strategy based on modifying a random forest heuristic to incorporate previous biological knowledge codified in Gene Ontology. This ontology provides a controlled vocabulary of biological terms that characterize the properties of gene products. With it, we defined similarities between regulatory genes and its (possible) target genes and modified the probability of selecting a particular regulatory gene in each tree in the random forest for each target gene as a function of this similarity. With this methodology, we analysed an A. thaliana RNA-seq time course and knockout and knockdown E. coli and S. cerevisiae experiments, obtaining biologically relevant results and in some cases improving the results obtained with other state of the art methodologies.

Citación:

---------- APA ----------

Rabinovich, Andrés. (2022). Inferencia de redes complejas de regulación génica a partir de relevamientos transcripcionales de gran escala. (Tesis Doctoral. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales.). Recuperado de https://hdl.handle.net/20.500.12110/tesis_n7221_Rabinovich

---------- CHICAGO ----------

Rabinovich, Andrés. "Inferencia de redes complejas de regulación génica a partir de relevamientos transcripcionales de gran escala". Tesis Doctoral, Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales, 2022.https://hdl.handle.net/20.500.12110/tesis_n7221_Rabinovich

Estadísticas:

Descargas totales desde :

Navegar

Colección

Tesis Doctoral