Inferencia de redes complejas de regulación génica a partir de relevamientos transcripcionales de gran escala

Una gran variedad de funciones celulares, como la respuesta a estrés, el mantenimiento del estado celular y el dimorfismo, entre otras, son controladas por programas de regulación génica que deben ajustar los cambios en los niveles de expresión de cada gen a lo largo del tiempo de forma coordinada....

Descripción completa

Guardado en:
Detalles Bibliográficos
Autor principal: Rabinovich, Andrés
Formato: Tesis Doctoral
Lenguaje:Español
Publicado: 2 de
Materias:
Acceso en línea:https://hdl.handle.net/20.500.12110/tesis_n7221_Rabinovich
Aporte de:
id todo:tesis_n7221_Rabinovich
record_format dspace
institution Universidad de Buenos Aires
institution_str I-28
repository_str R-134
collection Biblioteca Digital - Facultad de Ciencias Exactas y Naturales (UBA)
language Español
orig_language_str_mv Español
topic REDES COMPLEJAS DE ORIGEN BIOLOGICO
RNA-SEQ
SPLICING ALTERNATIVO
BIOLOGICAL COMPLEX NETWORKS
RNA-SEQ
ALTERNATIVE SPLICING
spellingShingle REDES COMPLEJAS DE ORIGEN BIOLOGICO
RNA-SEQ
SPLICING ALTERNATIVO
BIOLOGICAL COMPLEX NETWORKS
RNA-SEQ
ALTERNATIVE SPLICING
Rabinovich, Andrés
Inferencia de redes complejas de regulación génica a partir de relevamientos transcripcionales de gran escala
topic_facet REDES COMPLEJAS DE ORIGEN BIOLOGICO
RNA-SEQ
SPLICING ALTERNATIVO
BIOLOGICAL COMPLEX NETWORKS
RNA-SEQ
ALTERNATIVE SPLICING
description Una gran variedad de funciones celulares, como la respuesta a estrés, el mantenimiento del estado celular y el dimorfismo, entre otras, son controladas por programas de regulación génica que deben ajustar los cambios en los niveles de expresión de cada gen a lo largo del tiempo de forma coordinada. En los últimos años, avances en técnicas de secuenciación de alto rendimiento permitieron abordar el estudio del funcionamiento celular a partir de propiedades de redes de interacciones entre sus constituyentes moleculares. Este abordaje sistémico, propio del estudio de sistemas complejos, utiliza intensivamente la teoría de redes complejas para el estudio a escala global de propiedades de organización y funcionamiento de genes y proteínas dentro de una célula. En este trabajo abordamos esta temática con especial énfasis en desarrollar nuevas herramientas que permitan sacar provecho de la integración de grandes volúmenes de datos. En la primera parte de esta tesis desarrollamos herramientas computacionales para el análisis cuantitativo de datos de RNA-seq tanto a nivel de expresión génica como a nivel de splicing. En particular lo realizado fue implementado como un paquete de código libre y abierto, ASpli, específicamente diseñado y adaptado para integrar en un único framework estadístico distintas señales de splicing provenientes de junturas y cobertura, tomando en cuenta los distintos patrones de splicing alternativo que pueden ocurrir. ASpli se encuentra disponible para su descarga desde el repositorio de paquetes de análisis biológico Bioconductor. La segunda parte de este trabajo consistió en el armado de redes complejas de regulación génica a partir de datos de RNA-seq. Utilizamos para ello una estrategia basada en una heurística de regresiones del tipo Bosques Aleatorios o Random Forest, modificada para incorporar información biológica preexistente codificada en Ontología Génica o Gene Ontology. Esta ontología provee un vocabulario controlado de términos caracterizando las propiedades de los productos génicos. A partir de la misma, es posible definir similaridades entre genes de tipo reguladores y genes de tipo diana, y esto permite modificar las probabilidades de seleccionar un factor de transcripción como variable explicativa en cada árbol del random forest, para cada gen diana, en función de la similaridad entre ese factor de transcripción y el gen. Utilizando esta metodología analizamos datos de RNA-seq de series temporales en A. thaliana y datos de knockout y knockdown de E. coli y S. cerevisiae, obteniendo resultados biológicamente relevantes y en algunos casos mejorando los resultados obtenidos con otras metodologías ampliamente utilizadas para el análisis de este tipo de datos.
format Tesis Doctoral
author Rabinovich, Andrés
author_facet Rabinovich, Andrés
author_sort Rabinovich, Andrés
title Inferencia de redes complejas de regulación génica a partir de relevamientos transcripcionales de gran escala
title_short Inferencia de redes complejas de regulación génica a partir de relevamientos transcripcionales de gran escala
title_full Inferencia de redes complejas de regulación génica a partir de relevamientos transcripcionales de gran escala
title_fullStr Inferencia de redes complejas de regulación génica a partir de relevamientos transcripcionales de gran escala
title_full_unstemmed Inferencia de redes complejas de regulación génica a partir de relevamientos transcripcionales de gran escala
title_sort inferencia de redes complejas de regulación génica a partir de relevamientos transcripcionales de gran escala
publishDate 2 de
url https://hdl.handle.net/20.500.12110/tesis_n7221_Rabinovich
work_keys_str_mv AT rabinovichandres inferenciaderedescomplejasderegulaciongenicaapartirderelevamientostranscripcionalesdegranescala
AT rabinovichandres inferringcomplexgeneregulatorynetworksfromhighthroughputtranscriptionaldata
_version_ 1782028597753544704
spelling todo:tesis_n7221_Rabinovich2023-10-03T13:17:16Z Inferencia de redes complejas de regulación génica a partir de relevamientos transcripcionales de gran escala Inferring complex gene regulatory networks from high throughput transcriptional data Rabinovich, Andrés REDES COMPLEJAS DE ORIGEN BIOLOGICO RNA-SEQ SPLICING ALTERNATIVO BIOLOGICAL COMPLEX NETWORKS RNA-SEQ ALTERNATIVE SPLICING Una gran variedad de funciones celulares, como la respuesta a estrés, el mantenimiento del estado celular y el dimorfismo, entre otras, son controladas por programas de regulación génica que deben ajustar los cambios en los niveles de expresión de cada gen a lo largo del tiempo de forma coordinada. En los últimos años, avances en técnicas de secuenciación de alto rendimiento permitieron abordar el estudio del funcionamiento celular a partir de propiedades de redes de interacciones entre sus constituyentes moleculares. Este abordaje sistémico, propio del estudio de sistemas complejos, utiliza intensivamente la teoría de redes complejas para el estudio a escala global de propiedades de organización y funcionamiento de genes y proteínas dentro de una célula. En este trabajo abordamos esta temática con especial énfasis en desarrollar nuevas herramientas que permitan sacar provecho de la integración de grandes volúmenes de datos. En la primera parte de esta tesis desarrollamos herramientas computacionales para el análisis cuantitativo de datos de RNA-seq tanto a nivel de expresión génica como a nivel de splicing. En particular lo realizado fue implementado como un paquete de código libre y abierto, ASpli, específicamente diseñado y adaptado para integrar en un único framework estadístico distintas señales de splicing provenientes de junturas y cobertura, tomando en cuenta los distintos patrones de splicing alternativo que pueden ocurrir. ASpli se encuentra disponible para su descarga desde el repositorio de paquetes de análisis biológico Bioconductor. La segunda parte de este trabajo consistió en el armado de redes complejas de regulación génica a partir de datos de RNA-seq. Utilizamos para ello una estrategia basada en una heurística de regresiones del tipo Bosques Aleatorios o Random Forest, modificada para incorporar información biológica preexistente codificada en Ontología Génica o Gene Ontology. Esta ontología provee un vocabulario controlado de términos caracterizando las propiedades de los productos génicos. A partir de la misma, es posible definir similaridades entre genes de tipo reguladores y genes de tipo diana, y esto permite modificar las probabilidades de seleccionar un factor de transcripción como variable explicativa en cada árbol del random forest, para cada gen diana, en función de la similaridad entre ese factor de transcripción y el gen. Utilizando esta metodología analizamos datos de RNA-seq de series temporales en A. thaliana y datos de knockout y knockdown de E. coli y S. cerevisiae, obteniendo resultados biológicamente relevantes y en algunos casos mejorando los resultados obtenidos con otras metodologías ampliamente utilizadas para el análisis de este tipo de datos. A large variety of cellular functions, like response to stress, cellular state maintenance and dimorfism, among others, are controlled by gene regulatory programs that must adjust changes in gene expression levels over time on a coordinated fashion. During the last years, advances in high throughput sequencing techniques allowed the studying of cellular functions through the properties of interaction networks between it’s molecular constituents. This systemic analysis, typical of complex systems, intensively uses complex networks theory for studying organizational and functional properties of genes and proteins inside a cell on a global scale.In this work we address this issue with particular interest in developing new tools that allow us to take advantage of big data integration. For the first part of this thesis we developed computational tools for RNA-seq quantitative analysis for both gene expression and splicing levels. Specifically, we developed an open software package, called ASpli, designed and adapted to integrate different splicing signals from both junctions and coverage, on a single statistical framework, considering all the distinct splicing patterns that can arise on a cell. ASpli is currently available for download from Bioconductor, the R biological analysis package repository, https://www.bioconductor.org/packages/ASpli, together with examples, use cases and a detailed description of the implemented methodology. ASpli was published in Bioinformatics (DOI: 10.1093/bioinformatics/btab141) For the second part of this thesis we inferred complex gene regulatory networks from RNA-seq data. We used a strategy based on modifying a random forest heuristic to incorporate previous biological knowledge codified in Gene Ontology. This ontology provides a controlled vocabulary of biological terms that characterize the properties of gene products. With it, we defined similarities between regulatory genes and its (possible) target genes and modified the probability of selecting a particular regulatory gene in each tree in the random forest for each target gene as a function of this similarity. With this methodology, we analysed an A. thaliana RNA-seq time course and knockout and knockdown E. coli and S. cerevisiae experiments, obtaining biologically relevant results and in some cases improving the results obtained with other state of the art methodologies. Fil: Rabinovich, Andrés. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina. 2 de noviembre de 2022 Tesis Doctoral PDF Español info:eu-repo/semantics/openAccess https://creativecommons.org/licenses/by-nc-sa/2.5/ar https://hdl.handle.net/20.500.12110/tesis_n7221_Rabinovich