Metodología

Las enzimas, son proteínas que permiten catalizar diversas funciones biológicas. Cada una de estas macromoléculas está formada por una secuencia de aminoácidos, su unidad básica, que le otorga diversas características, composiciones, estructuras, entre otros. Es por esto, que la secuencia de cada enzima determina su función y desempeño, siendo de gran interés para el estudio y análisis de cada una. Esta secuencia aminoacídica además de otorgar propiedades específicas también proporciona una estructura a cada proteína, donde dicho plegamiento tiene directa relación con la funcionalidad e interacción de la enzima. Es por esto, que es de gran interés la creación de una herramienta capaz de realizar búsqueda de enzimas para una función determinada. Actualmente, dicha información de secuencia y estructura de las proteínas se encuentran alojadas en bases de datos de acceso libre a nivel mundial. Razón por la cual, estos repositorios contienen una gran cantidad de información.

Con la finalidad de obtener un sistema que permita clasificar toda la información disponible de cada proteína, es que se creó una herramienta bioinformática que caracteriza mediante diversos descriptores moleculares todas las secuencias que contenía la base de datos de UNIPROT al año 2019, o sea, 560.000 secuencias de aminoácidos. Dichos descriptores corresponden a características fisicoquímicas, moleculares, de función y estructura de cada proteína, los que fueron obtenidos desde lenguajes de programación como R o Python, bases de datos, literatura y otros. Siendo un total de 39 descriptores moleculares que definen a cada secuencia, por lo tanto, la base de datos local desarrollada contiene 17.360.000 datos aproximadamente. Con esta información, el sistema permite obtener un ranking de las proteínas que según su caracterización de secuencia y estructura tienen una función putativa.

SUB MENU

Uno de los objetivos fundamentales del análisis de secuencias es la deducción asociada al conocimiento relativo a la estructura y función de estas mediante la comparación de sus secuencias primarias. Cuando un conjunto de proteínas presenta secuencias similares se puede hipotetizar que poseen la misma función o el mismo sustrato, así también, se pueden clasificar familias de proteínas de acuerdo con su estructura terciaria, considerando más relevante la exposición de residuos que dicho plegamiento presente, siendo estos los que le otorguen una actividad enzimática específica. Los análisis de minería de datos llevados a cabo en secuencias de proteínas y en su estructura permiten revelar patrones comunes que se encuentran asociados a una determinada función biológica (Chen et al., 2004). Es por esto, que caracterizar dichos motivos conservados es primordial para determinar el desempeño de cada enzima.

A nivel evolutivo, la estructura de una molécula tiende a conservar en mayor nivel su forma ancestral que a nivel de secuencia, ya que esta última es más factible de sufrir cambios y mutaciones en el tiempo (Thilakaraj et al., 2007). La mayoría de las proteínas han evolucionado para realizar funciones específicas que dependen de la estructura tridimensional que adoptan mediante patrones definidos de residuos conservados en secuencias de aminoácidos que se caracterizan por ser divergentes. Esta necesidad surge de mantener estructuras terciarias con el requisito de conservar los residuos implicados en la función (Núñez, 2004).

Modelo referencial de Base de Datos Local con información obtenida a través de repositorios bioinformáticos