Metodología
Las enzimas, son proteínas que permiten catalizar diversas funciones biológicas. Cada una de estas macromoléculas está formada por una secuencia de aminoácidos, su unidad básica, que le otorga diversas características, composiciones, estructuras, entre otros. Es por esto, que la secuencia de cada enzima determina su función y desempeño, siendo de gran interés para el estudio y análisis de cada una. Esta secuencia aminoacídica además de otorgar propiedades específicas también proporciona una estructura a cada proteína, donde dicho plegamiento tiene directa relación con la funcionalidad e interacción de la enzima. Es por esto, que es de gran interés la creación de una herramienta capaz de realizar búsqueda de enzimas para una función determinada. Actualmente, dicha información de secuencia y estructura de las proteínas se encuentran alojadas en bases de datos de acceso libre a nivel mundial. Razón por la cual, estos repositorios contienen una gran cantidad de información.
Uno de los objetivos fundamentales del análisis de secuencias es la deducción asociada al conocimiento relativo a la estructura y función de estas mediante la comparación de sus secuencias primarias. Cuando un conjunto de proteínas presenta secuencias similares se puede hipotetizar que poseen la misma función o el mismo sustrato, así también, se pueden clasificar familias de proteínas de acuerdo con su estructura terciaria, considerando más relevante la exposición de residuos que dicho plegamiento presente, siendo estos los que le otorguen una actividad enzimática específica. Los análisis de minería de datos llevados a cabo en secuencias de proteínas y en su estructura permiten revelar patrones comunes que se encuentran asociados a una determinada función biológica (Chen et al., 2004). Es por esto, que caracterizar dichos motivos conservados es primordial para determinar el desempeño de cada enzima.
Por lo anteriormente señalado, la metodología utilizada para la selección de enzimas se basa en el análisis de secuencias proteicas, incluyendo también un análisis de sus estructuras tridimensionales. Esta metodología se divide en 4 principales pasos:

Paso 1 – Análsis de secuencias: El objetivo final de nuestro servicio es obtener diversas enzimas con aplicaciones en la industria. En consideración a esto, se seleccionan todas las secuencias de bacterias conocidas actualmente y posteriormente, se realiza una caracteriación de cada secuencia en base a la presencia de patrones, motivos, familia, superfamilia y otros. Dicha información se obtuvo desde diferentes bases de datos de acceso libre, además del procesamiento de estas secuencias obteniendo así, diversos descriptores moleculares
Paso 2 – Base de Datos Local: Con la finalidad de obtener un sistema que permita clasificar toda la información disponible de cada proteína, es que se creó una herramienta bioinformática que caracteriza mediante diversos descriptores moleculares todas las secuencias que contenía la base de datos de UNIPROT al año 2019, o sea, 560.000 secuencias de aminoácidos. Dichos descriptores corresponden a características fisicoquímicas, moleculares, de función y estructura de cada proteína, los que fueron obtenidos desde lenguajes de programación como R o Python, bases de datos, literatura y otros. Siendo un total de 39 descriptores moleculares que definen a cada secuencia, por lo tanto, la base de datos local desarrollada contiene 17.360.000 datos aproximadamente. Con esta información, el sistema permite obtener un ranking de las proteínas que según su caracterización de secuencia y estructura tienen una función putativa.
Paso 3 – Análisis Estructural: A nivel evolutivo, la estructura de una molécula tiende a conservar en mayor nivel su forma ancestral que a nivel de secuencia, ya que esta última es más factible de sufrir cambios y mutaciones en el tiempo (Thilakaraj et al., 2007). La mayoría de las proteínas han evolucionado para realizar funciones específicas que dependen de la estructura tridimensional que adoptan mediante patrones definidos de residuos conservados en secuencias de aminoácidos que se caracterizan por ser divergentes. Esta necesidad surge de mantener estructuras terciarias con el requisito de conservar los residuos implicados en la función (Núñez, 2004)
Paso 4 – Enzimas Seleccionadas: Con relación a lo anterior, cuando tenemos una proteína ya identificada/utilizada en un proceso industrial se caracteriza en nuestro sistema bioinformático y una vez obtenida su clasificación, permite obtener el ranking de secuencias ya descrito y como paso final, se realiza una comparación estructural que valida la selección de las proteínas de interés. Obteniendo así, las enzimas seleccionadas con posible función industrial.
Tipos de enzimas
En consideración a las aplicaciones que tienen las enzimas y que se encuentran señaladas en la sección “Enzimas Industriales”, la clasificación que estas presentan en nuestra base de datos corresponde a 11 grupos de enzimas.
Los diferentes grupos de enzimas se pueden clasificar como organismos GRAS o no GRAS (GRAS es el acrónimo de “Generalmente reconocido como seguro”, donde la FDA aprueba ciertas sustancias que son agregadas como “seguras”). Así también, se detalla a continuación la función biológica realizada, la que le otorga las diferentes aplicaciones industriales.


Base de Datos Local
En relación con el gran conjunto de datos obtenidos por la caracterización de cada secuencia, se procede a crear una base de datos local que se encuentra alojada en servidores institucionales. Esta base de datos contiene información correspondiente a la (1) caracterización de secuencia según diferentes descriptores moleculares, (2) predicción estructural acorde a su composición aminoacídica, (3) clasificación de dominio obtenido desde las bases de datos públicas y (4) organismo de origen que permite definir características extremófilas. Todas estas tablas de contenidos convergen en la tabla “Proteína”, que permite identificar de forma unívoca cada secuencia para obtener posteriormente el detalle de estas enzimas.
Modelo por Homología
El proceso de modelado por homología es cíclico, por lo cual, se procede a realizar un gran número de veces la repetición de cada paso con el propósito de obtener un modelo confiable.
Este refinamiento se genera a partir de la secuencia aminoacídica, la misma que fue caracterizada previamente, y se genera un alineamiento múltiple, permitiendo de esta manera la obtención de modelos tridimensionales que presenten su configuración. Luego, se construye un primer modelo estructural y se valida este, mediante análisis descritos en literatura y que varían según el software utilizado.
La cantidad de modelos obtenidos varía dependiendo de los ciclos que se repiten estos pasos, entregando como resultado n modelos refinados, los cuales se priorizan y se selecciona aquel que presenta los mejores patrones.

Clustering – Método k-means
El tipo de clustering seleccionado para el análisis de datos proteicos es el método k-means. K-Means es un tipo de aprendizaje no supervisado, que se utiliza cuando tienes datos no etiquetados, es decir, datos sin categorías o grupos definidos. El objetivo de este algoritmo es encontrar grupos en los datos, los puntos de datos se agrupan según la similitud de características.
K-Means es un método relativamente eficiente, sin embargo, debemos especificar el número de clústeres de antemano, y los resultados finales son sensibles a la inicialización y, a menudo, terminan en un óptimo local. Lamentablemente, no existe un método teórico global para encontrar la cantidad óptima de clústeres. Un enfoque práctico es comparar los resultados de múltiples ejecuciones con diferentes K y elegir la mejor basada en un criterio definido.
Este es un algoritmo rápido, robusto y simple que proporciona resultados confiables cuando los conjuntos de datos son distintos o bien separados entre sí de forma lineal. A continuación, se presenta el algoritmo de clusterización utilizada en el pipeline bioinformático, donde los pasos de ejecución que los componen son:




Este procedimiento se debe repetir tantas veces hasta que se encuentren el agrupamiento de datos óptimos. En ocasiones se deberá cambiar el valor de K para mejorar los resultados.