RELACIÓN APLICACIÓN/ORIGEN
Con la finalidad de obtener un sistema que permita clasificar toda la información disponible de cada proteína, es que se creó una herramienta bioinformática que caracteriza mediante diversos descriptores moleculares todas las secuencias que contenía la base de datos de UNIPROT al año 2019, o sea, 350.000 secuencias de aminoácidos. Dichos descriptores corresponden a características fisicoquímicas, moleculares, de función y estructura de cada proteína, los que fueron obtenidos desde lenguajes de programación como R o Python, bases de datos, literatura y otros. Siendo un total de 31 descriptores moleculares que definen a cada secuencia, por lo tanto, la base de datos local desarrollada contiene 17.360.000 datos aproximadamente. Con esta información, el sistema permite obtener un ranking de las proteínas que según su caracterización de secuencia y estructura tienen una función putativa.
Con la gran información contenida en el sistema bioinformático el siguiente gráfico es de gran utilidad para visualizar la directa relación que existe entre cada uno de los descriptores y la función extremófila que se espera de cada proteína.
Una de las principales problemáticas industriales corresponde a las condiciones óptimas de uso de cada enzima, debido a que la mayoría de los procesos se realizan con cambios de temperatura. Por lo cual, es de gran relevancia que la búsqueda de nuevas enzimas se relacione directamente con organismos extremófilos que otorguen capacidad de crecimiento en condiciones extremas.
Directamente relacionado a la variedad de enzimas que se esperan obtener y analizar, se construyó este gráfico dinámico de relaciones, el que permite obtener las variadas líneas de aplicación que puede tener un segmento de proteínas y cómo esto se relaciona con el rendimiento que estas tengan, asociados a su origen.
En primer lugar, se clasificaron las 350.000 secuencias acorde a la industria en la cual puede utilizarse, información que se encuentra en detalle en la sección del “Resultado 1”, los resultados que se visualizan se subidividen en 8 tipos de industrias, las que se relacionan de forma directa con los diversos tipos de enzimas, siendo finalmente 11 los grupos de principal uso validad en el mercado. Estos grupos proteicos contienen información específica de cada tipo de secuencia y su asociación al origen desde el cual provienen, por lo tanto, en tercer lugar, se vinculan con los organismos desde los cuales se obtuvieron. Para finalmente, ligarlo con el tipo de comportamiento que tiene ese tipo de organismo a condiciones extremas, específicamente con la temperatura.