ANÁLISIS DE SECUENCIA Y FUNCIÓN
Entre los diversos análisis aplicados a cada tipo de proteína, se encuentra el procesamiento de estas en un gran número de bases de datos disponibles en la web, motivo por el cual, se obtuvo diversas clasificaciones en relación con su función y para esto, se analizaron las diferentes secuencias en sus respectivos archivos FASTA.
FASTA
Este tipo de archivo hace una descripción en la primera línea y el resto de las líneas que contiene el archivo entrega anotación de datos de la secuencia deseada. La forma en que se diferencia cuál es la línea que proporciona la información descriptiva corresponde a aquella que tenga en su comienzo el símbolo ‘mayor que’ (“>”), por ende, el resto de las líneas que no lo presentan equivalen a la anotación de la secuencia descrita. Finalmente, cabe señalar que
el formato FASTA entrega la información de manera continua, por lo tanto, no permite espacios o líneas en blanco en medio de la anotación (NCBI, 2007).
Las proteínas cumplen la función de catalizar funciones específicas dentro de los organismos, esto ocurre en consideración a su secuencia aminoacídica y su estructura tridimensional, quienes de acuerdo con su actividad se pueden clasificar por motivos, dominios, familias y superfamilias, entre otros.
- Motivo: Para referirse a un motivo, debemos observar un alineamiento múltiple de proteínas homólogas y se puede ver que algunas columnas varían bastante, mientras que otras están más conservadas. Cuando observamos ciertas columnas cercanas con una alta conservación, es decir, cuando encontramos fragmentos de las secuencias que se conservan más que otros y que podrían caracterizar funcionalmente a las proteínas, entonces solemos hablar de motivos.
- Dominio: Así también, el concepto de dominio define una unidad estructural independiente en las proteínas. Sin embargo, se utiliza con cierta laxitud: por ejemplo, en estudios genéticos de deleción, a veces se utiliza como sinónimo de la parte mínima de la secuencia capaz de realizar la función estudiada. En las bases de datos de dominios como PFam, un dominio se suele corresponder con el núcleo del dominio estructural, aquella zona más similar entre todas las proteínas de una familia, aunque no tiene por qué coincidir exactamente con los límites del dominio estructural.
En este sentido es importante destacar que la función de una proteína es es el resultado de las funciones del resultado de las funciones de sus dominios. Siendo así, el dominio, y no el gen, la unidad evolutiva básica. Por lo tanto, se entiende los siguientes conceptos de la siguiente manera:
- Familia: Grupo de proteínas con una función común (jerarquía subjetiva), las que se encuentran relacionadas evolutivamente, y en reiteradas ocasiones se considera sinónimo de “familia génica”. Sin embargo, el concepto se debe confundir con familia usado en el sentido taxonómico. Cabe destacar que las proteínas de una familia descienden de un antepasado común y típicamente poseen estructuras tridimensionales, funciones y secuencias similares.
- Superfamilia: Grupo de proteínas de extensión más macro con origen común.
En consideración a dicha información, se entrega el siguiente gráfico dinámico. Esta información está basada en el set de datos que se obtuvo desde UNIPROT, los cuales fueron clasificados en primera instancia según su aplicación en la industria. Información detallada que se encuentra en la sección “Industrias Alimentarias”.
- Universal Protein Resource / UNIPROT
El Universal Resource Protein (UniProt) corresponde a un recurso central en el ámbito de la investigación y anotación de genomas y proteómica. Esto se debe a que corresponde a un recurso central de almacenamiento de la información, siendo de esta forma el catálogo más amplio, estable y de libre acceso, que proporciona las secuencias de proteínas y su anotación funcional. UniProt es una colaboración entre el Instituto Europeo de Bioinformática (EBI), el Recurso de Información de Proteínas (PIR) y el Instituto Suizo de Bioinformática (SIB). Éste presenta como principales funcionalidades otorgar archivos de secuencias (con el apoyo de análisis computacionales) y un sitio web que permite generar referencias cruzadas a otras bases de datos. UniProt se actualiza y distribuye cada tres semanas, y se puede acceder a este a través de http://www.uniprot.org (The EMBL Outstation, 2007).
Luego, cada tipo de enzima se subclasifica en los diversos análisis realizados y que determinan si cada secuencia proteica presenta un tipo de motivo, dominio, familia y superfamilia. Los cuales, se encuentran detallados en las siguientes bases de datos:
- PROSITE
Es una base de datos de familias de proteínas y dominio o sitio funcional, siendo este último la zona de mayor densidad, o sea, donde se centran en mayor proporción los plegamientos. Dicha información biológica permite determinar la función de las proteínas analizadas, es por esto, que la plataforma web se ha rediseñado permitiendo al usuario descubrir nuevas regiones conservadas y visualizar los arreglos de los dominios identificados (Hulo et al., 2004).
Actualmente, tiene identificada en su base de datos 1154 dominios y se puede acceder a ella en http://prosite.expasy.org/.
- Pfam
Es una base de datos de familias de proteínas, donde se define a las familias como conjuntos de regiones de proteínas que comparten un grado significativo de similitud de secuencia, lo que sugiere homología. De esta manera proporciona información completa de los dominios y las familias de proteínas, representados por alineamientos múltiples de secuencias y perfiles de Modelos de Markov. Por tanto, la utilización de esta biblioteca permitirá comparar en
relación a sus dominios y residuos de aminoácidos (Punta et al., 2012). En Diciembre de 2015 la base de datos contaba con más de 16.000 familias y actualmente se encuentra disponible en http://pfam.xfam.org/.
- SUPERFAMILY
Base de datos que contiene perfiles de Modelos de Markov de todas las proteínas conocidas. “Un modelo oculto de Markov describe una distribución de probabilidad sobre un número de secuencias potencialmente infinito” (Eddy, 1998), de esta forma, genera un sistema de puntaje de posiciones específicas basado en probabilidad, por lo que contiene diferentes estados para
coincidencia, inserción o eliminación que son usados para modelar una familia de proteínas. Dichas proteínas, se clasifican según un ancestro común evolutivo. Proporcionando así, información estructural, funcional y evolutiva de las proteínas (Wilson et al., 2009).
Finalmente, se encuentra como última clasificación cada uno de los motivos, dominios, familias y superfamilias que se encuentran presentes en el grupo de proteínas con determinada función catalítica. Es en este gráfico donde podemos visualizar la cantidad de secuencias que presenta determinado dominio y que en algunos de los casos, se vincula de forma directa con la función que cataliza.
La información que se visualiza es parte de lo contenido en nuestra base de datos local creada por PROTECH y la cual se encuentra localizada en nuestros servidores. Para esto, se utiliza el sistema PostgreSQL, que almacena los datos y permite un rápido filtrado de la información.
- PostgreSQL
Sistema de gestión de bases de datos objeto-relacional, distribuido bajo licencia BSD y con su código fuente disponible libremente. PostgresQL es un proyecto de código abierto, lo que conlleva a que es dirigido por una comunidad de desarrolladores que trabajan de forma altruista, libre y/o apoyados por organizaciones comerciales. Dicha comunidad es denominada el PostgreSQL Global Development Group (PGDG) (The PostgreSQL Global Development Group, 2016).