Aplicaciones de la bioinformática: terapia génica, medicina molecular, desarrollo de fármacos, estudio de
proteínas, secuenciación, estudios comparativos, etc.
Hardware: Componentes físicos
- Disco (HDD/SDD): almacenamiento (guarda la info)
- RAM (memoria): para procesar los datos (disco procesador)
- GPU (video card): gráficas y procesamiento de imágenes
- CPU (procesador): interpreta instrucciones
Software: los programas que pueden ejecutarse
Máquinas virtuales
- Sistema que simula el comportamiento de una computadora virtual dentro de una computadora
física (transformación de hardware en software)
- Cada una tiene su propio sistema operativo
- Las capacidades de la computadora “huésped” determina cuales y cuantas MV pueden usarse
1. Hardware “host”
2. Sistema Operativo “host”
3. Aplicación de virtualización
4. Sistema Operativo “guest”
No virtualizado: Utiliza Linux como sistema operativo principal
Virtualizado: Utiliza Linux como guest en otro sistema operativo (Limitación de recursos)
Environments y Containers
1. Container: unidad de software estándar que empaqueta el código y todas sus dependencias para
que la aplicación se ejecute de forma rápida y fiable de un entorno informático a otro (partes del
sistema que necesitamos)
2. Environment: estado de una computadora, determinado por una combinación de software,
hardware básico y qué programas se están ejecutando (aplicaciones necesarias)
- Sirven para homologar el programa (hacerlo reproducible y evitar incompatibilidades) y hacerlo
independiente del hardware
Sistema operativo (OS): conjunto de órdenes y programas que controlan los procesos básicos de una
computadora y permiten el funcionamiento de otros programas y la interacción con el usuario.
De primer plano: requieren de la interacción del usuario, es el caso de un navegador web, un editor
de texto, un programa de diseño de imágenes.
De segundo plano: son aquellos programas que no requieren del usuario y habitualmente no poseen
una interfaz gráfica o “pantalla”. Ex el anti-virus
LINUX libre, abierto, seguro, reutiliza una compu antigua, está disponible en todos lados, optimiza
recursos, personalizable, grandes comunidades de soporte, estructura configurable, sin restricciones
SO UNIX: colección de software que gestiona los recursos de hardware del ordenador y proporciona
servicios comunes para los programas
Kernel: el núcleo de un sistema operativo gestiona los recursos del ordenador (por ejemplo, la CPU,
la RAM y los dispositivos internos y externos) y permite que los programas utilicen
estos recursos
, Shell: el intérprete de línea de comandos (CLI) es una interfaz de sólo texto entre el usuario y el
núcleo. Su función es ejecutar comandos desde la ventana del terminal
Programas: se pueden instalar programas externos. El sistema operativo viene con muchas utilidades
incorporadas
Usuario: El propietario de un archivo
Grupo: Los miembros del grupo del archivo
Otros: Cualquier usuario que no forme parte de las clases de usuario o grupo
BD Biológicas
- Es una colección organizada de datos, de manera que se pueda acceder a ellos y gestionarlos
fácilmente (interpretarla)
- Puede organizar los datos en tablas, filas y columnas, e indexarlos para facilitar la búsqueda de
información relevante.
- Incluye diferentes conjuntos de datos con diferentes características que se relacionan entre sí y se
almacenan bajo un propósito específico y una estructura lógica
- El acceso tiene que ser: fácil, rápido, flexible, amigable, robusto, confiable
Información bibliográfica (genomas, papers, estructuras, taxonomía, etc)
Información más compleja regulación génica, vias metabólicas, reacciones, etc.
Características:
Alta complejidad
Gran cantidad y variabilidad de información
Múltiples fuentes de información
Formato personalizado o estandarizado
Múltiples interpretaciones
Consultas imprevisibles
Debe ser capaz de recibir preguntas impredecibles
Acceso a la info: palabras clave, código de acceso, números, autores, etc
Búsqueda de patrones: en secuencias que pueden ser reconocidos y almacenados sirve para realizar
clasificaciones, etc
Predicciones: secuencias que se parecen a otras se pueden clasificar y predecir las funciones biológicas, el
comportamiento, la especificidad de los patrones de las especies, etc.
Estructura de las BD
1. Registro: dataset autoconsistente
2. Campos: elementos de c/registro
3. Índice: listas ordenadas dentro de los campos
4. Relaciones: de los datos entre y dentro de las BD interconexiones entre índices
5. Preguntas: input
Confianza de la info: mediante bibliografía y curadores que revisan la info
BD curada: confirmado biológicamente (confiable)
BD no redundante: no se repite la info bajo cierto criterio
BD primaria: info cruda sin procesar (curada/no curada)
BD secundaria: info ya analizada y procesada (curada)
Principales BD biológicas: NCBI, EBI, DDBJ forman el INSDC (sincroniza los 3 consorcios, cambiando la
visualización y el motor de búsqueda)
- Cada consorcio tiene BD destinadas a los distintos tipos de info
, BD Nucleotídicas y Proteicas
Numero de acceso (Acc) de GeneBank XX_12345.2 Refiere al mismo locus y secuencia, a pesar
de los cambios en la secuencia.
RefSeq: colección curada de info sin redundancia/repeticiones (1 oficial para c/cosa)
Next Generation Sequencing: datos de secuenciación crudos que se guardan bajo un SRA (sequence
read archive)
MultiFASTA: archivo con muchas secuencias FASTA
La BD “Third Party Annotation” (TPA) contiene secuencias ya existentes pero anotadas por nuevos autores a
partir de datos publicados.
- Hay dos tipos de registros: Anotaciones experimentales (pruebas de resultados húmedos) e
inferenciales (La anotación es resultados de análisis BioInfo y espera la confirmación exp.)
Código de Acceso + Nueva Versión = Identificador único (GI) Cambia con cada actualización del registro
correspondiente a la secuencia
NT: ADN genómico de Contigs
NM: ARNm, secuenciado/verificado experimentalmente
NP: proteínas secuenciadas/verificadas experimentalmente
XN: ARNm predichos in-silico
XP: Proteínas predichas in-silico
No todo lo que está disponible en las BD es necesariamente confiable hay que elegir bien que BD usar y
aun así dependemos de la confianza en aquel que agrego la información
Buscar secuencias en BD
- Motor de búsqueda indexado
- Acceso a INSDC, proteínas, pubmed, etc. con el mismo buscador
- Enlaces a otras BD
- Búsqueda de secuencias por alineación
- Búsqueda por palabra clave
Entrez: es una interfaz a través de la cual podés acceder a todas las BD del NCBI en forma integrada
Gquery: interfaz entre el usuario y las BD
- Permite realizar consultas sencillas y obtener resultados, incluso sin conocer la arquitectura de las
bases de datos.
Estructura de NCBI
1. Taxonomía (nombres y relaciones filogenéticas)
2. Estructura (3D)
3. Genoma
4. Pop Set (ADN de interés evolutivo)
5. OMIM
6. SNP (dbSNP)
Como buscar en NCBI/EMBL
1. Seleccionar la base de datos adecuada
2. Conocer los campos/índices y cómo utilizarlos
3. Utilizar conectores lógicos (AND, OR y NOT) para realizar búsquedas combinadas
4. Limitar la búsqueda con filtros