¿Cómo usar QIIME? qiime2 en español
Revisa aquí los 11 pasos del tutorial de QIIME 2 para aprender a usar algunos de los plugins usados para análisis de amplicones del 16S rRNA
QIIME 2 MOVING PICTURES TUTORIAL PASO 1 Creando una carpeta con el comando mkdir
Este tutorial contiene secuencias de muestras de microbioma humano de dos personas tomadas en 4 partes del cuerpo (palmas derecha e izquierda, tracto digestivo y lengua) en 5 puntos diferentes en el tiempo, las muestras fueron trabajadas usando el protocolo del Proyecto de Microbioma de la Tierra (EMP), amplificando la región V4 del 16S rRNA y fueron secuenciadas en la plataforma Illumina HiSeq.
-El primer paso es crear una carpeta donde se almacenarán todos los archivos que se generen durante el análisis; para ello en la terminal:
-Con el comando de linux cd ingresa a la carpeta en donde quieres crear el directorio para tus archivos de QIIME 2, puede ser en la carpeta de Documentos
-por lo tanto escribe cd (espacio) y las primeras tres letras del nombre de la carpeta seguido de la tecla Tab para que se autocomplete y da un enter; copia la instrucción de la caja de comandos y pégala en la terminal
–mkdir es un comando de linux para crear carpetas; y qiime2-moving-pictures-tutorial es el nombre de la carpeta que vamos a crear
-haz un listado con el comando de linux ls y nota que aparece el nombre de la carpeta que acabamos de crear, lo mismo vemos en el Finder de tu equipo
-Después con el comando cd ingresamos a la carpeta recién creada, y ya estamos listos para seguir con los demás pasos.
Revisa el siguiente video para ver los pasos que te acabamos de explicar de como crear tu carpeta de qiime2-moving-pictures-tutorial y continua viendo los siguientes pasos a continuación.
Calendario de cursos de bioinformática vigente
Curso | Fechas | Horario (Ciudad de México) | Modalidad | Más información |
QIIME 2 para principiantes | 01 a 05 abril 2024 | 9 am a 2 pm | Virtual-Zoom | Consulta temario |
QIIME 2 nivel intermedio | 2,9,16 y 23 noviembre 2024 | 9 am a 1 pm | Virtual-Zoom | Consulta temario |
Workshop 16S rRNA | 22 a 24 de julio 2024 | 10 am a 6 pm | Presencial-Tlaxcala, México | Consulta temario |
Análisis de 16S rRNA e ITS en R | 7, 14 y 21 de septiembre | 9 am a 2 pm | Virtual-Zoom | Consulta temario |
Cursos de bioinformática disponibles
QIIME 2 MOVING PICTURES TUTORIAL PASO 2 descarga el Sample metadata
-En el paso anterior creamos la carpeta llamada qiime2-moving-pictures dentro de la carpeta de Documentos con el comando de linux mkdir
-El siguiente paso es descargar el archivo de los metadatos de la página web, para eso damos click en el enlace y esperamos un poco. Vemos que en el finder en la carpeta de descargas ya se encuentra el archivo de los metadatos. Sin embargo es necesario moverlo a la carpeta de qiime2-moving-pictures que creamos en Documentos en el paso 1 y guardarlo como sample-metadata.tsv, para ello vamos a usar una herramientas de linux:
-primero ingresamos a la carpeta de Descargas con el comando cd, escribimos cd (espacio) ../../Descargas y damos enter
-Hacemos un listado con el comando ls y vemos que dentro de la carpeta de descargas se encuentra el archivo de los metadatos
-para moverlo de carpeta usamos el comando move, escribimos mv (espacio) Mov y con la tecla del tabulador completamos el nombre del archivo,
-escribimos ../Documentos/qii (las tres primeras letras de la carpeta) y con la tecla Tab completamos el nombre de la carpeta
-Podemos copiar el nombre sugerido para el archivo y pegarlo después de la diagonal y damos enter. Ve cómo aparece el archivo en la carpeta de qiime2-moving-pictures
-Hacemos un listado con el comando ls y vemos que ya no se encuentra el archivo en la carpeta de Descargas
-Regresamos a la carpeta de qiime2-moving-pictures que tenemos en documentos con el comando cd y si hacemos un listado vemos que ya tenemos el archivo de los metadatos renombrado.
-Ahora vamos a abrir el archivo de los metadatos en excel para ver su contenido, simplemente arrastra el archivo a tu aplicación de excel.
-Este archivo es muy importante porque contiene la información del experimento, por ejemplo: nombre de la muestra, la secuencia del barcode, la cual es diferente para cada muestra, la parte del cuerpo donde se tomó la muestra como intestino, palma izquierda y derecha o lengua, el año en que se tomó la muestra, 2009 o 2008; el mes que se tomó la muestra así como el día, el sujeto de estudio, si tomaron o no antibióticos y los días desde que inició el experimento.
En el siguiente video puedes ver detalladamente lo que te acabamos de explicar
QIIME 2 MOVING PICTURES TUTORIAL PASO 3 Obtaining and importing data (descarga las secuencias e importalas a formato .qza)
En el paso anterior descargamos el archivo de los metadatos y lo movimos a la carpeta creada para desarrollar este tutorial. Lo siguiente es obtener e importar los datos, es decir, descargar las secuencias de trabajo
Requerimos entonces crear una carpeta que se llame emp-single-end-sequences con ayuda del comando de linux mkdir dentro de la carpeta que creamos en el paso 1 (qiime2-moving-pictures)
Copiamos la instrucción (puedes dar clic en el ícono y se copia el contenido de la caja de comandos) y la pegamos en la terminal, damos enter
Las secuencias del tutorial moving pictures están multiplexadas, es decir, no están separadas por muestras por eso tenemos dos archivos comprimidos (uno para barcodes y otro para secuencias)
Ahora vamos a descargar los barcodes dando click en el enlace, si tienes duda ¿qué es un barcode? da click aquí.
Nos vamos al finder y vemos que en la carpeta de descargas ya tenemos el archivo barcodes.fastq.gz, sin embargo, es necesario trasladarlo a la carpeta que creamos al inicio del video de acuerdo con las instrucciones del tutorial (emp-single-end-sequences)
Por lo tanto vamos a la terminal y con el comando de linux cd nos movernos de carpeta, escribimos cd (espacio) ../../Downloads/ y damos enter
Para mover éste archivo, usamos el comando de linux move; escribimos mv (espacio) el nombre del archivo (espacio) ../Documents/nombre de la carpeta que creamos en el paso 1 (qiime2-moving-pictures) y recuerda que con la tecla Tab podemos autocompletar los nombres de las carpetas y el nombre de la carpeta a donde lo queremos trasladar, en este caso emp-single-end-sequences y damos enter; vemos que efectivamente el archivo de los barcodes se encuentra en la carpeta que creamos al inicio del video.
Ahora vamos a hacer lo mismo con las secuencias de trabajo, damos click en el enlace para descargarlas.
Una vez concluida la descarga, hacemos un listado con ls y vemos que los archivos de las secuencias ya se encuentran en la carpeta de descargas,
Para moverlo hacemos lo mismo que con los barcodes, utilizando el comando move para trasladarlo a la carpeta de emp-single-end-sequences que está en documentos, dentro de la carpeta de qiime2-moving-pictures creada en el paso 1
Nos pasamos al finder y vemos que la carpeta contiene tanto los barcodes como las secuencias. Para regresarnos a la carpeta de trabajo, utilizamos el comando cd;
escribimos cd (espacio)../Documentos/qiime y con la tecla de Tab podemos autocompletar el nombre de la carpeta
Hacemos un listado a la carpeta con ls y vemos que ambos archivos se encuentran en su interior
El siguiente paso es importar las secuencias y los barcodes al formato .qza de Qiime2
Con el plugin qiime tools import, vamos a importar las secuencias a formato .qza
Si quieres saber ¿qué es un archivo .qza? da click aquí.
Para ello requerimos primero activar QIIME 2 ya que hasta ahora no habíamos utilizado ningún plugin de ésta Pipeline, los pasos anteriores los estuvimos trabajando con comandos de Linux;
Recordemos que durante la instalación de qiime, al finalizar nos muestra las instrucciones para activar y desactivar qiime2, sugerimos las guarden en un block de notas, puedes dar click aquí para ver un video de instalación de QIIME 2
Copiamos y pegamos la instrucción en la terminal, y después de unos segundos nos damos cuenta de que QIIME 2 está activado porque vemos que al inicio de la línea dice qiime2 y la versión instalada.
Ahora sí, copiamos el plugin qiime tools import y lo pegamos en la terminal
La opción type del plugin indica qué tipo de secuencias son, en este caso son secuencias single end, si tienes dudas de a que se refiere éste tipo de lecturas da click aquí.
La opción input-path indica el nombre de la carpeta que contiene las secuencias y los barcodes, así le estamos indicando al plugin que en esa carpeta se encuentran los archivos de entrada
La siguiente opción indica el nombre de archivo de salida, en este caso es emp-single-end-sequences el cual va a tener la extensión .qza, después dar enter.
Vemos que se generó el archivo .qza en la carpeta de qiime2, lo mismo si hacemos un listado con ls.
Esto ha sido todo, ahora sí ya está todo listo para comenzar a trabajar los datos ¡No olvides suscribirte a nuestro canal de you tube y seguirnos en nuestras redes sociales!
Cursos de bioinformática disponibles
QIIME 2 MOVING PICTURES TUTORIAL PASO 4 Demultiplexing sequences (demultiplexar las secuencias)
Recordemos que en el paso anterior descargamos las secuencias y los barcodes, posteriormente los importamos al formato de qiime2 con la extensión .qza
No olvides activar qiime2 en caso de que estés comenzando a trabajar a partir de este paso.
En este paso vamos hacer el demultiplexing de las secuencias, es decir, asociar las muestras con su respectivo barcode; primero hagamos una lista con el comando de linux ls para revisar los archivos que tenemos en nuestra carpeta de qiime2 creada en el paso 1, vemos que tenemos las secuencias en formato .qza obtenidas en el video anterior y la tabla de los metadatos obtenida en el paso 2
Luego vamos a copiar y pegar la caja del comando que corresponde al plugin del demultiplexing: la primera opción se refiere a las carpeta importada al formato .qza que contiene los barcodes y las secuencias; la opción del archivo que contiene la lista de los barcodes, que es el de metadatos del paso 2; la opción de barcodes-column, se refiere al nombre de la columna en el archivo de los metadatos que contiene la secuencia del barcode correspondiente con cada muestra, la cual se llama barcode-sequence. Esta información la podemos ver en el archivo de metadatos, si lo abrimos en excel veremos que la columna donde se encuentra la secuencia de los barcodes se titula barcode-sequence
La penúltima opción se refiere al archivo de salida el cual se va a llamar demux.qza; finalmente la última opción es el nombre del archivo que contiene los detalles de corrección de errores y que se llamará demux-details.qza y damos enter
Si estás comenzando en bioinformática, te invitamos a revisar nuestra lista de reproducción de comandos básicos de Linux de you tube, no olvides contactarnos ya que ofrecemos consultorias para resolver tus dudas y suscribirte a nuestro canal de you tube para seguir aprendiendo de microbioma y bioinformática.
Vemos que se generan los dos archivos de salida con la extensión .qza, nota como aparecen en la carpeta de qiime2 en el finder
Después vamos a hacer un resumen de los datos demultiplexados y lo transformaremos a un formato de visualización .qzv, si quieres saber más detalles de éste formato da click aquí.
Copiamos y pegamos el cuadro de comando del plugin para hacer el resumen de los resultados del demultiplexing en la terminal, la primera opción es para el archivo de entrada que es el demux.qza del paso anterior, la segunda opción es para generar el archivo de salida llamado demux.qzv, damos enter y después de unos segundos se genera el archivo con la extensión .qzv, hacemos un listado y ya lo encontramos en la carpeta y también lo vemos en el finder
El archivo que se genera es el mismo que encontramos en la página web, para fines de éste tutorial veremos el archivo directamente desde el sitio web, sin embargo, también se puede abrir el archivo que se generó en la carpeta de tu computadora, sólo lo arrastramos a la página de qiime 2 View y automáticamente lo abre
Damos click en el link del sitio web y vemos que se abre el archivo en qiime 2 View
La página muestra un resumen de las secuencias demultiplexadas, vemos que el total de secuencias fue de 263,931, el máximo de secuencias en una de las muestras fue de 18,787, mientras que el mínimo fue de 1,854
También, hay un histograma del número de secuencias por el número de muestras, únicamente de las secuencias forward, ya que estamos trabajando con secuencias single end. El histograma nos muestra que aproximadamente 12 muestras tuvieron alrededor de 2,500 secuencias, mientras que 2 muestras tuvieron aproximadamente 17,500 secuencias
Después vemos las secuencias por muestra, ordenadas de mayor a menor, por ejemplo L4S137 fue la muestra con más secuencias: 18,787; mientras que L3S341 fue la que tuvo menos secuencias: 1,854. Estos datos también los puedes descargar en formato .tsv
Si te interesa saber por que hay diferencias entre el número de secuencias de cada muestra, síguenos en nuestras redes sociales, Facebook o Instagram, donde estaremos compartiendo información valiosa de microbioma.
Si damos click en la pestaña de interactive quality vemos una gráfica de la calidad de las secuencias, en el eje de las abscisas está la longitud de la secuencia en pares de bases mientras que en las ordenadas el Quality score.
Observamos que las secuencias al comienzo de la lectura tienen una valor de quality score de aproximadamente 40, si hacemos un zoom podemos ver más detalles de la calidad por nucleótido, por ejemplo
En el nucleótido 10, la mediana del quality score es de 39, mientras que de algunas secuencias fue de 34
Además la gráfica nos muestra la caída de la calidad en la secuenciación conforme se incrementa el tamaño de la lectura, por ejemplo si hacemos un zoom en la posición 127 vemos una mediana del quality score de 17, y algunas secuencias tuvieron un valor de 2, lo que podemos verificar en la siguiente tabla, si te interesa saber más detalladamente de qué es el quality score checa los cursos que ofrecemos, da click aquí.
También vemos otra tabla con el resultado del promedio del largo de las lecturas en número de nucleótidos obtenidos por cada 10,000 secuencias muestreadas.
En el siguiente video puedes ver lo que te acabamos de explicar más detalladamente.
Cursos de bioinformática disponibles
QIIME 2 MOVING PICTURES TUTORIAL PASO 5 Sequence quality control and feature table construction (Denoising y eliminación de quimeras con DADA2)
En el paso anterior hicimos el demultiplexing de las secuencias, es decir asociamos el barcode con las secuencias de la muestra correspondiente
En este paso vamos a hacer el denoising con dada2, eliminar las quimeras, desreplicar las secuencias en ASVs y obtener la secuencias representativas de las ASVs y la tabla de frecuencias
– primero hagamos una lista para revisar los archivos que tenemos en nuestra carpeta de qiime2 creada en el paso 1, aquí tenemos las secuencias descargadas en formato .qza, la tabla de los metadatos y el archivo del demultiplexing generado en el paso anterior de este tutorial.
-Para hacer el denoising, copiamos la caja de comando que contiene el plugin de dada2 y lo pegamos en la terminal
La primera opción se refiere el archivo de entrada que es el demux.qza generado en el paso anterior
ésta opción (—p-trim-left) le indica al plugin hasta qué posición del inicio de la secuencia cortar, basándonos en los resultados de calidad obtenidos en el demultiplexing, para este caso es cero porque la calidad de las secuencias era de alrededor de 34, si tienes duda de este valor, revisa este video.
la siguiente opción (—p-trunc-len) es para indicar al plugin dónde truncar las secuencias con base en los resultados de calidad del paso anterior, para éste ejemplo es 120 basándonos en la gráfica del demultiplexing creada en el paso anterior.
Finalmente vemos tres opciones que son para generar tres archivos de salida,
el primero es de las secuencias representativas
el segundo es el archivo de la tabla de frecuencias
y el tercer archivo es de los resultados del denoising
damos enter
-vemos que se generaron los tres archivos en formato .qza tanto en la terminal como en la carpeta de qiime2 en el finder. Para poder ver los resultados del denoising, es necesario transformar del formato .qza a .qzv,
-Copiamos y pegamos en la terminal la caja de comando con el plugin qiime metadata tabulate.
-con la primera opción (—m-input-file) indicamos que el archivo de entrada es el de las estadísticas generado con el plugin anterior
-la segunda opción (—o-visualization) le indica al plugin como debe llamarse el archivo de salida, en este caso stats-dada2.qzv, y damos enter
-después de unos segundos se ha generado el archivo, si hacemos un listado vemos que se encuentra en el interior de la carpeta de qiime2
-para verlo podemos dar click en el archivo que encontramos en la página web o abrirlo desde el archivo generado en nuestra terminal directamente en qiime2 View. Damos click en el link del sitio web y en este archivo, lo que observamos en la primera columna es la clave de las muestras, en la segunda columna el número de secuencias que ingresaron de cada muestra al análisis, después en la tercer la columna están las secuencias que quedaron por muestra una vez que se hizo el filtrado de calidad, en la siguiente columna vemos el porcentaje de secuencias que pasaron los filtros de calidad, seguido del número de secuencias que quedaron después del denoising; la columna de non-chimeric, muestra el número de secuencias que quedaron al final una vez que se eliminaron las quimeras, si tienes duda qué es una quimera da click aquí y, en la columna contigua lo vemos expresado en porcentaje.
-Finalmente para continuar con los siguientes pasos del tutorial, es necesario renombrar los archivos de la secuencia representativa y la tabla de frecuencias.
Lo podemos hacer con el comando move
Por lo tanto, copiamos y pegamos las instrucciones en la terminal y damos enter. Hacemos un listado y vemos que ya tenemos los dos archivos renombrados en la carpeta de Qiime2.
En el siguiente video te mostramos cómo se hicieron estos pasos
QIIME 2 MOVING PICTURES TUTORIAL PASO 6 FeatureTable and FeatureData summaries (visualizar tabla de frecuencias y secuencias representativas)
En el paso anterior se realizó el denoising donde se generaron los archivos de secuencias representativas y la tabla de frecuencias, ya sea con dada2 o deblur, si te interesa saber como se hace con deblur, da click aquí.
En este paso vamos a transformar estos archivos que están en formato .qza al formato de visualización .qzv para poder ver los resultados obtenidos
vamos a crear los archivos de visualización, para ello copia y pega en la terminal la caja de comando que contiene dos plugins
El primero es para obtener el archivo de visualización de la tabla de frecuencias, con las opciones para el archivo de entrada, que es la tabla de frecuencias generadas en el video anterior y la siguiente opción es para el nombre del archivo de salida
la tercera opción es para indicar el nombre del archivo de los metadatos (recordemos que éste lo descargamos en el paso 2),
el segundo plugin es para obtener el archivo .qzv de las secuencias representativa
Donde la primera opción es para indicar el nombre del archivo de entrada que es el que contiene las secuencias representativas obtenidas en el paso anterior, y la segunda opción para indicar el nombre del archivo de salida, y damos enter
Para ver los archivos, podemos hacerlo desde la página web del tutorial dando click en el enlace, se abre el archivo de la tabla de frecuencias
Aquí nos muestra una tabla resumen, donde vemos que de un total del 34 muestras se obtuvieron 770 features con una frecuencia total de 153,807. Si tienes dudas de que es una feature da click aquí.
En la siguiente tabla vemos la frecuencia mínima, la promedio y la máxima para las features por muestra, lo cual también está en forma de una gráfica de histograma, en la siguiente tabla vemos la frecuencia por feature, la máxima y mínima así como el histograma
La siguiente es una tabla de la frecuencia de cada feature, por ejemplo una de ellas tuvo una frecuencia mínima de 2, mientras que otra tuvo una frecuencia máxima de 11,373
En la siguiente pestaña podemos ver un mapa interactivo donde están graficados los resultados con base en las categorías del archivo de los metadatos, como la secuencia del barcode, sitio del cuerpo, año, mes. día, etc.
Por ejemplo, si escogemos sitio de cuerpo, podemos ver en la gráfica el número de muestras del tracto digestivo, palma izquierda y derecha así como lengua
Regresemos a las secuencias de las muestras por barcode
También podemos mover la profundidad de muestreo a un número específico de observaciones, por ejemplo 1064, y vemos en color gris las muestras que se eliminarían del análisis si tuviéramos únicamente aquellas muestras que contengan al menos 1064 observaciones
Esto lo podemos ver con más detalle en la tabla de abajo, donde hay una lista de las muestras con su número respectivo de observaciones, ordenadas de mayor a menor, por ejemplo L4S136 fue la muestra con el mayor número de observaciones, 9820, mientras que L3S242 fue la menor con un valor de 897, además vemos en color rojo aquellas muestras que quedarían fuera de nuestro análisis si hiciéramos una rarificación a 1064 observaciones. Si tienes dudas de que es una rarificación da click aquí.
En la siguiente pestaña vemos una lista de la clave que identifica a cada feature, que en este caso son ASVs, ordenadas de mayor a menor frecuencia y el número de muestras en donde está presente, por ejemplo la primera de la lista es la que tiene la mayor frecuencia y está en 13 muestras.
Si abrimos el archivo de secuencia representativa, vemos una tabla con el número total de features diferentes, en este caso son 70 y la longitud en este ejemplo es de 120 nucleótidos. Las secuencias las puedes descargar en formato fasta dando click en el botón.
Abajo vemos una lista de las features con su clave de identificación, así como la secuencia respectiva, si damos click en la primera, nos abre un link al NCBI para hacer un blast, en esta página podemos mover los parámetros o utilizar los de default y dar click en ver reporte, vemos en la página de resultados del Blast que identifica ésta feature como un Bacteroides vulgatus
En el siguiente video puedes ver los pasos que acabamos de describir.
Cursos de bioinformática disponibles
QIIME 2 MOVING PICTURES TUTORIAL PASO 7 Generate a tree for phylogenetic diversity analyses (construir un árbol filogenético)
En el paso anterior se visualizaron los archivos de la tabla de frecuencias y las secuencias representativas
En este paso vamos generar un árbol filogenético para utilizarlo en los análisis de diversidad
Dentro de la carpeta qiime2 creada en el paso 1 vamos a crear el árbol filogenético, para ello copia y pega en la terminal la caja de comando con el plugin
Donde la primera opción es para el archivo de entrada, en este caso el archivo de secuencias representativas creado en el paso 5 ya sea con dada2 o deblur
Las siguientes opciones indican los nombres que les asignamos a los archivos de salida
La primera opción indica el nombre del archivo que contendrá a las secuencias alineadas
La segunda el archivo con las secuencias alineadas pero a las cuales se les realizó un filtrado para remover posiciones altamente variables.
La tercera es para el archivo con el árbol no enraizado
Y la cuarta es para el archivo con el árbol enraizado donde la raíz del árbol se coloca en el punto medio de la distancia más larga de punta a punta del árbol no enraizado
Puedes ver estos pasos en el siguiente video
QIIME 2 MOVING PICTURES TUTORIAL PASO 8 Alpha and beta diversity analysis (diversidad alfa y beta con unifrac)
En el paso anterior contruímos un árbol filogenético enraizado con las secuencias representativas de cada ASV o feature, requerido para los análisis de filodiversidad
En este paso aplicaremos un plugin que determina varias métricas de diversidad alfa y beta, genera gráficas de exploración PCoA con distancias taxonómicas y filogenéticas, y pone a prueba asociaciones entre categorías declaradas en el archivo de metadatos.
Para comenzar copia y pega en la terminal el cuadro de comando del plugin para análisis de diversidad, donde las dos primeras opciones son para los archivos de entrada, el primero para el árbol enraizado creado en el video anterior, el segundo para la tabla de frecuencias creada en el paso 5 ya sea con dada2 o deblur
La siguiente opción es para asignar un número de profundidad, en este caso 1103, el cuál se obtuvo de la tabla de frecuencias de dada2, si estas usando la tabla de deblur, éste valor puede cambiar; y se refiere a la profundidad a la cuál realizaremos la rarificación de las muestras.
Si tienes dudas de cómo escoger la profundidad para el análisis de tus muestras checa el curso de microbioma que ofrecemos en este sitio web
La siguiente opción es para el archivo de los metadatos, descargado en el video 2
Y la última opción es para el nombre de la carpeta de salida y damos enter
Vemos que se generan varios archivos y que se almacenan en la carpeta de core metrics results
En el finder observamos que dentro de esta carpeta se generaron varios archivos para diversidad alpha y beta en formato .qza y a su vez, cuatro archivos de visualización en formato .qzv que corresponden a los resultados de diversidad beta. Para abrir los archivos .qzv lo hacemos en qiime2 View
Notamos que se abre una gráfica PCoA de la distancia unweighted unifrac.
En la pestaña de color podemos seleccionar la categoría basado en el archivo de metadatos, por ejemplo sitio del cuerpo, donde:
Las esferas rojas representan el tracto digestivo, las azules la palma izquierda, las naranjas la palma derecha y las verdes la lengua, también podemos cambiar la paleta de colores, por ejemplo cambiarlos por la paleta dark o cambiar el calor de cada uno de forma independiente
En la pestaña de visibilidad podemos de-seleccionar alguna de las categorías que nos interese comparar, por ejemplo si únicamente queremos ver las esferas de las palmas izquierda y derecha, tachamos las de lengua y tracto digestivo
En la pestaña de opacidad, podemos mover la intensidad de color de las esferas
En la pestaña de escala, podemos ampliar o disminuir el tamaño de las esferas
En la pestaña de forma, podemos cambiar la figura, por ejemplo palma derecha se puede cambiar a diamante, mientras que palma izquierda puede ser una estrella
En la pestaña de ejes, se puede mover el orden de los mismos, así como invertir los colores de la gráfica, fondo blanco y ejes en color negro
Finalmente, puedes descargar esta gráfica como una imagen.
Regresando a la página del tutorial, vemos que también se generó un archivo de visualización del weighted unifrac, que nos muestra los datos de la distancia Unifrac considerando la abundancia de las features.
Si tienes dudas de la diferencia entre las gráficas weighted y unweighted unifrac, y aprender a interpretar gráficos PCoA checa el curso que ofrecemos y síguenos en nuestras redes sociales donde estaremos compartiendo información relevante de estos temas.
Las siguientes dos gráficas, también son de PCoA con distancias de Jaccard y de Bray_curtis.
A partir de aquí, los siguientes pasos del tutorial o plugins hacen una serie de análisis de significancia de grupo (group-significance) con las métricas de diversidad alfa y beta. Con el siguiente plugin se ponen a prueba las asociaciones entre las columnas de los datos categóricos en la tabla de metadatos y las métricas de diversidad alfa.
Copiamos y pegamos en la terminal el cuadro de comando de los plugins para diversidad alpha, para la filodiversidad de Faith y un índice de equitabilidad taxonómica;
Con el primer plugin vamos a comparar la riqueza filogenética de la comunidad, con la primera opción, le indicamos al plugin el nombre del archivo de entrada que corresponde a la medida de riqueza filogenética de la comunidad que se generó dentro de la carpeta de core-metrics-results.
La segunda opción es para asignar el archivo de los metadatos obtenido en el video 2 de éste tutorial
Y la tercera opción para dar el nombre del archivo de salida, que será uno de visualización dentro de la carpeta de core-metrics-results creada con el plugin anterior
El siguiente plugin es para comparar la equitabilidad
La primera opción es para el archivo de entrada que contiene las medidas de equitabilidad que se generó en el paso anterior y se encuentra dentro de la carpeta de core-metrics.results
La siguiente opción es para el archivo de los metadatos, descargado en el video 2 y la última opción para el nombre del archivo de salida en formato .qzv dentro de la carpeta de core-metrics-results. Una vez generados los archivos:
Damos click en el enlace del sitio web y vemos una gráfica de boxplots de diversidad alpha por sitio del cuerpo
Descendemos y vemos el resultado del análisis de Kruskal-wallis, para todos los grupos y por parejas
Damos click en el segundo link del archivo .qzv generado y vemos que corresponde a una gráfica de boxplot de los datos de equitabilidad, y con los datos del Kruskal-wallis de todos los grupos y pareados
En el siguiente paso del tutorial haremos un análisis ANOSIM, un tipo de permanova, para evaluar si las distancias entre los microbiomas dentro del mismo grupo de tratamiento son menores menores que las distancias entre microbiomas de distintos grupos. Primero, usaremos las distancias unifrac no ponderadas o unweighted, para ello copiamos y pegamos la caja de comando en la terminal que contiene los plugins para hacer el permanova de la distancia unweighted unifrac tanto por sitio del cuerpo como por sujeto de estudio
La primera opción es para el archivo de entrada, en este caso la matriz de distancia del unweighted unifrac que se encuentra dentro de la carpeta de core-metric-results
La siguiente opción es para el archivo de los metadatos descargado en el paso 2, luego viene la opción para seleccionar la columna del archivo de metadatos con la cual se realizará el análisis, en este caso, sitio del cuerpo, después la opción para generar el archivo de salida en formato .qzv dentro de la carpeta core-metrics-results
Finalmente la opción para indicar que será un análisis pareado, es decir, que compa entre todos los pares de grupos, por ejemplo, bajo la categoría sitio del cuerpo están los niveles: lengua, palma derecha, palma izquierda e intestino, entonces con esta opción se compa si existen diferencias entre lengua y palma derecha, lengua y palma izquierda, lengua e intestino y así sucesivamente. Si no declaramos esta opción, te dirá si hay un efecto significativo por el sitio de cuerpo, pero no sabrás entre qué regiones anatómicas ocurren estas diferencias.
El siguiente plugin es para realizar el permanova con los datos de unweighted unifrac pero ahora por sujeto de estudio, por lo que los datos de cada opción son similares al anterior, excepto, la columna del archivo de los metadatos que para este caso será la que contiene la información del sujeto de estudio
Nota que esa opción se puede modificar, así podrías escoger hacer la comparación por año, mes, si consume o no antibióticos, etc. Por ello te sugerimos generar una tabla de metadatos muy detallada porque a partir de ella podrás hacer una gran variedad de análisis dentro de qiime2.
Una vez generados los archivos, damos click en los enlaces para visualizarlos
En el primer caso vemos los resultados del permanova para la distancia unweighted unifrac, así como las gráficas de boxplot para cada opción de la categoría de sitio del cuerpo, además de una tabla con los resultados del permanova. El tipo de permanova que se realizó fue ANOSIM y lo sabemos porque calculó un valor de pseudo-F.
Es importante mencionarte que muchas determinaciones en este tutorial son medidas repetidas del mismo individuo, por lo que los análisis estadísticos de las comparaciones deberían incluir este factor. Si quieres aprender más sobre análisis estadísticos útiles para el análisis de microbioma, síguenos en nuestras redes sociales pues estaremos ofertando cursos sobre este y otros temas.
Dando click en el segundo enlace, vemos las gráficas de boxplot y la tabla de resultados del permanova de la distancia unweighted unifrac pero de la comparación por sujeto de estudio.
El diseño del experimento de este tutorial es longitudinal pues incluye distintos muestreos en el tiempo. Por lo que con el siguiente plugin se puede construir un gráfico de PCoA donde uno de los ejes es el factor tiempo, es decir, los días desde que se inició el experimento, copiamos y pegamos en la terminal la caja de comando del plugin que nos ayudará a elaborar la gráfica del PCoA.
La primera opción es para el archivo de entrada, que son los resultados de ordenación del PCoA de las distancias unweighted unifrac en formato .qza que se encuentra dentro de la carpeta core-metrics-results elaborada al inicio del video
La siguiente opción es para indicarle al plugin que queremos que en uno de los ejes incluya los días desde que se inició el experimento, información que está en el archivo de los metadatos y el archivo de salida en formato .qzv que se guardará en la carpeta de core-metrics-results
El siguiente plugin es para hacer lo mismo con los datos de los resultados del PCoA de la distancia Bray-curtis que se encuentra en la carpeta de core-metrics-results generada al inicio del video, por lo que el gráfico que se obtendrá, incluirá los días desde que se inició el experimento en uno de los ejes con los datos de la distancia de Bray-curtis
Una vez generados los archivos, damos click en el primer enlace del sitio web para abrirlo en qiime2 View
El archivo muestra la gráfica de PCoA mostrando en el eje 3, los días desde que inició el experimento basado en la distancia Bray curtis, podemos mover los parámetros en cada una de las pestañas como lo aprendimos en este video
El segundo link, abre el archivo de PCoA de la distancia unifrac con los días desde que inició el experimento en el eje 3; finalmente puedes ajustar los colores del gráfico como lo aprendimos anteriormente.
Cursos de bioinformática disponibles
Checa el siguiente video para ver cómo se hicieron los pasos descritos anteriormente.
QIIME 2 MOVING PICTURES TUTORIAL PASO 9 Alpha rarefaction plotting (curvas de rarefacción)
En el paso anterior determinamos distintas métricas de diversidad alpha y beta, aplicamos algunos análisis estadísticos para compararlas entre grupos declarados en la tabla de metadatos, y construimos y visualizamos las gráficas.
En este paso vamos a construir curvas de rarefacción de tres distintas métricas de diversidad alfa: riqueza observada, diversidad taxonómica y diversidad filogenética.
Copia y pega en la terminal la caja de comando del plugin para hacer la curva de rarefacción con los datos de diversidad alpha, donde, las primeras dos opciones son para los archivos de entrada, el primero para la tabla de frecuencias generado en el paso 5 ya sea con dada2 o deblur y el segundo para el árbol filogenético enraizado. La siguiente opción es para la profundidad, en este caso de 4000
Este valor se obtiene de la tabla de frecuencias generada previamente en el paso 5, si tienes dudas de cómo decidir qué valor de profundidad escoger para tus muestras, síguenos en nuestras redes sociales donde te compartimos información relevante de microbioma y un curso que te ayudará a profundizar en los criterios para analizar tus muestras.
La siguiente opción es para el archivo de los metadatos descargado en el paso 2 y finalmente la opción para el archivo de salida en formato .qzv
Una vez que se ha generado el archivo, lo podemos abrir desde el sitio web, dando click en el enlace
Vemos una gráfica basada en el índice de diversidad de Shannon y la secuencia de los barcodes; donde en el eje de las abscisas está la profundidad de la secuenciación y en el eje de las ordenadas el índice de Shannon,
En el segundo gráfico, el indice de Shannon es desplazado por el número de muestras
Podemos hacer comparaciones cambiando el índice de diversidad alpha, así como la categoría del archivo de los metadatos
Este plugin genera por default curvas de rarefacción basadas en estas tres métricas.
Si quieres comprender más la relevancia de éste gráfico para tu estudio, la interpretación de los distintos índices, y conocer otros índices de diversidad alfa y beta útiles para tu estudio, síguenos en nuestras redes sociales y checa el curso de microbioma que ofrecemos.
QIIME 2 MOVING PICTURES TUTORIAL PASO 10 Taxonomic analysis (asignación taxonómica)
En el paso anterior elaboramos y visualizamos las gráficas de la curva de rarefacción basada en 3 índices de diversidad alpha
En este paso vamos a asignar una identificación taxonómica a cada ASVs, con este dato y la tabla de frecuencia de ASVs generamos los perfiles taxonómicos de las muestras que estamos analizando.
-Dentro de la carpeta de qiime2 vamos a descargar el archivo de la base de datos de referencia de la taxonomía de greengenes, para eso damos click en el enlace
Una vez concluída la descarga, vamos a mover el archivo de carpeta como los hicimos en los pasos 2 y 3 con el comando mv
Primero nos cambiamos de carpeta con el comando de linux cd vamos a la carpeta de descargas donde se encuentra el archivo
Una vez dentro de descargas, escribimos mv y el nombre del archivo, espacio y la dirección de la carpeta de qiime2 y damos enter
Nos regresamos a la carpeta de qiime2 con el comando cd
Para hacer la asignación taxonómica, copiamos y pegamos el plugin en la terminal
Las opciones de archivos de entrada incluyen la base de datos de referencia, la que acabamos de descargar y el archivo de secuencias representativas generadas en el video 5 con dada2 o deblur, finalmente la opción de archivo de salida, que se llamará taxonomy.qza
El siguiente plugin transformará el archivo .qza que se genera del análisis de asignación taxonómica en un archivo de visualización .qzv
Con la primera opción indicamos el nombre del archivo de entrada y con la segunda el nombre del archivo de salida
Una vez generados los podemos visualizar en qiime 2 view
Damos click en el enlace del sitio web, y vemos que el archivo que se abre es una lista que contiene la clave para identificar la feature junto con el nombre asignado y el dato de confianza, así por ejemplo vemos que en la fila 3, esa feature fue asignada como un miembro del phylum Proteobacteria, clase betaproteobacteria, orden Burkholderiales, familia Comamonadaceae y género Acidovorax.
Lo siguiente es elaborar una gráfica de barras de los perfiles de distribución taxonómica por muestra.
-Copiamos y pegamos el plugin en la terminal. Las opciones de entrada son: el archivo de tabla de frecuencias generado en el video 5 ya sea con dada2 o deblur y el archivo de taxonomía generado anteriormente
Seguido de la opción para la tabla de los metadatos descargada en el paso 2 y la opción de archivo de salida en formato .qzv para que lo podamos ver en Qiime2 View. Una vez generado el archivo lo abrimos dando click en el link del sitio web
Vemos que nos muestra una gráfica de barras por nivel de taxonomía, comenzando por el primero que es de dominio: Bacteria, Archaea y No asignados
Le podemos cambiar la paleta de color y ordenarlas con base a las categorías de la tabla de metadatos, también podemos modificar el ancho de las columnas
Por ejemplo, podemos ver los resultados de la asignación por phylum equivalente al nivel 2 y así sucesivamente hasta llegar al nivel 7 correspondiente a especie y ordenarlos con base al sitio del cuerpo
Además, si colocamos el cursor sobre alguna de los colores de las barras, nos muestra el dato de la asignación taxonómica, y el porcentaje que representa.
Revisa el siguiente video para ver los detalles de éste paso
Cursos de bioinformática disponibles
QIIME 2 MOVING PICTURES TUTORIAL PASO 11 Differential abundante testing with ANCOM (abundancia diferencial)
En el paso anterior elaboramos y visualizamos las gráficas de barras de los perfiles de distribución taxonómica
En este paso vamos a realizar un análisis de abundancia diferencial con ANCOM para identificar las features que tienen diferencias en abundancia entre las muestras
El primer paso es hacer un filtrado de las muestras para extraer únicamente aquellas features que pertenecen al intestino, ésto porque en ellas menos del 25% de las features cambian entre las muestras, y ANCOM, el análisis que se aplicará asume que menos de 25% de las features cambian, por lo que si sospechas que entre tus muestras cambia más del 25% de las ASVs, entonces no es recomendable que uses ANCOM.
Por lo tanto, copiamos y pegamos en la terminal la caja de comando del plugin para hacer el filtrado, donde la primera opción es para el archivo de entrada que es la tabla de frecuencias generada en el video 5 con dada2 o deblur
Seguido de la opción para el archivo de los metadatos descargado en el video 2
La opción para indicar al plugin la categoría con base en la cual se hará el filtrado, en este caso por parte del cuerpo y en específico el tracto digestivo
El archivo de salida que será la tabla que contiene los datos únicamente del tracto digestivo
Una vez generado el archivo .qza
Vamos a generar otro archivo de los datos de frecuencias de la tabla del paso anterior, la que contiene los datos del tracto digestivo. Una característica de los datos derivados de metodologías de secuenciación es que pueden contener muchos ceros, sin embargo, un cero en biología es muy difícil de confirmar, pues puede significar simplemente que no secuenciaste lo suficiente y por ello no alcanzaste a detectar a ese microorganismo. ANCOM aplica una metodología para eliminar este sesgo y transforma los ceros agregándoles un pseudo-count, es decir, les asigna a esos ceros frecuencias muy pequeñitas.
Si quieres aprender otras metodologías para tratar a los ceros en tus datos de secuenciación, inscríbete a nuestros cursos y síguenos en redes sociales.
Copiamos y pegamos la caja de comando en la terminal que contiene el plugin para construir la tabla de composición que transforma a los ceros, donde la primera opción es para el archivo de entrada que es la tabla generada con los datos del tracto digestivo y el nombre del archivo de salida en formato .qza
Ahora ya podemos utilizar ANCOM para determinar cuales features difieren en abundancia entre todas las muestras del tracto digestivo de los dos sujetos de estudio, para ello, copiamos y pegamos la caja de comando que contiene el plugin de ANCOM, donde la primera opción es para el archivo de entrada que corresponde al que generamos en el paso anterior
Seguido del archivo de los metadatos
La opción para indicar el nombre de la columna con base en la cual se harán las comparaciones, en este caso el sujeto de estudio, recuerda que se tomaron muestras al mismo individuo en diferentes tiempos.
Finalmente el nombre del archivo de salida en formato .qzv
-Una vez generado el archivo, damos click en el link del sitio web y vemos una gráfica de volcán con los datos del análisis de ANCOM y una tabla con las features que fueron distintas entre las muestras. ANCOM es un método composicional que transforma las frecuencias de las features con el siguiente método llamado clr:center log ratio por ello la gráfica de volcán tiene clr en lugar de abundancias relativas. Si te colocas sobre las features que están arriba en el eje de las ordenadas con los valores de W (porque aplicó una prueba de Wilcoxon) y a ambos extremos en el eje de las abscisas, verás que son las dos ASVs que te indica la tabla como diferencialmente abundantes.
Si quieres aprender más sobre los métodos composicionales y en qué consiste y cómo se interpreta la transformación clr, síguenos en nuestras redes sociales y mantente al pendiente de nuestros cursos.
Regresamos al sitio web para continuar con el siguiente paso, el cual consiste en hacer un análisis de abundancia diferencial pero ahora a un nivel taxonómico, por ejemplo, para saber qué Phylum, orden, familia o géneros son diferencialmente abundantes entre tus grupos de estudio. En este tutorial se hace a nivel de género. Para ello primero se colapsará la tabla de frecuencias a este nivel taxonómico, es decir, se sumarán las frecuencias de todas las ASVs que se hayan asignado al mismo género. Después, se hará el mismo procedimiento que para el análisis diferencial.
Por lo tanto, copiamos y pegamos la caja de comando que primero contiene el plugin para colapsar los datos de frecuencias a cierto nivel taxonómico. La primera opción es para el archivo de entrada, los datos del intestino filtrados al inicio del video, el archivo de la taxonomía generada en el video anterior, La opción para asignar el nivel al cual se colapsan los datos, en este caso 6 que es equivalente al género, y la opción para nombrar el archivo de salida en formato .qza
El segundo plugin es para generar la tabla de frecuencias con los ceros transformados, como hicimos anteriormente, donde el archivo de entrada es la tabla de frecuencias que acabamos de crear en el paso anterior, la cual ya contiene las frecuencias a nivel de género y el archivo de salida en formato .qza es la tabla de frecuencias a nivel de género con los ceros transformados.
El tercer plugin es para hacer el análisis de ANCOM, donde la primera opción es para el archivo de entrada es el generado en el paso anterior, la tabla de los metadatos descargada en el video 2, el nombre de la columna del archivo de metadatos de la cual se realizará la comparación, y el archivo de salida de visualización en formato .qzv
Damos click en el enlace para para ver los resultados
Vemos la gráfica de volcán donde los resultados de ANCOM indican que Parabacteroides fue el género con diferencia en abundancia entre los sujetos y, debajo en la tabla con los valores clr (que son las frecuencias relativas a la media geométrica de los datos) en percentiles para cada sujeto de estudio, vemos que en el sujeto 2 fue mayor la abundancia de éste género.