TUTORIAL moving pictures QIIME 2 en español paso a paso

¿Cómo usar QIIME? qiime2 en español

Revisa aquí los 11 pasos del tutorial de QIIME 2 para aprender a usar algunos de los plugins usados para análisis de amplicones del 16S rRNA

QIIME 2 MOVING PICTURES TUTORIAL PASO 1 Creando una carpeta con el comando mkdir

Este tutorial contiene secuencias de muestras de microbioma humano de dos personas tomadas en 4 partes del cuerpo (palmas derecha e izquierda, tracto digestivo y lengua) en 5 puntos diferentes en el tiempo, las muestras fueron trabajadas usando el protocolo del Proyecto de Microbioma de la Tierra (EMP), amplificando la región V4 del 16S rRNA y fueron secuenciadas en la plataforma Illumina HiSeq.

-El primer paso es crear una carpeta donde se almacenarán todos los archivos que se generen durante el análisis; para ello en la terminal:

-Con el comando de linux cd ingresa a la carpeta en donde quieres crear el directorio para tus archivos de QIIME 2, puede ser en la carpeta de Documentos

-por lo tanto escribe cd (espacio) y las primeras tres letras del nombre de la carpeta seguido de la tecla Tab para que se autocomplete y da un enter; copia la instrucción de la caja de comandos y pégala en la terminal

–mkdir es un comando de linux para crear carpetas; y qiime2-moving-pictures-tutorial es el nombre de la carpeta que vamos a crear

-haz un listado con el comando de linux ls y nota que aparece el nombre de la carpeta que acabamos de crear, lo mismo vemos en el Finder de tu equipo

-Después con el comando cd ingresamos a la carpeta recién creada, y ya estamos listos para seguir con los demás pasos.

Revisa el siguiente video para ver los pasos que te acabamos de explicar de como crear tu carpeta de qiime2-moving-pictures-tutorial y continua viendo los siguientes pasos a continuación.

Cursos de bioinformática disponibles

QIIME 2 MOVING PICTURES TUTORIAL PASO 2 descarga el Sample metadata

-En el paso anterior creamos la carpeta llamada qiime2-moving-pictures dentro de la carpeta de Documentos con el comando de linux mkdir

-El siguiente paso es descargar el archivo de los metadatos de la página web, para eso damos click en el enlace y esperamos un poco. Vemos que en el finder en la carpeta de descargas ya se encuentra el archivo de los metadatos. Sin embargo es necesario moverlo a la carpeta de qiime2-moving-pictures que creamos en Documentos en el paso 1 y guardarlo como sample-metadata.tsv, para ello vamos a usar una herramientas de linux:

-primero ingresamos a la carpeta de Descargas con el comando cd, escribimos cd (espacio) ../../Descargas y damos enter

-Hacemos un listado con el comando ls y vemos que dentro de la carpeta de descargas se encuentra el archivo de los metadatos

-para moverlo de carpeta usamos el comando move, escribimos mv (espacio) Mov y con la tecla del tabulador completamos el nombre del archivo,

-escribimos ../Documentos/qii (las tres primeras letras de la carpeta) y con la tecla Tab completamos el nombre de la carpeta

-Podemos copiar el nombre sugerido para el archivo y pegarlo después de la diagonal y damos enter. Ve cómo aparece el archivo en la carpeta de qiime2-moving-pictures

-Hacemos un listado con el comando ls y vemos que ya no se encuentra el archivo en la carpeta de Descargas

-Regresamos a la carpeta de qiime2-moving-pictures que tenemos en documentos con el comando cd y si hacemos un listado vemos que ya tenemos el archivo de los metadatos renombrado.

-Ahora vamos a abrir el archivo de los metadatos en excel para ver su contenido, simplemente arrastra el archivo a tu aplicación de excel.

-Este archivo es muy importante porque contiene la información del experimento, por ejemplo: nombre de la muestra, la secuencia del barcode, la cual es diferente para cada muestra, la parte del cuerpo donde se tomó la muestra como intestino, palma izquierda y derecha o lengua, el año en que se tomó la muestra, 2009 o 2008; el mes que se tomó la muestra así como el día, el sujeto de estudio, si tomaron o no antibióticos y los días desde que inició el experimento.

¿Dudas? Agenda una consultoría

En el siguiente video puedes ver detalladamente lo que te acabamos de explicar

QIIME 2 metadata youtube

QIIME 2 MOVING PICTURES TUTORIAL PASO 3 Obtaining and importing data (descarga las secuencias e importalas a formato .qza)

En el paso anterior descargamos el archivo de los metadatos y lo movimos a la carpeta creada para desarrollar este tutorial. Lo siguiente es obtener e importar los datos, es decir, descargar las secuencias de trabajo

Requerimos entonces crear una carpeta que se llame emp-single-end-sequences con ayuda del comando de linux mkdir dentro de la carpeta que creamos en el paso 1 (qiime2-moving-pictures)

Copiamos la instrucción (puedes dar clic en el ícono y se copia el contenido de la caja de comandos) y la pegamos en la terminal, damos enter

Las secuencias del tutorial moving pictures están multiplexadas, es decir, no están separadas por muestras por eso tenemos dos archivos comprimidos (uno para barcodes y otro para secuencias)

Ahora vamos a descargar los barcodes dando click en el enlace, si tienes duda ¿qué es un barcode? da click aquí.

Nos vamos al finder y vemos que en la carpeta de descargas ya tenemos el archivo barcodes.fastq.gz, sin embargo, es necesario trasladarlo a la carpeta que creamos al inicio del video de acuerdo con las instrucciones del tutorial (emp-single-end-sequences)

Por lo tanto vamos a la terminal y con el comando de linux cd nos movernos de carpeta, escribimos cd (espacio) ../../Downloads/ y damos enter

Para mover éste archivo, usamos el comando de linux move; escribimos mv (espacio) el nombre del archivo (espacio) ../Documents/nombre de la carpeta que creamos en el paso 1 (qiime2-moving-pictures) y recuerda que con la tecla Tab podemos autocompletar los nombres de las carpetas y el nombre de la carpeta a donde lo queremos trasladar, en este caso emp-single-end-sequences y damos enter; vemos que efectivamente el archivo de los barcodes se encuentra en la carpeta que creamos al inicio del video.

Ahora vamos a hacer lo mismo con las secuencias de trabajo, damos click en el enlace para descargarlas.

Una vez concluida la descarga, hacemos un listado con ls y vemos que los archivos de las secuencias ya se encuentran en la carpeta de descargas,

Para moverlo hacemos lo mismo que con los barcodes, utilizando el comando move para trasladarlo a la carpeta de emp-single-end-sequences que está en documentos, dentro de la carpeta de qiime2-moving-pictures creada en el paso 1

Nos pasamos al finder y vemos que la carpeta contiene tanto los barcodes como las secuencias. Para regresarnos a la carpeta de trabajo, utilizamos el comando cd;

escribimos cd (espacio)../Documentos/qiime y con la tecla de Tab podemos autocompletar el nombre de la carpeta

Hacemos un listado a la carpeta con ls y vemos que ambos archivos se encuentran en su interior

El siguiente paso es importar las secuencias y los barcodes al formato .qza de Qiime2

Con el plugin qiime tools import, vamos a importar las secuencias a formato .qza

Si quieres saber ¿qué es un archivo .qza? da click aquí.

Para ello requerimos primero activar QIIME 2 ya que hasta ahora no habíamos utilizado ningún plugin de ésta Pipeline, los pasos anteriores los estuvimos trabajando con comandos de Linux;

Recordemos que durante la instalación de qiime, al finalizar nos muestra las instrucciones para activar y desactivar qiime2, sugerimos las guarden en un block de notas, puedes dar click aquí para ver un video de instalación de QIIME 2

Copiamos y pegamos la instrucción en la terminal, y después de unos segundos nos damos cuenta de que QIIME 2 está activado porque vemos que al inicio de la línea dice qiime2 y la versión instalada.

Ahora sí, copiamos el plugin qiime tools import y lo pegamos en la terminal

La opción type del plugin indica qué tipo de secuencias son, en este caso son secuencias single end, si tienes dudas de a que se refiere éste tipo de lecturas da click aquí.

La opción input-path indica el nombre de la carpeta que contiene las secuencias y los barcodes, así le estamos indicando al plugin que en esa carpeta se encuentran los archivos de entrada

La siguiente opción indica el nombre de archivo de salida, en este caso es emp-single-end-sequences el cual va a tener la extensión .qza, después dar enter.

Vemos que se generó el archivo .qza en la carpeta de qiime2, lo mismo si hacemos un listado con ls.

Análisis en QIIME 2, te damos precio

Esto ha sido todo, ahora sí ya está todo listo para comenzar a trabajar los datos ¡No olvides suscribirte a nuestro canal de you tube y seguirnos en nuestras redes sociales!

Cursos de bioinformática disponibles

QIIME 2 MOVING PICTURES TUTORIAL PASO 4 Demultiplexing sequences (demultiplexar las secuencias)

Recordemos que en el paso anterior descargamos las secuencias y los barcodes, posteriormente los importamos al formato de qiime2 con la extensión .qza

No olvides activar qiime2 en caso de que estés comenzando a trabajar a partir de este paso.

En este paso vamos hacer el demultiplexing de las secuencias, es decir, asociar las muestras con su respectivo barcode; primero hagamos una lista con el comando de linux ls para revisar los archivos que tenemos en nuestra carpeta de qiime2 creada en el paso 1, vemos que tenemos las secuencias en formato .qza obtenidas en el video anterior y la tabla de los metadatos obtenida en el paso 2

Luego vamos a copiar y pegar la caja del comando que corresponde al plugin del demultiplexing: la primera opción se refiere a las carpeta importada al formato .qza que contiene los barcodes y las secuencias; la opción del archivo que contiene la lista de los barcodes, que es el de metadatos del paso 2; la opción de barcodes-column, se refiere al nombre de la columna en el archivo de los metadatos que contiene la secuencia del barcode correspondiente con cada muestra, la cual se llama barcode-sequence. Esta información la podemos ver en el archivo de metadatos, si lo abrimos en excel veremos que la columna donde se encuentra la secuencia de los barcodes se titula barcode-sequence

La penúltima opción se refiere al archivo de salida el cual se va a llamar demux.qza; finalmente la última opción es el nombre del archivo que contiene los detalles de corrección de errores y que se llamará demux-details.qza y damos enter

Si estás comenzando en bioinformática, te invitamos a revisar nuestra lista de reproducción de comandos básicos de Linux de you tube, no olvides contactarnos ya que ofrecemos consultorias para resolver tus dudas y suscribirte a nuestro canal de you tube para seguir aprendiendo de microbioma y bioinformática.

Vemos que se generan los dos archivos de salida con la extensión .qza, nota como aparecen en la carpeta de qiime2 en el finder

Después vamos a hacer un resumen de los datos demultiplexados y lo transformaremos a un formato de visualización .qzv, si quieres saber más detalles de éste formato da click aquí.

Copiamos y pegamos el cuadro de comando del plugin para hacer el resumen de los resultados del demultiplexing en la terminal, la primera opción es para el archivo de entrada que es el demux.qza del paso anterior, la segunda opción es para generar el archivo de salida llamado demux.qzv, damos enter y después de unos segundos se genera el archivo con la extensión .qzv, hacemos un listado y ya lo encontramos en la carpeta y también lo vemos en el finder

El archivo que se genera es el mismo que encontramos en la página web, para fines de éste tutorial veremos el archivo directamente desde el sitio web, sin embargo, también se puede abrir el archivo que se generó en la carpeta de tu computadora, sólo lo arrastramos a la página de qiime 2 View y automáticamente lo abre

Damos click en el link del sitio web y vemos que se abre el archivo en qiime 2 View

La página muestra un resumen de las secuencias demultiplexadas, vemos que el total de secuencias fue de 263,931, el máximo de secuencias en una de las muestras fue de 18,787, mientras que el mínimo fue de 1,854

También, hay un histograma del número de secuencias por el número de muestras, únicamente de las secuencias forward, ya que estamos trabajando con secuencias single end. El histograma nos muestra que aproximadamente 12 muestras tuvieron alrededor de 2,500 secuencias, mientras que 2 muestras tuvieron aproximadamente 17,500 secuencias

Después vemos las secuencias por muestra, ordenadas de mayor a menor, por ejemplo L4S137 fue la muestra con más secuencias: 18,787; mientras que L3S341 fue la que tuvo menos secuencias: 1,854. Estos datos también los puedes descargar en formato .tsv

Si te interesa saber por que hay diferencias entre el número de secuencias de cada muestra, síguenos en nuestras redes sociales, Facebook o Instagram, donde estaremos compartiendo información valiosa de microbioma.

Si damos click en la pestaña de interactive quality vemos una gráfica de la calidad de las secuencias, en el eje de las abscisas está la longitud de la secuencia en pares de bases mientras que en las ordenadas el Quality score.

Observamos que las secuencias al comienzo de la lectura tienen una valor de quality score de aproximadamente 40, si hacemos un zoom podemos ver más detalles de la calidad por nucleótido, por ejemplo

En el nucleótido 10, la mediana del quality score es de 39, mientras que de algunas secuencias fue de 34

Además la gráfica nos muestra la caída de la calidad en la secuenciación conforme se incrementa el tamaño de la lectura, por ejemplo si hacemos un zoom en la posición 127 vemos una mediana del quality score de 17, y algunas secuencias tuvieron un valor de 2, lo que podemos verificar en la siguiente tabla, si te interesa saber más detalladamente de qué es el quality score checa los cursos que ofrecemos, da click aquí.

Consultorías escríbenos

También vemos otra tabla con el resultado del promedio del largo de las lecturas en número de nucleótidos obtenidos por cada 10,000 secuencias muestreadas.

En el siguiente video puedes ver lo que te acabamos de explicar más detalladamente.

Cursos de bioinformática disponibles

QIIME 2 MOVING PICTURES TUTORIAL PASO 5 Sequence quality control and feature table construction (Denoising y eliminación de quimeras con DADA2)

En el paso anterior hicimos el demultiplexing de las secuencias, es decir asociamos el barcode con las secuencias de la muestra correspondiente

En este paso vamos a hacer el denoising con dada2, eliminar las quimeras, desreplicar las secuencias en ASVs y obtener la secuencias representativas de las ASVs y la tabla de frecuencias

– primero hagamos una lista para revisar los archivos que tenemos en nuestra carpeta de qiime2 creada en el paso 1, aquí tenemos las secuencias descargadas en formato .qza, la tabla de los metadatos y el archivo del demultiplexing generado en el paso anterior de este tutorial.

-Para hacer el denoising, copiamos la caja de comando que contiene el plugin de dada2 y lo pegamos en la terminal

La primera opción se refiere el archivo de entrada que es el demux.qza generado en el paso anterior

ésta opción (—p-trim-left) le indica al plugin hasta qué posición del inicio de la secuencia cortar, basándonos en los resultados de calidad obtenidos en el demultiplexing, para este caso es cero porque la calidad de las secuencias era de alrededor de 34, si tienes duda de este valor, revisa este video.

la siguiente opción (—p-trunc-len) es para indicar al plugin dónde truncar las secuencias con base en los resultados de calidad del paso anterior, para éste ejemplo es 120 basándonos en la gráfica del demultiplexing creada en el paso anterior.

Finalmente vemos tres opciones que son para generar tres archivos de salida,

el primero es de las secuencias representativas

el segundo es el archivo de la tabla de frecuencias

y el tercer archivo es de los resultados del denoising

damos enter

-vemos que se generaron los tres archivos en formato .qza tanto en la terminal como en la carpeta de qiime2 en el finder. Para poder ver los resultados del denoising, es necesario transformar del formato .qza a .qzv,

-Copiamos y pegamos en la terminal la caja de comando con el plugin qiime metadata tabulate.

-con la primera opción (—m-input-file) indicamos que el archivo de entrada es el de las estadísticas generado con el plugin anterior

-la segunda opción (—o-visualization) le indica al plugin como debe llamarse el archivo de salida, en este caso stats-dada2.qzv, y damos enter

-después de unos segundos se ha generado el archivo, si hacemos un listado vemos que se encuentra en el interior de la carpeta de qiime2

-para verlo podemos dar click en el archivo que encontramos en la página web o abrirlo desde el archivo generado en nuestra terminal directamente en qiime2 View. Damos click en el link del sitio web y en este archivo, lo que observamos en la primera columna es la clave de las muestras, en la segunda columna el número de secuencias que ingresaron de cada muestra al análisis, después en la tercer la columna están las secuencias que quedaron por muestra una vez que se hizo el filtrado de calidad, en la siguiente columna vemos el porcentaje de secuencias que pasaron los filtros de calidad, seguido del número de secuencias que quedaron después del denoising; la columna de non-chimeric, muestra el número de secuencias que quedaron al final una vez que se eliminaron las quimeras, si tienes duda qué es una quimera da click aquí y, en la columna contigua lo vemos expresado en porcentaje.

-Finalmente para continuar con los siguientes pasos del tutorial, es necesario renombrar los archivos de la secuencia representativa y la tabla de frecuencias.

Lo podemos hacer con el comando move

Por lo tanto, copiamos y pegamos las instrucciones en la terminal y damos enter. Hacemos un listado y vemos que ya tenemos los dos archivos renombrados en la carpeta de Qiime2.

Precio especial a estudiantes en consultorías, agenda

En el siguiente video te mostramos cómo se hicieron estos pasos

QIIME 2 MOVING PICTURES TUTORIAL PASO 6 FeatureTable and FeatureData summaries (visualizar tabla de frecuencias y secuencias representativas)

En el paso anterior se realizó el denoising donde se generaron los archivos de secuencias representativas y la tabla de frecuencias, ya sea con dada2 o deblur, si te interesa saber como se hace con deblur, da click aquí.

En este paso vamos a transformar estos archivos que están en formato .qza al formato de visualización .qzv para poder ver los resultados obtenidos

vamos a crear los archivos de visualización, para ello copia y pega en la terminal la caja de comando que contiene dos plugins

El primero es para obtener el archivo de visualización de la tabla de frecuencias, con las opciones para el archivo de entrada, que es la tabla de frecuencias generadas en el video anterior y la siguiente opción es para el nombre del archivo de salida

la tercera opción es para indicar el nombre del archivo de los metadatos (recordemos que éste lo descargamos en el paso 2),

el segundo plugin es para obtener el archivo .qzv de las secuencias representativa

Donde la primera opción es para indicar el nombre del archivo de entrada que es el que contiene las secuencias representativas obtenidas en el paso anterior, y la segunda opción para indicar el nombre del archivo de salida, y damos enter

Para ver los archivos, podemos hacerlo desde la página web del tutorial dando click en el enlace, se abre el archivo de la tabla de frecuencias

Aquí nos muestra una tabla resumen, donde vemos que de un total del 34 muestras se obtuvieron 770 features con una frecuencia total de 153,807. Si tienes dudas de que es una feature da click aquí.

En la siguiente tabla vemos la frecuencia mínima, la promedio y la máxima para las features por muestra, lo cual también está en forma de una gráfica de histograma, en la siguiente tabla vemos la frecuencia por feature, la máxima y mínima así como el histograma

La siguiente es una tabla de la frecuencia de cada feature, por ejemplo una de ellas tuvo una frecuencia mínima de 2, mientras que otra tuvo una frecuencia máxima de 11,373

En la siguiente pestaña podemos ver un mapa interactivo donde están graficados los resultados con base en las categorías del archivo de los metadatos, como la secuencia del barcode, sitio del cuerpo, año, mes. día, etc.

¿Te ayudamos con tu análisis? Cotiza

Por ejemplo, si escogemos sitio de cuerpo, podemos ver en la gráfica el número de muestras del tracto digestivo, palma izquierda y derecha así como lengua

Regresemos a las secuencias de las muestras por barcode

También podemos mover la profundidad de muestreo a un número específico de observaciones, por ejemplo 1064, y vemos en color gris las muestras que se eliminarían del análisis si tuviéramos únicamente aquellas muestras que contengan al menos 1064 observaciones

Esto lo podemos ver con más detalle en la tabla de abajo, donde hay una lista de las muestras con su número respectivo de observaciones, ordenadas de mayor a menor, por ejemplo L4S136 fue la muestra con el mayor número de observaciones, 9820, mientras que L3S242 fue la menor con un valor de 897, además vemos en color rojo aquellas muestras que quedarían fuera de nuestro análisis si hiciéramos una rarificación a 1064 observaciones. Si tienes dudas de que es una rarificación da click aquí.

En la siguiente pestaña vemos una lista de la clave que identifica a cada feature, que en este caso son ASVs, ordenadas de mayor a menor frecuencia y el número de muestras en donde está presente, por ejemplo la primera de la lista es la que tiene la mayor frecuencia y está en 13 muestras.

Si abrimos el archivo de secuencia representativa, vemos una tabla con el número total de features diferentes, en este caso son 70 y la longitud en este ejemplo es de 120 nucleótidos. Las secuencias las puedes descargar en formato fasta dando click en el botón.

Abajo vemos una lista de las features con su clave de identificación, así como la secuencia respectiva, si damos click en la primera, nos abre un link al NCBI para hacer un blast, en esta página podemos mover los parámetros o utilizar los de default y dar click en ver reporte, vemos en la página de resultados del Blast que identifica ésta feature como un Bacteroides vulgatus

En el siguiente video puedes ver los pasos que acabamos de describir.

Cursos de bioinformática disponibles

QIIME 2 MOVING PICTURES TUTORIAL PASO 7 Generate a tree for phylogenetic diversity analyses (construir un árbol filogenético)

En el paso anterior se visualizaron los archivos de la tabla de frecuencias y las secuencias representativas

En este paso vamos generar un árbol filogenético para utilizarlo en los análisis de diversidad

Dentro de la carpeta qiime2 creada en el paso 1 vamos a crear el árbol filogenético, para ello copia y pega en la terminal la caja de comando con el plugin

Donde la primera opción es para el archivo de entrada, en este caso el archivo de secuencias representativas creado en el paso 5 ya sea con dada2 o deblur

Las siguientes opciones indican los nombres que les asignamos a los archivos de salida

La primera opción indica el nombre del archivo que contendrá a las secuencias alineadas

La segunda el archivo con las secuencias alineadas pero a las cuales se les realizó un filtrado para remover posiciones altamente variables.

La tercera es para el archivo con el árbol no enraizado

Y la cuarta es para el archivo con el árbol enraizado donde la raíz del árbol se coloca en el punto medio de la distancia más larga de punta a punta del árbol no enraizado

Puedes ver estos pasos en el siguiente video

QIIME 2 MOVING PICTURES TUTORIAL PASO 8 Alpha and beta diversity analysis (diversidad alfa y beta con unifrac)

En el paso anterior contruímos un árbol filogenético enraizado con las secuencias representativas de cada ASV o feature, requerido para los análisis de filodiversidad

En este paso aplicaremos un plugin que determina varias métricas de diversidad alfa y beta, genera gráficas de exploración PCoA con distancias taxonómicas y filogenéticas, y pone a prueba asociaciones entre categorías declaradas en el archivo de metadatos.

Para comenzar copia y pega en la terminal el cuadro de comando del plugin para análisis de diversidad, donde las dos primeras opciones son para los archivos de entrada, el primero para el árbol enraizado creado en el video anterior, el segundo para la tabla de frecuencias creada en el paso 5 ya sea con dada2 o deblur

La siguiente opción es para asignar un número de profundidad, en este caso 1103, el cuál se obtuvo de la tabla de frecuencias de dada2, si estas usando la tabla de deblur, éste valor puede cambiar; y se refiere a la profundidad a la cuál realizaremos la rarificación de las muestras.

Si tienes dudas de cómo escoger la profundidad para el análisis de tus muestras checa el curso de microbioma que ofrecemos en este sitio web

La siguiente opción es para el archivo de los metadatos, descargado en el video 2

Y la última opción es para el nombre de la carpeta de salida y damos enter

Vemos que se generan varios archivos y que se almacenan en la carpeta de core metrics results

En el finder observamos que dentro de esta carpeta se generaron varios archivos para diversidad alpha y beta en formato .qza y a su vez, cuatro archivos de visualización en formato .qzv que corresponden a los resultados de diversidad beta. Para abrir los archivos .qzv lo hacemos en qiime2 View

Notamos que se abre una gráfica PCoA de la distancia unweighted unifrac.

En la pestaña de color podemos seleccionar la categoría basado en el archivo de metadatos, por ejemplo sitio del cuerpo, donde:

Las esferas rojas representan el tracto digestivo, las azules la palma izquierda, las naranjas la palma derecha y las verdes la lengua, también podemos cambiar la paleta de colores, por ejemplo cambiarlos por la paleta dark o cambiar el calor de cada uno de forma independiente

En la pestaña de visibilidad podemos de-seleccionar alguna de las categorías que nos interese comparar, por ejemplo si únicamente queremos ver las esferas de las palmas izquierda y derecha, tachamos las de lengua y tracto digestivo

En la pestaña de opacidad, podemos mover la intensidad de color de las esferas

En la pestaña de escala, podemos ampliar o disminuir el tamaño de las esferas

En la pestaña de forma, podemos cambiar la figura, por ejemplo palma derecha se puede cambiar a diamante, mientras que palma izquierda puede ser una estrella

En la pestaña de ejes, se puede mover el orden de los mismos, así como invertir los colores de la gráfica, fondo blanco y ejes en color negro

Finalmente, puedes descargar esta gráfica como una imagen.

Regresando a la página del tutorial, vemos que también se generó un archivo de visualización del weighted unifrac, que nos muestra los datos de la distancia Unifrac considerando la abundancia de las features.

Si tienes dudas de la diferencia entre las gráficas weighted y unweighted unifrac, y aprender a interpretar gráficos PCoA checa el curso que ofrecemos y síguenos en nuestras redes sociales donde estaremos compartiendo información relevante de estos temas.

Las siguientes dos gráficas, también son de PCoA con distancias de Jaccard y de Bray_curtis.

¿Te interesan otros análisis? cotiza

A partir de aquí, los siguientes pasos del tutorial o plugins hacen una serie de análisis de significancia de grupo (group-significance) con las métricas de diversidad alfa y beta. Con el siguiente plugin se ponen a prueba las asociaciones entre las columnas de los datos categóricos en la tabla de metadatos y las métricas de diversidad alfa.

Copiamos y pegamos en la terminal el cuadro de comando de los plugins para diversidad alpha, para la filodiversidad de Faith y un índice de equitabilidad taxonómica;

Con el primer plugin vamos a comparar la riqueza filogenética de la comunidad, con la primera opción, le indicamos al plugin el nombre del archivo de entrada que corresponde a la medida de riqueza filogenética de la comunidad que se generó dentro de la carpeta de core-metrics-results.

La segunda opción es para asignar el archivo de los metadatos obtenido en el video 2 de éste tutorial

Y la tercera opción para dar el nombre del archivo de salida, que será uno de visualización dentro de la carpeta de core-metrics-results creada con el plugin anterior

El siguiente plugin es para comparar la equitabilidad

La primera opción es para el archivo de entrada que contiene las medidas de equitabilidad que se generó en el paso anterior y se encuentra dentro de la carpeta de core-metrics.results

La siguiente opción es para el archivo de los metadatos, descargado en el video 2 y la última opción para el nombre del archivo de salida en formato .qzv dentro de la carpeta de core-metrics-results. Una vez generados los archivos:

Damos click en el enlace del sitio web y vemos una gráfica de boxplots de diversidad alpha por sitio del cuerpo

Descendemos y vemos el resultado del análisis de Kruskal-wallis, para todos los grupos y por parejas

Damos click en el segundo link del archivo .qzv generado y vemos que corresponde a una gráfica de boxplot de los datos de equitabilidad, y con los datos del Kruskal-wallis de todos los grupos y pareados

En el siguiente paso del tutorial haremos un análisis ANOSIM, un tipo de permanova, para evaluar si las distancias entre los microbiomas dentro del mismo grupo de tratamiento son menores menores que las distancias entre microbiomas de distintos grupos. Primero, usaremos las distancias unifrac no ponderadas o unweighted, para ello copiamos y pegamos la caja de comando en la terminal que contiene los plugins para hacer el permanova de la distancia unweighted unifrac tanto por sitio del cuerpo como por sujeto de estudio

La primera opción es para el archivo de entrada, en este caso la matriz de distancia del unweighted unifrac que se encuentra dentro de la carpeta de core-metric-results

La siguiente opción es para el archivo de los metadatos descargado en el paso 2, luego viene la opción para seleccionar la columna del archivo de metadatos con la cual se realizará el análisis, en este caso, sitio del cuerpo, después la opción para generar el archivo de salida en formato .qzv dentro de la carpeta core-metrics-results

Finalmente la opción para indicar que será un análisis pareado, es decir, que compa entre todos los pares de grupos, por ejemplo, bajo la categoría sitio del cuerpo están los niveles: lengua, palma derecha, palma izquierda e intestino, entonces con esta opción se compa si existen diferencias entre lengua y palma derecha, lengua y palma izquierda, lengua e intestino y así sucesivamente. Si no declaramos esta opción, te dirá si hay un efecto significativo por el sitio de cuerpo, pero no sabrás entre qué regiones anatómicas ocurren estas diferencias.

El siguiente plugin es para realizar el permanova con los datos de unweighted unifrac pero ahora por sujeto de estudio, por lo que los datos de cada opción son similares al anterior, excepto, la columna del archivo de los metadatos que para este caso será la que contiene la información del sujeto de estudio

Nota que esa opción se puede modificar, así podrías escoger hacer la comparación por año, mes, si consume o no antibióticos, etc. Por ello te sugerimos generar una tabla de metadatos muy detallada porque a partir de ella podrás hacer una gran variedad de análisis dentro de qiime2.

Una vez generados los archivos, damos click en los enlaces para visualizarlos

En el primer caso vemos los resultados del permanova para la distancia unweighted unifrac, así como las gráficas de boxplot para cada opción de la categoría de sitio del cuerpo, además de una tabla con los resultados del permanova. El tipo de permanova que se realizó fue ANOSIM y lo sabemos porque calculó un valor de pseudo-F.

Es importante mencionarte que muchas determinaciones en este tutorial son medidas repetidas del mismo individuo, por lo que los análisis estadísticos de las comparaciones deberían incluir este factor. Si quieres aprender más sobre análisis estadísticos útiles para el análisis de microbioma, síguenos en nuestras redes sociales pues estaremos ofertando cursos sobre este y otros temas.

Dando click en el segundo enlace, vemos las gráficas de boxplot y la tabla de resultados del permanova de la distancia unweighted unifrac pero de la comparación por sujeto de estudio.

El diseño del experimento de este tutorial es longitudinal pues incluye distintos muestreos en el tiempo. Por lo que con el siguiente plugin se puede construir un gráfico de PCoA donde uno de los ejes es el factor tiempo, es decir, los días desde que se inició el experimento, copiamos y pegamos en la terminal la caja de comando del plugin que nos ayudará a elaborar la gráfica del PCoA.

La primera opción es para el archivo de entrada, que son los resultados de ordenación del PCoA de las distancias unweighted unifrac en formato .qza que se encuentra dentro de la carpeta core-metrics-results elaborada al inicio del video

La siguiente opción es para indicarle al plugin que queremos que en uno de los ejes incluya los días desde que se inició el experimento, información que está en el archivo de los metadatos y el archivo de salida en formato .qzv que se guardará en la carpeta de core-metrics-results

El siguiente plugin es para hacer lo mismo con los datos de los resultados del PCoA de la distancia Bray-curtis que se encuentra en la carpeta de core-metrics-results generada al inicio del video, por lo que el gráfico que se obtendrá, incluirá los días desde que se inició el experimento en uno de los ejes con los datos de la distancia de Bray-curtis

Una vez generados los archivos, damos click en el primer enlace del sitio web para abrirlo en qiime2 View

El archivo muestra la gráfica de PCoA mostrando en el eje 3, los días desde que inició el experimento basado en la distancia Bray curtis, podemos mover los parámetros en cada una de las pestañas como lo aprendimos en este video

El segundo link, abre el archivo de PCoA de la distancia unifrac con los días desde que inició el experimento en el eje 3; finalmente puedes ajustar los colores del gráfico como lo aprendimos anteriormente.

Cursos de bioinformática disponibles

¿Ya conoces nuestro catálogo de servicios?

Checa el siguiente video para ver cómo se hicieron los pasos descritos anteriormente.

QIIME 2 MOVING PICTURES TUTORIAL PASO 9 Alpha rarefaction plotting (curvas de rarefacción)

En el paso anterior determinamos distintas métricas de diversidad alpha y beta, aplicamos algunos análisis estadísticos para compararlas entre grupos declarados en la tabla de metadatos, y construimos y visualizamos las gráficas.

En este paso vamos a construir curvas de rarefacción de tres distintas métricas de diversidad alfa: riqueza observada, diversidad taxonómica y diversidad filogenética.

Copia y pega en la terminal la caja de comando del plugin para hacer la curva de rarefacción con los datos de diversidad alpha, donde, las primeras dos opciones son para los archivos de entrada, el primero para la tabla de frecuencias generado en el paso 5 ya sea con dada2 o deblur y el segundo para el árbol filogenético enraizado. La siguiente opción es para la profundidad, en este caso de 4000

Este valor se obtiene de la tabla de frecuencias generada previamente en el paso 5, si tienes dudas de cómo decidir qué valor de profundidad escoger para tus muestras, síguenos en nuestras redes sociales donde te compartimos información relevante de microbioma y un curso que te ayudará a profundizar en los criterios para analizar tus muestras.

La siguiente opción es para el archivo de los metadatos descargado en el paso 2 y finalmente la opción para el archivo de salida en formato .qzv

Una vez que se ha generado el archivo, lo podemos abrir desde el sitio web, dando click en el enlace

Vemos una gráfica basada en el índice de diversidad de Shannon y la secuencia de los barcodes; donde en el eje de las abscisas está la profundidad de la secuenciación y en el eje de las ordenadas el índice de Shannon,

En el segundo gráfico, el indice de Shannon es desplazado por el número de muestras

Podemos hacer comparaciones cambiando el índice de diversidad alpha, así como la categoría del archivo de los metadatos

Este plugin genera por default curvas de rarefacción basadas en estas tres métricas.

Si quieres comprender más la relevancia de éste gráfico para tu estudio, la interpretación de los distintos índices, y conocer otros índices de diversidad alfa y beta útiles para tu estudio, síguenos en nuestras redes sociales y checa el curso de microbioma que ofrecemos.

QIIME 2 MOVING PICTURES TUTORIAL PASO 10 Taxonomic analysis (asignación taxonómica)

En el paso anterior elaboramos y visualizamos las gráficas de la curva de rarefacción basada en 3 índices de diversidad alpha

En este paso vamos a asignar una identificación taxonómica a cada ASVs, con este dato y la tabla de frecuencia de ASVs generamos los perfiles taxonómicos de las muestras que estamos analizando.

-Dentro de la carpeta de qiime2 vamos a descargar el archivo de la base de datos de referencia de la taxonomía de greengenes, para eso damos click en el enlace

Una vez concluída la descarga, vamos a mover el archivo de carpeta como los hicimos en los pasos 2 y 3 con el comando mv

Primero nos cambiamos de carpeta con el comando de linux cd vamos a la carpeta de descargas donde se encuentra el archivo

Una vez dentro de descargas, escribimos mv y el nombre del archivo, espacio y la dirección de la carpeta de qiime2 y damos enter

Nos regresamos a la carpeta de qiime2 con el comando cd

Para hacer la asignación taxonómica, copiamos y pegamos el plugin en la terminal

Las opciones de archivos de entrada incluyen la base de datos de referencia, la que acabamos de descargar y el archivo de secuencias representativas generadas en el video 5 con dada2 o deblur, finalmente la opción de archivo de salida, que se llamará taxonomy.qza

El siguiente plugin transformará el archivo .qza que se genera del análisis de asignación taxonómica en un archivo de visualización .qzv

Con la primera opción indicamos el nombre del archivo de entrada y con la segunda el nombre del archivo de salida

Una vez generados los podemos visualizar en qiime 2 view

Damos click en el enlace del sitio web, y vemos que el archivo que se abre es una lista que contiene la clave para identificar la feature junto con el nombre asignado y el dato de confianza, así por ejemplo vemos que en la fila 3, esa feature fue asignada como un miembro del phylum Proteobacteria, clase betaproteobacteria, orden Burkholderiales, familia Comamonadaceae y género Acidovorax.

Lo siguiente es elaborar una gráfica de barras de los perfiles de distribución taxonómica por muestra.

-Copiamos y pegamos el plugin en la terminal. Las opciones de entrada son: el archivo de tabla de frecuencias generado en el video 5 ya sea con dada2 o deblur y el archivo de taxonomía generado anteriormente

Seguido de la opción para la tabla de los metadatos descargada en el paso 2 y la opción de archivo de salida en formato .qzv para que lo podamos ver en Qiime2 View. Una vez generado el archivo lo abrimos dando click en el link del sitio web

Vemos que nos muestra una gráfica de barras por nivel de taxonomía, comenzando por el primero que es de dominio: Bacteria, Archaea y No asignados

Le podemos cambiar la paleta de color y ordenarlas con base a las categorías de la tabla de metadatos, también podemos modificar el ancho de las columnas

Por ejemplo, podemos ver los resultados de la asignación por phylum equivalente al nivel 2 y así sucesivamente hasta llegar al nivel 7 correspondiente a especie y ordenarlos con base al sitio del cuerpo

Además, si colocamos el cursor sobre alguna de los colores de las barras, nos muestra el dato de la asignación taxonómica, y el porcentaje que representa.

¿Quieres una gráfica diferente? Te damos precio

Revisa el siguiente video para ver los detalles de éste paso

Cursos de bioinformática disponibles

QIIME 2 MOVING PICTURES TUTORIAL PASO 11 Differential abundante testing with ANCOM (abundancia diferencial)

En el paso anterior elaboramos y visualizamos las gráficas de barras de los perfiles de distribución taxonómica

En este paso vamos a realizar un análisis de abundancia diferencial con ANCOM para identificar las features que tienen diferencias en abundancia entre las muestras

El primer paso es hacer un filtrado de las muestras para extraer únicamente aquellas features que pertenecen al intestino, ésto porque en ellas menos del 25% de las features cambian entre las muestras, y ANCOM, el análisis que se aplicará asume que menos de 25% de las features cambian, por lo que si sospechas que entre tus muestras cambia más del 25% de las ASVs, entonces no es recomendable que uses ANCOM.

Por lo tanto, copiamos y pegamos en la terminal la caja de comando del plugin para hacer el filtrado, donde la primera opción es para el archivo de entrada que es la tabla de frecuencias generada en el video 5 con dada2 o deblur

Seguido de la opción para el archivo de los metadatos descargado en el video 2

La opción para indicar al plugin la categoría con base en la cual se hará el filtrado, en este caso por parte del cuerpo y en específico el tracto digestivo

El archivo de salida que será la tabla que contiene los datos únicamente del tracto digestivo

Una vez generado el archivo .qza

Vamos a generar otro archivo de los datos de frecuencias de la tabla del paso anterior, la que contiene los datos del tracto digestivo. Una característica de los datos derivados de metodologías de secuenciación es que pueden contener muchos ceros, sin embargo, un cero en biología es muy difícil de confirmar, pues puede significar simplemente que no secuenciaste lo suficiente y por ello no alcanzaste a detectar a ese microorganismo. ANCOM aplica una metodología para eliminar este sesgo y transforma los ceros agregándoles un pseudo-count, es decir, les asigna a esos ceros frecuencias muy pequeñitas.

Si quieres aprender otras metodologías para tratar a los ceros en tus datos de secuenciación, inscríbete a nuestros cursos y síguenos en redes sociales.

Copiamos y pegamos la caja de comando en la terminal que contiene el plugin para construir la tabla de composición que transforma a los ceros, donde la primera opción es para el archivo de entrada que es la tabla generada con los datos del tracto digestivo y el nombre del archivo de salida en formato .qza

Ahora ya podemos utilizar ANCOM para determinar cuales features difieren en abundancia entre todas las muestras del tracto digestivo de los dos sujetos de estudio, para ello, copiamos y pegamos la caja de comando que contiene el plugin de ANCOM, donde la primera opción es para el archivo de entrada que corresponde al que generamos en el paso anterior

Seguido del archivo de los metadatos

La opción para indicar el nombre de la columna con base en la cual se harán las comparaciones, en este caso el sujeto de estudio, recuerda que se tomaron muestras al mismo individuo en diferentes tiempos.

Finalmente el nombre del archivo de salida en formato .qzv

-Una vez generado el archivo, damos click en el link del sitio web y vemos una gráfica de volcán con los datos del análisis de ANCOM y una tabla con las features que fueron distintas entre las muestras. ANCOM es un método composicional que transforma las frecuencias de las features con el siguiente método llamado clr:center log ratio por ello la gráfica de volcán tiene clr en lugar de abundancias relativas. Si te colocas sobre las features que están arriba en el eje de las ordenadas con los valores de W (porque aplicó una prueba de Wilcoxon) y a ambos extremos en el eje de las abscisas, verás que son las dos ASVs que te indica la tabla como diferencialmente abundantes.

Si quieres aprender más sobre los métodos composicionales y en qué consiste y cómo se interpreta la transformación clr, síguenos en nuestras redes sociales y mantente al pendiente de nuestros cursos.

Regresamos al sitio web para continuar con el siguiente paso, el cual consiste en hacer un análisis de abundancia diferencial pero ahora a un nivel taxonómico, por ejemplo, para saber qué Phylum, orden, familia o géneros son diferencialmente abundantes entre tus grupos de estudio. En este tutorial se hace a nivel de género. Para ello primero se colapsará la tabla de frecuencias a este nivel taxonómico, es decir, se sumarán las frecuencias de todas las ASVs que se hayan asignado al mismo género. Después, se hará el mismo procedimiento que para el análisis diferencial.

¿necesitas análisis estadísticos diferentes? te damos precio

Por lo tanto, copiamos y pegamos la caja de comando que primero contiene el plugin para colapsar los datos de frecuencias a cierto nivel taxonómico. La primera opción es para el archivo de entrada, los datos del intestino filtrados al inicio del video, el archivo de la taxonomía generada en el video anterior, La opción para asignar el nivel al cual se colapsan los datos, en este caso 6 que es equivalente al género, y la opción para nombrar el archivo de salida en formato .qza

El segundo plugin es para generar la tabla de frecuencias con los ceros transformados, como hicimos anteriormente, donde el archivo de entrada es la tabla de frecuencias que acabamos de crear en el paso anterior, la cual ya contiene las frecuencias a nivel de género y el archivo de salida en formato .qza es la tabla de frecuencias a nivel de género con los ceros transformados.

El tercer plugin es para hacer el análisis de ANCOM, donde la primera opción es para el archivo de entrada es el generado en el paso anterior, la tabla de los metadatos descargada en el video 2, el nombre de la columna del archivo de metadatos de la cual se realizará la comparación, y el archivo de salida de visualización en formato .qzv

Damos click en el enlace para para ver los resultados

Vemos la gráfica de volcán donde los resultados de ANCOM indican que Parabacteroides fue el género con diferencia en abundancia entre los sujetos y, debajo en la tabla con los valores clr (que son las frecuencias relativas a la media geométrica de los datos) en percentiles para cada sujeto de estudio, vemos que en el sujeto 2 fue mayor la abundancia de éste género.