Anotación funcional para plantas desde Biomart Ensembl

Nos dirigimos a la web de BioMart.

  1. Escogemos la base de datos “Ensembl Plants 41”.
  2. Elegimos el organismo con el que estemos trabajando: Arabidopsis Thaliana.
  3. Si quisiéramos restringir la búsqueda a un número de genes determinados (por ejemplo los que estén en un cromosoma específico), lo indicaríamos en “Filters”, pero no es nuetro caso porque queremos la información de todos los genes. De modo que no incorporamos ningún filtro.
  4. En attributes seleccionaremos la información que necesitamos en nuestra anotación funcional, que son dos cosas: identificador de gen e identificador de función.
    • Dentro de attributes, desplegamos el apartado GENES y seleccionaremos el identificador de gen que nos interesa. Por defecto, están marcados: “gene stable ID” y “transcript stable ID”. Si queremos el id de Ensembl (del tipo ENSG0000001) desmarcaremos el del tránscrito. Si queremos el identificador de gen “Gene name” (tipo BEST1, BRCA2…) desmarcaremos “gene stable ID” y “transcript stable ID”, y seleccionaremos el de “Gene name”. Con esto, ya tendríamos seleccionado el identificador de genes (por supuesto debe coincidir con el identificador de genes que tengamos en nuestros resultados del análisis de datos).
    • También dentro de attributes, encontramos los identificadores de las funciones en EXTERNAL. Tras desplegar, seleccionaremos “GO term accession**.
  5. Ya tenemos ambas cosas y ahora clicamos “Results” (arriba a la izquierda), para ver el aspecto de la anotación que hemos generado. Si nos gusta, sólo tendríamos que clicar “Unique results only” para que no incluya duplicados y seleccionar “Go” para que inicie la descarga del fichero. Tardará un par de minutos y tendremos un fichero llamado “mart_export.txt”. Este es el aspecto del contenido del archivo:
    Gene name	GO term accession
    DSP3	GO:0016311
    DSP3	
    DSP3	GO:0006470
    DSP3	GO:0005515
    CYCH;1	
    CYCH;1	GO:0045944
    CYCH;1	GO:0005737
    CYCH;1	GO:1990069
    CYCH;1	GO:0010119
    CYCH;1	GO:0072593
    CYCH;1	GO:2000070
  6. Y ya nos falta el último paso! Necesitamos eliminar aquellos genes que no tienen ninguna función anotada. Esto lo podemos hacer de varias formas, desde excel sería sencillo: ordenamos la segunda columna alfabéticamente y eliminamos todas las filas que no tienen información del término GO. También eliminaríamos la primera fila que indica los nombres de las columnas (Gene name GO term accession). De modo que quedaría algo así:
    DSP3	GO:0016311
    DSP3	GO:0006470
    DSP3	GO:0005515
    CYCH;1	GO:0045944
    CYCH;1	GO:0005737
    CYCH;1	GO:1990069
    CYCH;1	GO:0010119
    CYCH;1	GO:0072593
    CYCH;1	GO:2000070
  7. Con esta anotación funcional estamos preparados para los análisis de caracterización funcional que queramos realizar. Del mismo modo que hemos utilizado términos GO, podríamos haber utilizado otro tipo de funciones que nos parezcan interesantes como rutas de señalización.