¿Cómo obtener la anotación funcional desde BioMart?

Nos dirigimos a la web de BioMart.

  1. Escogemos la base de datos “Ensembl Genes 93”.
  2. Elegimos el organismo con el que estemos trabajando.
  3. Si quisiéramos restringir la búsqueda a un número de genes determinados (por ejemplo los que estén en un cromosoma específico), lo indicaríamos en “Filters”, pero no es nuetro caso porque queremos la información de todos los genes. De modo que no incorporamos ningún filtro.
  4. En attributes seleccionaremos la información que necesitamos en nuestra anotación funcional, que son dos cosas: identificador de gen e identificador de función.
    • Dentro de attributes, desplegamos el apartado GENES y seleccionaremos el identificador de gen que nos interesa. Por defecto, están marcados: “gene stable ID” y “transcript stable ID”. Si queremos el id de Ensembl (del tipo ENSG0000001) desmarcaremos el del tránscrito. Si queremos el identificador de gen “Gene name” (tipo BEST1, BRCA2…) desmarcaremos “gene stable ID” y “transcript stable ID”, y seleccionaremos el de “Gene name”. Con esto, ya tendríamos seleccionado el identificador de genes (por supuesto debe coincidir con el identificador de genes que tengamos en nuestros resultados del análisis de datos).
    • También dentro de attributes, encontramos los identificadores de las funciones en EXTERNAL. Tras desplegar, seleccionaremos GO term accession.
  5. Ya tenemos ambas cosas y ahora clicamos “Results” (arriba a la izquierda), para ver el aspecto de la anotación que hemos generado. Si nos gusta, sólo tendríamos que clicar “Unique results only” para que no incluya duplicados y seleccionar “Go” para que inicie la descarga del fichero. Tardará un par de minutos y tendremos un fichero llamado “mart_export.txt”. Este es el aspecto del contenido del archivo:
    Gene stable ID	GO term accession
    ENSG00000276626	
    ENSG00000201317	
    ENSG00000200823	
    ENSG00000221598	GO:0005615
    ENSG00000222532	GO:0005615
    ENSG00000206734	
    ENSG00000201050	
    ENSG00000199065	GO:0005615
    ENSG00000199065	GO:1903231
  6. Y ya nos falta el último paso! Necesitamos eliminar aquellos genes que no tienen ninguna función anotada. Esto lo podemos hacer de varias formas, desde excel sería sencillo: ordenamos la segunda columna alfabéticamente y eliminamos todas las filas que no tienen información del término GO. También eliminaríamos la primera fila que indica los nombres de las columnas (Gene stable ID, GO term accession). De modo que quedaría algo así:
    ENSG00000221598	GO:0005615
    ENSG00000222532	GO:0005615
    ENSG00000199065	GO:0005615
    ENSG00000199065	GO:1903231
  7. Con esta anotación funcional estamos preparados para los análisis de caracterización funcional que queramos realizar. Del mismo modo que hemos utilizado términos GO, podríamos haber utilizado otro tipo de funciones que nos parezcan interesantes como rutas de señalización.