Expression microarrays data analysis

Introduction

Hemos leído un artículo sobre artritis reumatoide donde se indica que se desconoce la etiología de esta enfermedad inflamatoria y que sería interesante caracterizarla a nivel molecular para encontrar algunas mecanismos clave que mejoraran su prevención y tratamiento.

Para ello, los autores diseñaron un experimento con arrays de expresión, distinguiendo tres grupos:

  1. Pacientes con artritis reumatoide.
  2. Pacientes con osteoartritis.
  3. Personas sanas.

Nos gustaría utilizar los mismos datos de arrays de expresión que utilizaron los autores y reproducir el análisis de datos de microarrays.

Este es el artículo (no hace falta descargarlo): Molecular signatures and new candidates to target the pathogenesis of rheumatoid arthritis. Physiol Genomics2010 Nov 29;42A(4):267-82.


Objetivo

Realización de un análisis bioinformático completo de datos de expresión, abordando el procesamiento y análisis diferencial desde GEO2R que nos permitirá conocer que genes están diferencialmente expresados entre los grupos de sujetos indicados anteriormente. También estamos interesados en la interpretación funcional de los resultados obtenidos, utilizando diversos recursos web como PANTHER y STRING.

Datos

Disponemos de datos correspondientes a 15 sujetos. 5 para cada uno de los grupos definidos: normal, osteartritis y artritis reumatoide. En la siguiente tabla se indica el grupo al que pertenece cada muestra (microarray). El tipo de plataforma comercial del chip es Affymetrix:

filename	samplename	id	CLASS	disease	        	
GSM34379.CEL	GSM34379	ND_1	ND	normal_donor		
GSM34383.CEL	GSM34383	ND_2	ND	normal_donor		
GSM34385.CEL	GSM34385	ND_3	ND	normal_donor		
GSM34388.CEL	GSM34388	ND_4	ND	normal_donor		
GSM34391.CEL	GSM34391	ND_5	ND	normal_donor		
GSM34393.CEL	GSM34393	OA_A	OA	osteoarthritis		
GSM34394.CEL	GSM34394	OA_B	OA	osteoarthritis		
GSM34395.CEL	GSM34395	OA_x	OA	osteoarthritis		
GSM34396.CEL	GSM34396	OA_y	OA	osteoarthritis		
GSM34397.CEL	GSM34397	OA_z	OA	osteoarthritis		
GSM34398.CEL	GSM34398	RA_A	RA	rheumatoid_arthritis	
GSM34399.CEL	GSM34399	RA_B	RA	rheumatoid_arthritis	
GSM34400.CEL	GSM34400	RA_x	RA	rheumatoid_arthritis	
GSM34401.CEL	GSM34401	RA_y	RA	rheumatoid_arthritis	
GSM34402.CEL	GSM34402	RA_z	RA	rheumatoid_arthritis	

Los datos originales correspondiente al estudio están en el repositorio Gene Expression Omnibus, concretamente en este link. También están disponibles los datos normalizados por los investigadores propietarios de los datos. No necesitaremos descargar los datos, ya que trabajaremos directamente desde GEO2R que está incorporada en este repositorio.


¿Cuál es el plan de trabajo?

A. Procesamiento y análisis de la expresión diferencial

Desde la misma web de GEO y siguiendo con el estudio anterior, analizaremos los datos para detectar los cambios de expresión significativos entre los enfermos de “osteoartritis” y“controles”. Para ello selecciona la opción “Analyze with GEO2R” o bien desde GEO2R:

  1. Define dos grupos: controles (“normal donor”) y enfermos (“osteoarthritis”). Asigna las muestras a cada sugbrupo.
  2. Al ejecutar el análisis de expresión diferencial, previamente los datos se normalizarán.
  3. ¿Qué 250 genes son los que muestran mayores diferencias entre ambos grupos?¿Conoces algunos de los indicadores que aparecen en la cabecera de estos resultados?
  4. Visualiza la información de los 250 genes con mayor diferencia de expresión
  5. Ahora nos centramos sólo en un gen de interés. ¿Qué información conocemos delgen MMP3 en este análisis?
  6. Muestra el perfil gráfico de expresión de este gen para todas las muestras. ¿Dónde está expresado en controles o en enfermos? ¿Qué valores de expresión hay encada una de las 10 muestras para este gen?
  7. Nos gustaría disponer de un archivo con la información referente a la expresión diferencial para todos los genes incluidos en el array. ¿Te lo podrías descargar en un fichero de texto?
  8. Abre este fichero, por ejemplo desde excel, y selecciona los que son significativos (p-valor ajustado < 0.05) y están más expresados en osteoarthritis respecto control. ¿Cuántos genes hay? Guárdalo en un información que llamaremos “sig.up.osteo.vs.control.txt”. También haremos lo mismo para los genes significativos con menor expresi.ón en osteo frente a control
  9. Revisa el script de R que se utilizó para este análisis y que genera GEO2R por defecto.
  10. ¿Qué información te puedes descargar de este estudio? ¿Qué diferencias hay entre las siguientes opciones? (Descarga la información en cada opción para comprobar las diferencias).•SOFT formatted family file(s)•MINiML formatted family file(s)•Series Matrix File(s).


Continuamos trabajando con GEO2R. Nos gustaría encontrar los genes diferencialmente expresados en las otras 2 comparaciones:

  • Artritis reumatoide vs. Normal
  • Osteoartritis vs. Artritis reumatoide

Algunas cuestiones para cada una de las comparaciones anteriores:

  1. ¿Cuántos genes detectamos diferencialmente expresados?
  2. ¿Qué relación hay entre statistic, p-value y el adj.p-value?


B. Interpretación funcional de los resultados

Ya conocemos los genes que están diferencialmente expresados en cada una de las 3 comparaciones de interés descritas anteriormente. Esta información es muy útil, pero además nos gustaría conocer qué funciones están “detrás” de esos genes e incluso conocer si hay grupos de genes con un patrón de expresión común que comparte estas funcionalidades.

A partir de los resultados del análisis de expresión diferencial en la comparación Osteoartritis vs. Normal:

  1. Para empezar realiza una descripción de las funciones asociadas a los genes que están UP expresados en osteoartritis, utilizando las bases de datos biológicas: GO biological process, GO molecular function y GO cellular component, mediante la herramienta web PANTHER. Sugerimos que utilices la primera y segunda de las opciones de análisis. Interpreta la representación gráfica de los GO biological process
  2. Ahora realiza un análisis de sobrerrepresentación en los genes que está UP expresados en osteoartritis, utilizando las bases de datos biológicas: GO biological process, GO molecular function y GO cellular component, mediante la herramienta web PANTHER.
    • ¿Hay funciones que están sobre-representados en este grupo de genes UP expresados en osteoartritis?
    • En esta caracterización funcional valoramos las funciones que están asociadas a nuestro grupos de genes de interés. ¿Frente a que otro grupo de genes estamos realizando esta evaluación?
  3. Realiza otro análisis de sobrerrepresentación pero esta vez sobre los genes que están DOWN expresados en la comparación Osteoartritis vs. Normal utilizando las mismas bases de datos que se escogieron en el ejercicio anterior.
  4. Por último queremos realizar un Gene Set Enrichment a partir de los resultados de la expresión diferencial de Osteoartritis vs. Normal. ¿Qué input necesitarías ahora? Interpreta los resultados obtenidos.
  5. Repite los análisis anteriores para las otras dos comparaciones de interés:
    • Artritis reumatoide vs. Normal
    • Osteoartritis vs. Artritis reumatoide


Nos gustaría realizar otros abordajes para caracterizar funcionalmente los resultados obtenidos en la expresión diferencial. Para ello, utilizaremos los genes significativos up y down expresados en cada una de las comparaciones descritas anteriormente, y mediante STRING realizaremos un análisis de redes de interacción proteína-proteína.