Table of Contents
Expression microarrays data analysis
Introduction
Hemos leído un artículo sobre artritis reumatoide donde se indica que se desconoce la etiología de esta enfermedad inflamatoria y que sería interesante caracterizarla a nivel molecular para encontrar algunas mecanismos clave que mejoraran su prevención y tratamiento.
Para ello, los autores diseñaron un experimento con arrays de expresión, distinguiendo tres grupos:
- Pacientes con artritis reumatoide.
- Pacientes con osteoartritis.
- Personas sanas.
Nos gustaría utilizar los mismos datos de arrays de expresión que utilizaron los autores y reproducir el análisis de datos de microarrays.
Este es el artículo (no hace falta descargarlo): Molecular signatures and new candidates to target the pathogenesis of rheumatoid arthritis. Physiol Genomics2010 Nov 29;42A(4):267-82.
Objetivo
Realización de un análisis bioinformático completo de datos de expresión, abordando el procesamiento y análisis diferencial desde GEO2R que nos permitirá conocer que genes están diferencialmente expresados entre los grupos de sujetos indicados anteriormente. También estamos interesados en la interpretación funcional de los resultados obtenidos, utilizando diversos recursos web como PANTHER y STRING.
Datos
Disponemos de datos correspondientes a 15 sujetos. 5 para cada uno de los grupos definidos: normal, osteartritis y artritis reumatoide. En la siguiente tabla se indica el grupo al que pertenece cada muestra (microarray). El tipo de plataforma comercial del chip es Affymetrix:
filename samplename id CLASS disease
GSM34379.CEL GSM34379 ND_1 ND normal_donor
GSM34383.CEL GSM34383 ND_2 ND normal_donor
GSM34385.CEL GSM34385 ND_3 ND normal_donor
GSM34388.CEL GSM34388 ND_4 ND normal_donor
GSM34391.CEL GSM34391 ND_5 ND normal_donor
GSM34393.CEL GSM34393 OA_A OA osteoarthritis
GSM34394.CEL GSM34394 OA_B OA osteoarthritis
GSM34395.CEL GSM34395 OA_x OA osteoarthritis
GSM34396.CEL GSM34396 OA_y OA osteoarthritis
GSM34397.CEL GSM34397 OA_z OA osteoarthritis
GSM34398.CEL GSM34398 RA_A RA rheumatoid_arthritis
GSM34399.CEL GSM34399 RA_B RA rheumatoid_arthritis
GSM34400.CEL GSM34400 RA_x RA rheumatoid_arthritis
GSM34401.CEL GSM34401 RA_y RA rheumatoid_arthritis
GSM34402.CEL GSM34402 RA_z RA rheumatoid_arthritis
Los datos originales correspondiente al estudio están en el repositorio Gene Expression Omnibus, concretamente en este link. También están disponibles los datos normalizados por los investigadores propietarios de los datos. No necesitaremos descargar los datos, ya que trabajaremos directamente desde GEO2R que está incorporada en este repositorio.
¿Cuál es el plan de trabajo?
A. Procesamiento y análisis de la expresión diferencial
Desde la misma web de GEO y siguiendo con el estudio anterior, analizaremos los datos para detectar los cambios de expresión significativos entre los enfermos de “osteoartritis” y“controles”. Para ello selecciona la opción “Analyze with GEO2R” o bien desde GEO2R:
- Define dos grupos: controles (“normal donor”) y enfermos (“osteoarthritis”). Asigna las muestras a cada sugbrupo.
- Al ejecutar el análisis de expresión diferencial, previamente los datos se normalizarán.
- ¿Qué 250 genes son los que muestran mayores diferencias entre ambos grupos?¿Conoces algunos de los indicadores que aparecen en la cabecera de estos resultados?
- Visualiza la información de los 250 genes con mayor diferencia de expresión
- Ahora nos centramos sólo en un gen de interés. ¿Qué información conocemos delgen MMP3 en este análisis?
- Muestra el perfil gráfico de expresión de este gen para todas las muestras. ¿Dónde está expresado en controles o en enfermos? ¿Qué valores de expresión hay encada una de las 10 muestras para este gen?
- Nos gustaría disponer de un archivo con la información referente a la expresión diferencial para todos los genes incluidos en el array. ¿Te lo podrías descargar en un fichero de texto?
- Abre este fichero, por ejemplo desde excel, y selecciona los que son significativos (p-valor ajustado < 0.05) y están más expresados en osteoarthritis respecto control. ¿Cuántos genes hay? Guárdalo en un información que llamaremos “sig.up.osteo.vs.control.txt”. También haremos lo mismo para los genes significativos con menor expresi.ón en osteo frente a control
- Revisa el script de R que se utilizó para este análisis y que genera GEO2R por defecto.
- ¿Qué información te puedes descargar de este estudio? ¿Qué diferencias hay entre las siguientes opciones? (Descarga la información en cada opción para comprobar las diferencias).•SOFT formatted family file(s)•MINiML formatted family file(s)•Series Matrix File(s).
Continuamos trabajando con GEO2R. Nos gustaría encontrar los genes diferencialmente expresados en las otras 2 comparaciones:
- Artritis reumatoide vs. Normal
- Osteoartritis vs. Artritis reumatoide
Algunas cuestiones para cada una de las comparaciones anteriores:
- ¿Cuántos genes detectamos diferencialmente expresados?
- ¿Qué relación hay entre statistic, p-value y el adj.p-value?
B. Interpretación funcional de los resultados
Ya conocemos los genes que están diferencialmente expresados en cada una de las 3 comparaciones de interés descritas anteriormente. Esta información es muy útil, pero además nos gustaría conocer qué funciones están “detrás” de esos genes e incluso conocer si hay grupos de genes con un patrón de expresión común que comparte estas funcionalidades.
A partir de los resultados del análisis de expresión diferencial en la comparación Osteoartritis vs. Normal:
- Para empezar realiza una descripción de las funciones asociadas a los genes que están UP expresados en osteoartritis, utilizando las bases de datos biológicas: GO biological process, GO molecular function y GO cellular component, mediante la herramienta web PANTHER. Sugerimos que utilices la primera y segunda de las opciones de análisis. Interpreta la representación gráfica de los GO biological process
- Ahora realiza un análisis de sobrerrepresentación en los genes que está UP expresados en osteoartritis, utilizando las bases de datos biológicas: GO biological process, GO molecular function y GO cellular component, mediante la herramienta web PANTHER.
- ¿Hay funciones que están sobre-representados en este grupo de genes UP expresados en osteoartritis?
- En esta caracterización funcional valoramos las funciones que están asociadas a nuestro grupos de genes de interés. ¿Frente a que otro grupo de genes estamos realizando esta evaluación?
- Realiza otro análisis de sobrerrepresentación pero esta vez sobre los genes que están DOWN expresados en la comparación Osteoartritis vs. Normal utilizando las mismas bases de datos que se escogieron en el ejercicio anterior.
- Por último queremos realizar un Gene Set Enrichment a partir de los resultados de la expresión diferencial de Osteoartritis vs. Normal. ¿Qué input necesitarías ahora? Interpreta los resultados obtenidos.
- Repite los análisis anteriores para las otras dos comparaciones de interés:
- Artritis reumatoide vs. Normal
- Osteoartritis vs. Artritis reumatoide
Nos gustaría realizar otros abordajes para caracterizar funcionalmente los resultados obtenidos en la expresión diferencial. Para ello, utilizaremos los genes significativos up y down expresados en cada una de las comparaciones descritas anteriormente, y mediante STRING realizaremos un análisis de redes de interacción proteína-proteína.