“Big Data”, o la estadística que no se olvida de los individuos

Vivimos en una época en la que generamos miles y miles de datos en todos los ámbitos de nuestras vidas, a velocidad de vértigo y de forma masiva. Los teléfonos móviles están continuamente registrando nuestra posición, así como la forma en que nos movemos. Estamos viviendo la aparición de los wearables, pequeños aparatos que pronto llevaremos encima, y que cuantifican parámetros como la actividad física, la frecuencia cardíaca o la presión arterial. Otra información que la tecnología ya ha puesto al alcance de nuestra mano es la genética. En los Estados Unidos se están popularizando los tests que permiten el análisis genético avanzado, bien por identificación de marcadores o por secuenciación completa, a costes que pueden considerarse ya como razonables.

El ámbito de la medicina no es ninguna excepción: tanto en hospitales como en centros médicos se genera una gran cantidad de información de diversa índole de forma continua. Recientemente, en una entrevista TED, uno de los dos fundadores de Google, Larry Page, afirmaba que “si la gente pudiese compartir sus historias clínicas de forma anónima, y si los médicos pudieran tener acceso a esta información online y conectarla con la de sus propios pacientes, podrían salvarse hasta 100.000 vidas al año”. En consonancia con Larry Page, múltiples voces a lo largo de todo el mundo están mostrando grandes esperanzas con respecto a las posibilidades de este fenómeno, conocido como “big data”, en todos los ámbitos imaginables. Aunque también es cierto que tampoco faltan los que consideran a todo este asunto como el último gran bluf tecnológico.

big data

Una de las mayores esperanzas del big data es el papel que podría jugar en la consecución del ideal de la medicina personalizada. En realidad, la medicina siempre ha sido personalizada: los médicos siempre se han centrado en lo que es mejor para cada paciente en particular. Pero se trata de ir más lejos tratando de alcanzar el mayor grado de personalización, y, por tanto, un diagnóstico y tratamiento lo más acorde posible con las características individuales. En el caso particular del cáncer, sabemos ahora que los tumores y pacientes son menos homogéneos de lo que siempre habíamos supuesto. Un tratamiento idéntico puede tener resultados muy diferentes en pacientes con el mismo tipo de tumor. En definitiva, el objetivo es pasar de una medicina basada en poblaciones a una medicina basada en el individuo.

OLYMPUS DIGITAL CAMERA

Microarray para análisis genético (IMOMA). Cortesía de Manuel Vilches Pacheco.

Pero esto no es nada fácil, tal como nos explicó Víctor Barrondo en su post “Auge y caída de la medicina basada en evidencia”. El sistema vigente para extraer evidencia científica a través de los ensayos clínicos presenta serias limitaciones. Una de la más importantes es que los resultados no son fácilmente trasladables a los individuos y a sus condiciones particulares. En oncología, los pacientes que participan en los ensayos clínicos apenas representan un 3%-5% de todos los pacientes de cáncer; en radioterapia, esta cifra puede ser aún inferior. Esto significa que cuando un oncólogo decide tratar a un paciente individual basándose en los resultados de un ensayo clínico, es altamente probable que dicho paciente no presente las mismas características clínicas que los pacientes en la cohorte del ensayo [Lambin, 2013]. Además, debido a la velocidad del desarrollo tecnológico actual, la realización de los clásicos ensayos clínicos randomizados para comparar distintas opciones de tratamiento frente a un gold standard se está convirtiendo en una tarea casi imposible de abordar.

Maitland

En la era de la medicina personalizada, tanto los pacientes como sus enfermedades se ven de forma individual [Maitland, 2011].

El big data, como concepto, implicaría recoger, almacenar, integrar y analizar todas las características relevantes de todos los pacientes tratados así como de los tratamientos administrados, y finalmente, los resultados obtenidos. ¿Cuáles serían estas características?

  • Características demográficas: edad, sexo…
  • Características clínicas: el estado general del paciente, resultados de diversos análisis, imágenes adquiridas para el diagnóstico…
  • Características biológicas y moleculares: información genética (biomarcadores moleculares)
  • Características del tratamiento o la intervención: medicación, dosis, patrón de administración…

Imaginemos por un momento que esta base de datos gigantesca, compartida entre todos los hospitales, estuviera a nuestro alcance. Mediante los algoritmos adecuados el procesamiento multifactorial de toda esta información podría llevarnos, potencialmente, a obtener predicciones para nuevos pacientes adaptadas a sus características particulares, y en función de las diferentes opciones de tratamiento. Y todo ello, gracias a los datos recogidos como mero producto de la práctica clínica diaria. Pero esto, no lo olvidemos, es un escenario ideal, ¿cómo de lejos nos encontramos?

El primer paso sería conseguir el volumen y la diversidad necesaria de datos, lo cual sólo es factible si las bases de datos se comparten entre el mayor número posible de centros. Ello implica superar no pocas barreras, entre las cuales podemos destacar:

  • barreras administrativas (esfuerzos para capturar y compartir los datos),
  • barreras legales (problemas con la privacidad, autoría de los datos),
  • barreras tecnológicas.

Por ejemplo, pensemos que cada hospital recoge los datos siguiendo sus esquemas y plataformas particulares, y muy posiblemente con una estructura y un formato inadecuados, ¿cómo va a ser posible entonces compartir los datos? Una de las soluciones está en el concepto de “interoperabilidad semántica”, que se define como la capacidad de las máquinas de entenderse entre sí. En esta línea, la clínica de los Países Bajos MAASTRO ha liderado el proyecto euroCAT, en el que se ha desarrollado una infraestructura tecnológica que permite que las bases de datos de cinco hospitales (Maastricht, Lieja, Aquisgrán, Eindhoven y Hasselt) sean inter-operables, sin necesidad de extraer físicamente los datos de los hospitales, y permaneciendo bajo el control de cada centro. Otro problema importante es que los datos que se recogen de forma rutinaria en la práctica clínica son de una calidad inferior a la de los ensayos clínicos: pueden ser contradictorios, estar sesgados e incluir incorrecciones. Aunque muchos problemas pueden mitigarse en mayor o menor medida gracias al gran volumen de información recogida, va a ser esencial establecer criterios de estandarización en los datos que se vayan a recopilar en la rutina diaria.

El siguiente problema es el de cómo extraer valor de toda esta información. ¿De qué herramientas disponemos? Gracias a los avances en modelización estadística y computación y otras áreas afines como la inteligencia artificial, hoy día tenemos a nuestro alcance una gran variedad de técnicas para extraer conocimiento a partir de conjuntos de datos, bien en forma de modelos matemáticos, bien en forma patrones, o mediante otro tipo de representaciones. El aprendizaje automático o machine learning es un área que estudia cómo capacitar a las máquinas para que aprendan a partir de una serie de datos. La idea es que, a partir de un conjunto de datos de entrenamiento, se va alimentando un algoritmo que es capaz de ir aprendiendo de las observaciones; una vez entrenada, la máquina clasifica ejemplos nuevos con precisión. La clasificación será mejor cuantos más datos (más pacientes), y más diversos (más variables), tengamos. En el contexto del big data, todo apunta a que los modelos de aprendizaje automático van a jugar un papel esencial. La idea es integrar estos modelos en sistemas automáticos de ayuda a la decisión, capaces de combinar datos de naturaleza variada y hacer un balance entre las múltiples opciones de tratamiento. En el ámbito de la radioterapia, ya existen publicaciones que presentan modelos predictivos para distintos resultados como la probabilidad de supervivencia, patrones de recurrencia y toxicidad, y para distintos tipos de cáncer. La página web creada por investigadores de la clínica MAASTRO proporciona modelos para cáncer de pulmón, recto, y cabeza y cuello.

Pero existen otras herramientas distintas para trabajar con big data. La investigadora P. Lum trabaja analizado datos de cáncer empleando una novedosa tecnología basada en el análisis topológico de los datos (“topological data analysis”, o TDA), desarrollada por tres matemáticos de la Universidad de Stanford, y comercializada por la empresa Ayasdi [vídeo explicativo]. La idea es tratar de comprender los datos empleando nociones de topología, que es la rama de las matemáticas que estudia las propiedades del espacio. Partamos de una base de datos extremadamente compleja: las observaciones (léase pacientes) se tratan como si fueran puntos en un espacio de muchísimas dimensiones, y se construye una red topológica agrupando los puntos que son similares en nodos. Los nodos están interconectados, de modo que se forma una red cuya forma tiene un significado. Como cada nodo representa a un conjunto de puntos, la red proporciona una versión comprimida de la base de datos multidimensional, y se puede explorar para descubrir características que de otra forma serían muy difíciles de ver.

PekLum

El TDA, aplicado a grandes bases de datos con información genética de pacientes de cáncer de mama, ha resultado ser eficaz para hallar subgrupos de pacientes con características genéticas particulares y con una mayor supervivencia al resto.

Lum ha aplicado el TDA a una base de datos sobre cáncer de mama generada a lo largo de 12 años en el Instituto de Cáncer de los Países Bajos (NKI), y ha hallado un subgrupo de pacientes de cáncer [Lum, 2012] con mayor supervivencia que los demás, y que exhiben unas características genética particulares (véase imagen) desconocidas anteriormente.

Nos encontramos en una época de transición de la medicina basada en poblaciones hacia la medicina personalizada y se nos presentan no pocos desafíos. Para conseguirlo, la tradicional investigación basada en ensayos clínicos deberá evolucionar y fusionarse con metodologías más ágiles capaces de explotar grandes cantidades de información, y hacerlo además en poco tiempo. Ya existen propuestas en este sentido, como el sistema de aprendizaje rápido (rapid learning) (figura) que integran todos los elementos que aquí se han mencionado y en el que el big data juega un papel central.

Print

La metodología de Rapid learning, propuesta por Lambin y Roelofs, funcionaría en paralelo con los ensayos clínicos convencionales. Como destacan los autores ambos enfoques son necesarios y complemetarios [Lambin, 2013].

De la mano del big data se están desarrollando las tecnologías y enfoques adecuados para el manejo y la extracción de valor de grandes cantidades de datos. Es posible que no estemos tan lejos del día en que incluso los datos que nuestros wearables empezarán recogiendo de forma lúdica se integren con nuestra información clínica y nuestro perfil genético, y pasen a jugar un papel activo en nuestro diagnóstico y tratamiento. Los beneficios potenciales de la unificación de toda esta información en bases de datos comunes y su explotación son enormes, y representa una oportunidad que no deberíamos dejar escapar.

Referencias

  • [Maitland, 2011] Clinical Trials in the Era of Personalized Oncology, Maitland M L, Schilsky R L, CA CANCER J CLIN 2011; 61:365-381
  • [Lambin, 2013] ‘Rapid Learning health care in oncology’ -An approach towards decision support systems enabling customised radiotherapy’, Lambin P et.al. Radiotherapy and Oncology 109 (2013): 159-164
  • [Lambin, 2012] Predicting outcomes in radiation oncology -multifactorial decision support systems, Nature Reviews
  • [Lum, 2012] Patient Stratification using Topological Data Analysis and Iris, [poster]
  • [Nicolau, 2010] Topology based data analysis identifies a subgroup of breast cancers with a unique mutational profile and excellent survival, Nicolau M et.al. PNAS (2011), 108 (17) 7765-7270 link

15 Respuestas a ““Big Data”, o la estadística que no se olvida de los individuos

  1. Aquí nos va a costar, pues cada CC. AA. tiene su sistema con su base d datos. Esto me recuerda a que el área del hosp. Clínic de Barcelona tiene un foro para pacientes q incorpora una gran base de datos con casos clínicos.

    • Hola Xavier,
      Gracias por tus comentarios. Creo que la mayor dificultad no está en generar grandes bases de datos (que también tiene su mérito, es indudable), sino en poner en común la información diversa existente en bases de datos de distinto origen.

  2. Enhorabuena. Magnífico y esclarecedor post. Yo no creo que big data sea un bluf, aunque seguramente algo se ha exagerado. Abandonados los sueños mecanicistas cada día es más evidente que no hay empirismo sin estadística.

    • Gracias Manuel, totalmente de acuerdo. El tiempo filtrará lo que el Big Data de verdad puede aportar, pero en cualquier caso la estadística -el tratamiento de muchos datos y muy diversos en este caso-, seguirá siendo una de las claves del asunto. ¡Muchas gracias por el comentario!

    • Un problema está en el equilibrio que habrá que encontrar entre la ‘desnostada’ medicina basada en la evidencia y la medicina personalizada (que es mecanicista. ruta diana bloqueada por un sustrato).
      el manejo poblacional de datos es algo que no se podrá dejar de lado nunca (je, je vease el modelado matematico en la psicohistoria de Isaac Asimov y sus novelas de la Fundación).
      ‘Big Data’ se nos presenta ya en la metabolomica
      (http://es.wikipedia.org/wiki/Metabol%C3%B3mica)
      donde, ejemplo: más de 100.000 metabolitos, de un paciente podrian se analizados para ‘entresacar’ los que realmente pudieran decir, tanto predicción de respuesta a ttos, pronósticos de supervivencias, detección de recidivas. Todo analizando una extracción de sangre del paciente.
      multiplica ese 10^n por una población más o menos extensa de otros 10^m y ya tenemos BIG DATA.

  3. ¡Apasionante, una gozada de post, en el tema y en la forma de abordarlo! La valoración de un enfermo es, desde mi punto de vista, un ejemplo claro con múltiples datos de información a recopilar y analizar. El famoso ojo clínico que desarrollan algunos médicos con la experiencia no es sino una habilidad especial en la recogida selectiva de datos y su análisis, de la misma manera que un gran maestro de ajedrez intuye la jugada perfecta con una simple mirada a la posición de las piezas en el tablero. Sería maravilloso tener herramientas que sistematicen esa habilidad para que desde residentes los médicos podamos ofrecer lo mejor en cada caso particular.

    • Hola Víctor,
      Muchísimas gracias por tu comentario. Yo no soy médico, pero al preparar este post tuve la oportunidad de ponerme en vuestro lugar y de imaginarme lo difícil que tiene que ser gestionar tantas fuentes de información, y tan diversas. Seguramente en pocos años dispondréis de herramientas que os ayuden a decidir mejor, no obstante estoy bastante segura de que el ojo clínico seguirá siendo una habilidad esencial de vuestro oficio…

  4. Pingback: Medicina | Annotary·

  5. Hola,
    Como dice el artículo del FT, existen muchos problemas relacionados con el famoso «Big Data» y es importante no dejarse llevar por la moda o creer que va a resolver un montón de problemas que se resumen en uno solo: Big Data no va a pensar por nosotros, eso lo vamos a tener que seguir haciendo.
    Mi otro comentario es sobre un artículo relacionado con esto que leí hace unos meses, que se refería a un famoso artículo de Microsoft: «Nobody Ever Got Fired For Buying a Cluster», que viene a decir que la mayor parte de análisis que nos decimos a nosotros mismos que son Big Data son más bien Small Data, del orden de los 100GB y perfectamente manejables por un solo ordenador más o menos potente. En medicina manejamos cantidades brutales de datos… que no se analizan, porque no estamos todavía al nivel de poder meter todos los TACs de todos los pacientes de un hospital en «la máquina de hacer chorizos» y que nos salga un chorizo que nos diga algo con sentido. En el artículo se habla de conseguir datos de edad, altura, peso, historia clínica y, bueno, ADN, pero hasta que se pueda hacer una base de datos a nivel Big Data de pacientes y sus ADN (que no tenga un error de selección enorme, ya que obviamente el grupo de gente cuyo ADN se está analizando hoy por hoy es todo menos representativo de nada que no sea «el 1%») va a pasar un tiempo. Hasta entonces, buscar interoperabilidad, formas de tratar los datos de diversas instituciones y resolver los problemas de privacidad que suponen. Y, sobre todo, seguir pensando.

    Muy interesante, bonito tema.

    • Hola Jorge,

      Muchas gracias por tu comentario, estoy de acuerdo en muchas de las cosas que mencionas, y mencionas muchas. Haces referencia a que el Big Data es una moda y no debemos dejarnos llevar por sus grandes promesas, y es así, pero yo lo que creo que lo importante es el camino que nos marca. Hoy día el conocimiento está distribuido (véase este link: http://t.co/VjallawIWY), es difícil integrar toda la evidencia científica que se genera, y está también el reto de integrar todos los datos relevantes.

      Como tú bien dices, el ADN ahora mismo no se tendría para todos los pacientes, seguramente aún no se puede extraer todo el potencial que tiene, aunque ya se han hecho grandes avances. Lo que aquí se añade es la posibilidad de conectar esa información de los pacientes con otras variables de tratamiento, etc, para aprender de combinaciones que ahora mismo son desconocidas y resolver problemas como por ejemplo los de la efectividad comparativa de los tratamientos, cada vez más difíciles de abordar desde la perspectiva tradicional de los ensayos clínicos.

  6. es un post apasionante.
    la capacidad de un cerebro humano para evaluar datos y tomar decisiones ha sido hasta hace una decada ‘aceptable’ porque se manejaban datos ‘clinicos’.
    El crecimiento ‘exponencial’ de los datos actuales basados en genómica, proteinómica, transcripcionales, metabolómica y todas las ‘ómicas’ que salgan no podrán (¡ni debería intentarse!, algún insensato saldría) ser manejados por la corteza cerebral de un cientifico.
    Creo que desde hace tiempo que la ‘Inteligencia Artificial’ de las matematicas intentan manejar esos datos (desde redes neuronales como ‘algoritmos’ para la toma de decisiones hasta la inteligencia del enjambre http://en.wikipedia.org/wiki/Swarm_intelligence).

    con los datos modelados al final seguirá siendo el medico el que tendrá que:
    1º entenderlos el primero
    2º. traducirlo y adecuarlo a un lenguaje para que su paciente lo entienda
    3º tomar la decisión optima para el paciente que incluirá su escala de valores (del paciente).
    4º registrar los resultados para ‘seguir alimentando’ a la ‘maquina’.
    5º vuelta a empezar
    .»…Anduvo, anduvo, anduvo. Le vio la luz del día,
    le vio la tarde pálida, le vio la noche fría,
    y siempre el tronco de árbol a cuestas del titán»
    Caupolicán: Rubén Darío

    • Hola Amadeo,

      Muchas gracias por tu comentario, ¡con poema de Rubén Darío incluido! Esto le da mucho caché al asunto.

      Me ha gustado tu mención de la inteligencia artificial. A este respecto, quisiera matizar que el proceso de extracción de modelos matemáticos a partir de datos es una tarea en la cual es crítica la participación de expertos en la materia (en este caso, médicos, radiofísicos…). Para extraer un modelo no vale procesar cualquier base de datos ‘a lo bestia’, esperando que el resultado salga solos, sólo porque tenemos algoritmos sofisticados. Se trata de que los expertos identifiquen qué tipo de variables predictoras y qué tipo de outcomes hay que introducir, para poder preparar los datos con las variables y filtros adecuados. Sólo procediendo sobre unos datos debidamente preparados (y ello suele llevar la mayor parte del tiempo disponible) tendremos posibilidades de sacar un conocimiento relevante de los datos. Después, como tú bien dices, los modelos requieren un mantenimiento y su validación continua, y también aquí será crítica la participación de los expertos en la materia.

      Ya que nos hemos puesto poéticos me viene a la mente un poema de C. Kavafis, «Itaca», que creo encaja a la perfección. Copio el primer párrafo (es un poco largo), podéis seguir leyendo aquí: http://www.materialdelectura.unam.mx/images/stories/pdf5/cavafis.pdf

      «Cuando emprendas el viaje hacia Itaca,
      ruega que tu camino sea largo
      y rico en aventuras y descubrimientos.
      No temas a lestrigones, a cíclopes o al fiero
      Poseidón;
      no los encontrarás en tu camino
      si mantienes en alto tu ideal,
      si tu cuerpo y alma se conservan puros.
      Nunca verás los lestrigones, los cíclopes o a
      Poseidón,
      si de ti no provienen,
      si tu alma no los imagina.
      (…)»

  7. Fascinante el artículo, yo no soy un experto en la materia pero me he enganchado desde el principio. Muy didáctico y me ha servido para aprender un montón.
    Ahora mismo lo reenvío a mis colegas que seguro les encanta. Felicidades, es muy completo de verdad!

    Que pases un buen día :)
    Juan.

  8. Hola Juan,

    Muchísimas gracias por tu comentario y perdona que no haya podido responderte hasta ahora. Me alegro de que el artículo te haya gustado y te agradezco también que lo difundas entre tus compañeros.

    Ciertamente, el tema da mucho de sí. El Big Data en medicina actualmente parece más una promesa que una realidad. Pero creo que se están desarrollando tecnologías e infraestructuras que apuntan en la dirección correcta.

    Gracias de nuevo, y un saludo.

Deja una respuesta

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Salir /  Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Salir /  Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Salir /  Cambiar )

Conectando a %s

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.