Big data y la medición de la inflación
El Catedrático Roberto Rigobon fue invitado por la Fundación Rafael del Pino para pronunciar una conferencia sobre el fenómeno big data titulada “Indicadores económicos y nuevas tecnologías: retos para el futuro”.
Con el propósito de explicar “qué cosas uno debe entender para ser un buen consumidor de big data”, Rigobon explicó las potencialidades y limitaciones de este fenómeno, así como los trabajos que está llevando a cabo desde el MIT para conseguir estadísticas de inflación en el mundo mejores que las oficiales, a través de la medición diaria del fenómeno inflacionista. La metodología utilizada obtiene la información de los precios de los distribuidores directamente a través sus webs. Entre otros fines, los datos obtenidos permiten mejorar el conocimiento del comportamiento de los agentes económicos y predecir la evolución de las variables macroeconómicas.
Aunque recientemente ha centrado su atención en el fenómeno big data, en concreto en su aplicación al análisis económico, las principales áreas de investigación del profesor son la economía internacional, la economía monetaria y la economía del desarrollo. Rigobon desarrolla su actividad en las más relevantes instituciones académicas, como son el National Bureau of Economic Research y el Census Bureau’s Scientific Advisory Committee, y ha recibido numerosos honores y galardones a lo largo de su prolífica carrera académica e investigadora.
Hijo de madre española y padre argentino, y con doble nacionalidad –venezolana y estadounidense–, Rigobon obtuvo su doctorado en Economía en el MIT en el año 1997, es MBA por el IESA y licenciado en Ingeniería Eléctrica por la Universidad Simón Bolívar.
EXECUTIVE EXCELLENCE: Hablemos de educación, ¿cuáles son los principales desafíos a los que se enfrentan los sistemas educativos?
ROBERTO RIGOBON: Creo que las nuevas tecnologías son un reto y una oportunidad muy grande para la educación. Hoy todo el mundo tiene un teléfono, independientemente del nivel de ingresos, y ya hay empresas que lo utilizan para entrenar a su fuerza laboral de forma remota, mediante juegos, incentivando al ganador. Por eso considero que el término entrenamiento ha cambiado brutalmente y existen grandes oportunidades en este sentido.
La Universidad también debe repensar cómo vamos a educar, porque muchas de las cosas que nosotros enseñamos se pueden aprender online. La física mecánica es algo que no ha cambiado desde Newton, por lo tanto no tiene sentido pagar a la Universidad para aprender algo que se podría aprender de otra forma.
La educación remota es aburrida, hay muy poca interacción; no funciona dar clase a 2.000 estudiantes que no saben quiénes son entre sí y donde las preguntas son infinitas. Sí puede ser efectivo para conferencias o tareas más específicas, pero en términos de educación necesitas estar más organizado, por eso creo que lo verdaderamente importante será la educación online, que cambiará en facetas. Primero lo hará la educación para ejecutivos. La idea es que se eduquen de manera online y luego, después de la lectura de textos e informaciones, tener una discusión del caso más profunda, donde el contacto humano ya sea esencial.
Hay muy pocas universidades que están pensando en esto. Hace 20 años, a un tipo en la escuela de Arquitectura de MIT se le ocurrió filmarse y ponerlo en la web, y eso no ha cambiado demasiado desde entonces. Pero la educación online no es grabarme a mí mismo dando una clase. En MIT formo parte de un Comité que está reflexionando sobre este asunto, y me pareció fascinante invitar a productores de televisión para contarles lo que queríamos explicar, y que luego ellos nos dijeran cómo comunicarlo mejor. Me pasé tres días educándoles primero en lo yo quería decir, y luego iniciaron el programa. De hecho, en nuestras conversaciones no hablamos de clases, sino de episodios, porque para ellos esto es una producción de televisión.
Es extraordinario comprobar que muchas cosas que los profesores explicamos se pueden decir mejor con imágenes, pero nosotros no estamos diseñados para hacerlo. Algo así lo consigue una persona que tiene habilidades diferentes. Yo sé de matemáticas, pero eso no me garantiza que sepa explicar el concepto de una manera visual mejor. Estas interacciones han sido muy útiles. De hecho, en el próximo curso sobre big data, las clases serán mías, en el sentido de que yo he trabajado en el contenido, pero no en cómo el mensaje se va a transmitir. En algunos casos, se utilizarán animaciones, en otros actores reales, etc.
E.E.: La inflación es un tema candente en la Unión Europea. Usted está en el negocio de la medición, no en el de la predicción, pero ¿de qué manera los sistemas de cálculo que desarrolla están revolucionando el sector y ayudan a dar una respuesta anticipada?
R.R.: Mi objetivo es cambiar las oficinas de estadística, y esto requiere de tres aspectos. Primero, han de poner en marcha un piloto. Yo ofrezco una forma de calcular el desempleo o la inflación, una metodología diferente que va a recoger y tratar la data de modo distinto. Por lo tanto, hay que chequear, deben correr un piloto y convencerse de que funciona. Esto ya está ocurriendo en muchas oficinas de estadística, fundamentalmente en el sector de productos electrónicos, porque han visto el beneficio.
El segundo paso es que aprendan a hacerlo. El Banco Central está muy acostumbrado a que otra persona o institución haga estadística, de modo que él es solo un consumidor. Los bancos centrales usan lo que nosotros producimos para tratar de estimar cuál es la inflación a dos o tres meses y para sus decisiones, pero la oficina de estadística desde el punto de vista legal no puede hacerlo. Independientemente de si usted considera que yo manipulo o no los datos, no es posible depender de alguien que no esté regido por un marco regulatorio.
Las oficinas de Australia y de Estados Unidos ya están aprendiendo nuestra metodología, porque así nos lo pidieron a mi compañero Alberto Cavallo y a mí. Tenemos que enseñar cómo trabajar la data, y esto implica un cambio de mentalidad brutal. Típicamente, cuando tienes datos tan grades, se mandan para procesar en la computadora, pero eso no puede ocurrir, porque tanta data no se puede transmitir. Hay que hacer operaciones y decidir. Eso significa que la oficina de estadística va a tener que hacer operaciones en todo el mundo o fuera de la oficina, traer esos datos estadísticos que resumen la data, y enviarlos a Washington.
En tercer lugar, está el aspecto legal. Hay ciertas leyes que permiten hacer algunas cosas, pero prohíben otras; así que será necesario abordar cambios.
En resumen, lo primero es convertirse, después cambiar la mentalidad y finalmente hacer el cambio legal del marco regulatorio. En realidad, ya está sucediendo. Yo trabajo muy cerca del censo de los Estados Unidos y me quedé impresionado cuando en nuestra última reunión de principios de octubre comprobé los avances con respecto a lo que habíamos hablado con ellos dos años antes, al presentarles una estrategia para cambiar el censo. Les explicamos cómo se podía hacer la seguridad para poder manejar los datos y me ha parecido increíble lo que han logrado en este tiempo.
Ellos tienen la ventaja de tener total libertad para decidir, en el caso del censo, la recogida de la información de forma diferente. No van a cambiar la estadística, es decir, todavía te van a preguntar dónde naciste, cuánta gente vive en tu casa, etc., las preguntas siguen siendo las mismas, pero comprendieron la ventajas de nuestra alternativa. Por ejemplo, uno de los problemas más importantes de una oficina del censo es saber a qué direcciones ir a buscar información. El escollo está en que hay que validarlas. Por ejemplo, en la Costa Brava española existen montones de casas que realmente no tienen que ser censadas, porque pertenecen a alemanes y británicos. La cuestión es si enviar o no el documento del censo. Si lo haces, porque la dirección es real y existe una casa, y la persona no corresponde, el censo debe ir a visitarlo. Y eso tiene un coste brutal.
A nosotros se nos ocurrió revisar las facturas eléctricas, porque si son casas de vacaciones, la factura eléctrica subirá en julio y agosto, y será cero durante el resto del año. Para que se haga una idea, en Estados Unidos hay 57 millones de direcciones que tienen que ser visitadas, de las cuales entre 17 y 20 millones son segunda residencia o ni siquiera existen ya, porque eran un motorhome que se movió. Simplemente, si tuviesen acceso a la información de la industria eléctrica, tratada con plena confidencialidad, y le preguntasen si existe algún delivery en todos los meses, no sería necesario el desplazamiento. Es un ejemplo muy concreto de algo que puede simplificar el trabajo. Todavía no se ha hecho, pero ya estamos discutiéndolo. Se trata de pedir al sector privado que haga la relación de las direcciones válidas y las de vacaciones, solicitar a empresas privadas de mensajería cuál es la entrega al año por mes y cuál es la distribución de la tarifa eléctrica. No se va a demandar la información privada de la persona, sino una información estadística que permita comprobar esa dirección. Es algo muy trivial y que en principio se solicitaría cada 10 años, en función de las elecciones.
E.E.: ¿Cómo se explican las discrepancias en las inflaciones? ¿Existen sistemas de cálculo erróneos?
R.R.: La inflación online y offline son prácticamente idénticas. Si bien mes a mes existe mucha volatilidad, hay que comparar tres o cuatro meses, fundamentalmente en la ropa. La oficina de estadística en Europa recoge mucha ropa que está en venta o en liquidación, y eso produce una altísima volatilidad. Salvando estas diferencias por metodologías, en términos de grandes discrepancias en medio plazo, estas se dan fundamentalmente en Rusia y en Argentina. Diría que en Europa no se producen y en Estados Unidos la diferencia cada año es de dos o tres puntos básicos. En este caso, yo tengo más inflación que la oficina de estadística.
E.E.: Cuando hablamos de big data siempre trasluce el problema de volumen frente a representatividad. ¿Cómo se puede resolver este asunto?
R.R.: Uno de los problemas es que no hemos desarrollado personas que tengan las habilidades necesarias para manejar big data. Necesitamos a alguien que sea medio ingeniero, porque es necesario saber de computación para entender estas tecnologías; medio estadístico o econometrista, porque debe saber qué va a calcular, y medio economista o psicólogo, porque debe comprender cómo el comportamiento humano afecta a la generación de la data. Por lo tanto, precisas alguien que sepa de todo esto o un grupo de gente que se pueda comunicar y que aúne estos tres conocimientos.
Cuando el big data es asumido solo por el experto en computación, toma una ruta y maximiza un aspecto, sin necesariamente entender el otro. Siempre digo que hay una gran distancia entre la data y la información. La tecnología permite recolectar más data, pero el análisis es lo que lleva a la producción de información. Los economistas no entendemos muy bien la tecnología. Por accidente, yo soy ingeniero electrónico y puedo comprenderlo más ampliamente, pero normalmente los economistas solo detectan deficiencias en la data y en la tecnología, porque son –somos– muy puristas. Por el contrario, el ingeniero de computación, el matemático o el estadístico solo percibe virtudes. Por eso necesitamos que se comuniquen.
Me parece fundamental poder crear una carrera de análisis de data, que además tendría gran demanda, que combine un par de años de ingeniería, un par de años de economía y análisis estadístico, y una tesis haciendo big data. Creo que ahí el sistema educativo ha fallado, ni siquiera nos hemos molestado en analizar las habilidades que requeriríamos, tampoco desde el MIT.
E.E.: Mencionaba antes que hay una gran distancia entre la data y la información. ¿Hasta qué punto la tecnología ayuda a conseguir mejor información?
R.R.: Distinguiría una gran distancia entre data, información y conocimiento. La tecnología nos permite recolectar más data, eso significa que recogemos más observaciones, pero la tecnología no necesariamente nos permite encontrar mejor información.
Creo que el objetivo de todas las organizaciones, tanto privadas como públicas, es producir información, es decir, tener datas que permitan tomar acciones. Cuando esa información la usamos de forma repetida, hemos producido conocimiento dentro de la organización y podemos usarlo reiteradamente, porque forma parte de todas las decisiones.
Por ejemplo, hoy en día las computadoras nos permiten escribir palabras más rápidamente que en cualquier momento de nuestra historia, pero eso no quiere decir que produzcamos mejor literatura que hace 500 años. El hecho de que escribamos más palabras no significa que las organicemos mejor. La tecnología nos permite encontrar más data, pero en el uso de esa data, en su entendimiento, es que vamos a poder producir información.
En mi opinión, hoy tenemos la capacidad de recoger datos, pero no estamos mejor informados que hace diez años; aunque, sin embargo, acumulamos muchísimo más. El 85% de los datos que están en este momento en cualquier disco duro del mundo ha sido producido en los últimos dos o tres años, es decir, la acumulación de data es exponencial, pero todavía tenemos el gran reto de traducirla en información. Otro aspecto importante es concluir que se convierta en conocimiento, pero no soy un experto en esa área, así que me encargaré fundamentalmente de tratar la data y la información.
Yo divido la data en dos tipos: diseñada y orgánica. La primera es la que conocemos; por ejemplo, los reportes que la oficina tributaria nos obliga a rellenar de una forma determinada para declarar los impuestos o los estándares que seguimos al hacer nuestro balance de generales o nuestro estado de ganancias y pérdidas para someterlo a la Bolsa de Valores. Esta data, que está diseñada, tiene el objetivo de regular o de informar. Además, tiene una característica que la hace muy útil, porque es representativa, ya que todas las empresas que están en la Bolsa de Valores siguen las mismas normas. Pero también presenta ciertas desventajas, pues es costosa de recolectar, normalmente o es obligada por el Gobierno –y tenemos que seguir su norma– o son asociaciones industriales que deciden tener estándares industriales; es molesta para la empresa, porque rellenar los impuestos es complicado, y el acceso a esta información es muy restrictivo. Por el contrario, la gran ventaja es que tiene un objetivo, un propósito, y dado que está diseñada para cumplirlo, es una data de altísima calidad.
El segundo tipo es la orgánica, que se genera simplemente porque existimos. Hoy todos tenemos móviles, que realmente son computadoras con sensores que, incidentalmente, pueden hacer llamadas telefónicas, pero son dispositivos que miden. Cada vez más usamos tecnologías que nos miden, de modo que generamos datos de forma involuntaria.
En mi opinión, referirse a la data por el tamaño, big o small, no tiene ninguna razón, no hay ningún atributo que diga que “grande” en la data sirva para algo. La diferencia es que la data que está diseñada tiene un propósito, tiene características, su recolección es costosa y el acceso es difícil, mientras que la data orgánica puede ser igual de grande, pero está generada sin que nosotros nos demos cuenta, lo cual implica que es poco costosa.
E.E.: Esa data orgánica proporciona un volumen ingente de datos, pero ¿qué representatividad tiene?
R.R.: Destacaría tres inconvenientes. Por un lado, ocurren muchos fenómenos en los cuales la data no recoge el aspecto más importante, porque lo fundamental cuando queremos responder a una pregunta es entender el proceso mediante el cual la decisión se tomó. No importa cuántos millones de observaciones tengamos, porque esto no significa tener información más importante. Uno de los problemas que veo en big data es que muchos intentan torturarla para ver qué confiesa, pero eso no implica que la confesión sea significativa. A mucha gente se le olvida entender cuál es el proceso de decisión mediante el cual se está generando la data.
En general, los economistas, los psicólogos y los sociólogos estamos obsesionados con entender el proceso. Realmente, la data es algo secundario, lo que nosotros queremos entender es el proceso por el cual se tomó una decisión. Sin embargo, quienes trabajan en big data no siempre hablan con los economistas, ni estos con los ingenieros, porque los lenguajes de unos y otros son distintos. La persona que tiene la capacidad de entender cómo usar la data hace un análisis que estadísticamente es correcto, pero se olvida de atender cuál es el proceso. De ahí la importancia de invertir en educación y crear una carrera que tenga una parte estadística, otra económica y otra ingenieril.
La representatividad es otro problema. La gente en las redes sociales tiene miles de millones de observaciones, pero si te fijas todo ese milenio se reduce a unas pocas personas. Lo que uno aprende de esas redes sociales es muy específico, más aún cuando no somos lo suficientemente activos en Facebook como, por ejemplo, para ajustar el estatus cada día. Por lo tanto, las empresas que tomen decisiones basadas en Facebook deben comprender estas indicaciones. Lo mismo ocurre con las recomendaciones o reviews. Hay que ser conscientes de que, primero, se trata de una decisión de cada persona, y segundo, no son representativas. Sí son informativas, pero tienen limitaciones, porque no sabemos muy bien cómo se hicieron ni cuál fue la decisión que tomó esa persona. Además, se usan de forma endógena, ya que como las empresas saben que el consumidor las tiene en cuenta, invierten en ese tipo de marketing.
Por último, el hecho de que la data sea grande significa que la estimación es más precisa, pues tienes más observaciones, pero no que los sesgos sean menores. Siempre digo en mis clases de data science que la palabra clave es science. Es esencial comprender la ciencia y cómo vamos a extraer la información de los dos, conociendo sus procesos y limitaciones.
E.E.: ¿Qué proyectos están desarrollando en MIT sobre este tema?
R.R.: Uno de ellos es The Billion Prices Project, un proyecto que también es de Alberto Cavallo. En el año 2001, me planteé una pregunta muy trivial: “¿Cuál es la inflación de los pobres?”. Después de preguntar en muchas oficinas estadísticas, la mayoría no tenía ninguna respuesta. Entre 2001 y 2003, se produjo una brutal inflación en la comida en el mundo: el precio del maíz se cuadruplicó, se triplicó el de la soja, etc. Pensé que la gente pobre en Honduras, que tiene el 40% de su consumo en comida, bebidas y transporte, tendría una inflación muchísimo más alta que la que estaba calculando el Banco Central. Traté de calcular esto con las oficinas de estadística y me di cuenta de que la data que teníamos no podía responder a mi cuestión, es decir, que la mejor manera era buscar una alternativa.
Para que se haga una idea, la oficina de estadística de España recoge unos 67.000 productos al mes para calcular la inflación española, la de Estados Unidos unos 88.000, y la de Francia 124.000. La mayoría de los países desarrollados recogen unos 70.000 productos/mes, y es más que suficiente. Sin embargo, en Centroamérica, solo recogen 1.200 productos en cuatro ciudades. Se puede imaginar que probablemente uno de los indicadores más importantes de la economía como es la inflación, tenga unos problemas brutales. Además, de esos 300 productos, 40 no los encuentran mensualmente, de modo que los errores que se cometen son extraordinarios, en este caso por no tener suficientes observaciones.
Nosotros replicamos más o menos lo mismo que la oficina de estadística, pero recogemos diariamente mucha más data en más de 82 países del mundo, aunque en realidad construimos inflación en 20 de ellos.
The Billion Prices Project son 1.000 millones de precios, porque al principio del proyecto recogíamos 1.000 millones de precios de comida cada tres meses, si bien ya recogemos más de 1.000 millones de precios al día, tanto de ropa, comida, electrónica, servicios (excepto restaurantes)…, y con toda esa información construimos una inflación online.
Mi objetivo es tratar de ayudar a la oficina de estadística a cambiar y mejorar las estadísticas que calculamos; no se trata de replicar lo que hace, sino de producir una medida alternativa a la inflación. Este método presenta inconvenientes. En primer lugar, es online, con lo cual se da un problema de representatividad; por otro lado, no todos los sectores están online, lo que exige ser un poco más creativo para conseguir la data. Hay sectores donde no puedo mejorar lo que hace la oficina de estadística, como salud y educación, así que uso su información.
Si observamos los índices con los que trabajamos en MIT, vemos cómo la discrepancia en los datos de inflación de algunos países, como Argentina, es brutal. También es interesante observar cómo la inflación online se mueve mucho más rápido que la offline. Los bancos centrales usan nuestra información para entender qué le ha pasado a la inflación oficial, que es la que va a ser anunciada. La oficina de estadística trata de tener un estimado de cuál es la inflación, y la online es otro de sus estimados. En el caso de España, si comparásemos nuestra gráfica de inflación con la oficial, no hay evidencia de que la oficina de estadística española esté manipulando la data.
También estamos trabajando en dos nuevos índices. Uno de ellos es un índice de escasez que estamos produciendo para las Naciones Unidas. La intención es capturar cuál es la escasez de alimentos en los países, con la idea de medir el impacto de un desastre natural. Es decir, cuando algo así ocurre, ciertos productos de la canasta básica desaparecen: las pilas, el agua… Nosotros construimos una cesta particular para cada país. La oficina de estadística y el Banco Mundial saben que cuando estos sucesos se producen, hay escasez; y nuestro índice calcula qué tan grande es la escasez en los países.
Igualmente, estamos produciendo otro índice para el Fondo Monetario Internacional y para el Banco Mundial, que verá la luz dentro de un par de meses. Es una medida sobre la sostenibilidad de los países a través de la comparación de precios internacionales, como el Big Mac index de The Economist, pero con productos que son trazables (smartphones, televisiones inteligentes…), productos idénticos comparados internacionalmente.
Otro de mis retos es producir mejores medidas sobre comercio internacional. He estado haciendo investigaciones durante casi seis años para tratar de entender cuáles son las condiciones de los mercados laborales y mi propósito es calcular un PIB diario. Creo que existe la tecnología para poder hacerlo y, al final, me gustaría poder calcular cada día algo como la confianza o el estado anímico.
Entrevista publicada en Executive Excellence nº117 nov14.