Seminar Series hostily koncem dubna profesora Rolanda Sturma z americké RAND Corporation. Ekonom, který se už tři desítky let věnuje především práci s velkými daty, mluvil v rozhovoru pro em.muni.cz o své práci i o aktuální situaci v americké vědě.
Jste odborníkem na statistiku a ekonometrii, proč jste si vybral právě tyto obory?
Statistika se mi líbila už na střední škole. Nebyl jsem příliš dobrý v matematice, ale statistika, k níž jsme se dostali na konci studia, mě zaujala. Od té doby mě baví a baví mě také práce s daty, protože nám pomáhá zjišťovat věci o reálném světě.
Jak nám práce s daty pomáhá v pochopení světa?
Statistika je pro lidi velmi důležitý nástroj, protože kolem nás existuje obrovské množství dat, které nedokážeme zpracovat jen běžnou lidskou myslí. A právě statistika nám umožňuje z velkých dat získávat informace, které chceme a potřebujeme. Je to skvělý nástroj, kterému se věnuji už půl století.
Co vlastně jsou velká data a jsou všechna relevantní pro výzkumné účely?
Definice „velkých dat“ se v průběhu let mění. Co bylo dříve považováno za velká data, například provozní záznamy jaderných elektráren, by dnes bylo jen nepatrné množství informací. Co se týče relevance, mám rád data generovaná pro konkrétní účely, která obsahují reálné informace. Patří sem například zmíněné provozní záznamy, nákupy potravin v supermarketech nebo zdravotnické záznamy. Data ze sociálních sítí nepovažuji za příliš užitečná, přestože jsou snadno dostupná. Například před více než deseti lety vznikl nápad sledovat chřipku pozorováním toho, kdy lidé vyhledávají příznaky této nemoci. Nápad velmi rychle selhal, protože to nejsou reálná data – vyhledávání informací není totéž jako lékařská zpráva nebo výsledek testu.
Jak technologický pokrok ovlivnil vaši schopnost pracovat s daty?
Výrazně. Počítače, které jsem měl k dispozici před třiceti lety, nedokázaly zpracovat takové množství dat. Co dnes dokážeme na notebooku, dříve vyžadovalo superpočítač. Zlepšení v ukládání dat a rychlosti zpracování je ohromné. Samozřejmě pro složitější modely je stále nutné použít větší počítače.
Jaké jsou hlavní výzvy spojené s velkými daty vhodnými pro výzkumné účely?
Kromě toho, že řada dat se vůbec nesbírá, tak je to přístup k datům. Ten je velmi obtížný všude na světě. Často data existují třeba na úrovni státu, ale je složité se k nim dostat, vyžaduje to hodně práce, navazování kontaktů, přesvědčování. Ačkoliv nejde často o exaktní data z laboratoře, jde o lepší kvalitu dat, než by poskytly dotazníky či rozhovory s malým počtem respondentů. Existují také data primárně shromažďovaná pro obchodní potřeby společností, a ta je rovněž těžké získat. Výzkumníci by se proto měli snažit získávat a budovat vlastní datové zdroje.
Na jakých výzkumech s využitím velkých dat jste v posledních letech pracoval?
Jedním z projektů byla například analýza miliard nákupů v 500 supermarketech v Jižní Africe. Byla to práce pro pojišťovnu poskytující slevy na zdravé potraviny. V současnosti pak pracuji na predikci zdravotních komplikací způsobených diabetem. Několik let sledujeme návštěvy lékařů a výsledky testů u 170 000 lidí.
Otázkám z oblasti zdraví se hodně věnujete, co vás k tomu přivedlo?
Můj zájem o veřejné zdraví vychází z obecného zájmu poznávat svět. Nicméně nevybral jsem si to nějak cíleně, prostě když jsem nastoupil do RAND Corporation, převzal jsem projekty odcházejících ekonomů, a ty se týkaly zdraví. Byla to ale příležitost pracovat na něčem zajímavém, a tak jsem nyní považován spíše za ekonoma ve zdravotnictví. Jsem ale šťastný, když mohu studovat cokoliv, kde získám kvalitní data, z nichž se můžu něco nového dozvědět.
Kromě práce s velkými daty se věnujete také mikrosimulacím. Můžete přiblížit tuto metodu?
Mikrosimulace jsou způsob, jak dělat ekonomické predikce a prognózy a vznikly už v 50. letech. Modelují chování jednotlivců – lidí, rodin, firem – a interakce mezi nimi. O vztazích mezi těmito jednotkami totiž můžeme zjistit mnohem více informací, ty pak sumarizovat a vytvořit agregované údaje, které pomohou modelovat vývojové trendy v ekonomice. Tato metoda je ale výpočetně velmi náročná, takže až s technologickým pokrokem se z ní stává velmi užitečný nástroj. Příkladem jejího využití je třeba odhad vlivu stárnutí a s ním spojených nemocí na situaci na trhu práce a předpověď očekávaných celkových nákladů na zdravotní péči.
Mají vaše výzkumy nějaký přímý dopad například na politiku?
Jako vědci můžeme šířit výsledky naších výzkumů například formou brífinků s odpovědnými osobami, nebo můžeme pořádat semináře pro zákonodárce. Ale moje práce se šíří většinou jen publikováním a spoluprací s novináři. A musím říct, že některé z mých nejcitovanějších prací dokonce vznikly na základě dotazů od novinářů.
Když mluvíme o politice, jak hodnotíte současnou situaci v americké vědě v souvislosti s kroky nové vlády a prezidenta?
Panuje v ní hodně nejistoty a frustrace ohledně budoucnosti. Je velmi těžké posoudit dlouhodobé dopady konkrétních opatření, protože se situace mění ze dne na den. Co se mě osobně týká, mám třeba grant, v němž aktuálně nemám financování, a práce se tak zdržuje. Pravděpodobně to projekt nezničí, ale jistě ho to zpozdí. Jak moc, to neumím říci. Prostě v americké vědě je v současnosti klíčovým slovem nejistota.
Došlo podle vás k nějakému trvalému poškození vědy a výzkumu v USA?
Existují obory, na něž má současná situace zcela jistě negativní dopad. Z některých organizací například odcházejí experti a tento „odliv mozků“ bude mít dlouhotrvající následky. Věda v USA samozřejmě není zničená, poškozená však ano. Ale jak velké či významné ty škody jsou, to se nedá teď určit.