7‎ > ‎y‎ > ‎

x

Наука большой данные

Проект грипп от Google Показывает недостатков больших данных

  • Брайан Уолш @ bryanrwalsh
13 марта 2014 Тенденции Google Flu Жорж GOBET / AFP / Getty Images

Новое исследование показывает, что использование больших данных предсказать будущее не так просто, как кажется и это вызывает вопросы о том, как интернет-компании собирать и использовать информацию

Большой данные: как умные слова идут, это неизбежно. Гигантские корпорации, такие как SAS и IBM рекламируют свои большие анализа данных, в то время как эксперты обещают, что большая способность данных нашего растет в геометрической прогрессии для сбора и анализа информации о чем-либо вообще-превратит все от бизнеса до спорта в кулинарии. Большое данных не было-не удивительно-одна из главных тем, выходящих из SXSW Interactive конференции в этом месяце. Это неизбежно.

Одним из наиболее заметных примеров больших данных в действии данные агрегации инструмент Google, Google Flu Trends (GFT). Программа предназначена для обеспечения мониторинга в режиме реального времени случаев гриппа по всему миру на основе поисков Google, которые соответствуют условия для вирусной активности, связанных с. Вот как Google объясняет это:

Мы нашли тесную связь между тем, как много людей поиск по темам связанных с гриппом и сколько людей на самом деле есть симптомы гриппа. Конечно, не каждый человек, который ищет "грипп" на самом деле болен, но закономерность, когда все гриппа, связанных поисковые запросы суммируются. Мы сравнили наши счетчики запросов с традиционными системами наблюдения гриппа и обнаружили, что многие поисковые запросы, как правило, популярны именно тогда, когда сезон гриппа происходит. Подсчитав, как часто мы видим эти поисковые запросы, мы можем оценить, сколько грипп циркулирует в различных странах и регионах по всему миру.

Похоже, совершенного использования Google поисках 500 миллионов плюс, сделанных каждый день. Там причина GFT стала символом больших данных в действии, в книгах, как Кеннет Cukier и больших данных Виктора Майер-Schönberger в: революции, которые превратят, как мы живем, работать и думать. Но есть только одна проблема: как новая статья в Science показывает, когда вы сравниваете свои результаты в реальном мире, GFT действительно не работает.

GFT переоценили распространенность гриппа в 2012-2013 и 2011-2012 сезонов более чем на 50%. С августа 2011 года по сентябрь 2013 года, GFT над предсказанный распространенность гриппа в 100 из 108 недель. Во время пика сезона гриппа прошлой зимой, GFT было бы заставить нас поверить, что 11% США был грипп, почти в два раза числа CDC на 6%. Если вы хотели текущую распространенность гриппа проект, вы бы сделали намного лучше основывать ваши модели с 3-недельных данных о случаях из CDC, чем вы были бы с использованием сложных большие методы данных GFT в. "Это Дьюи побеждает Трумэна момент для больших данных", говорит Дэвид Lazer, профессор компьютерных наук и политики Северо-Восточного университета и один из авторов научного статье.

Так же, как редакторы Chicago Tribune полагал, что это мог предсказать победителя близко 1948 Президентские выборы-они были не правы-Google считали, что сами по себе его большие методы данные были способны производить более точную картину реального времени тенденций гриппа, чем старые методы предсказания от прошлых данных. Это одна из форм "автоматизированной высокомерия", или большой гордости данных, и это можно увидеть во многих шумиха вокруг больших данных сегодня. Просто потому, что такие компании, как Google может накопить поразительное количество информации о мире, не означает, что они всегда способны обрабатывать эту информацию, чтобы произвести точную картину того, что происходит, особенно если оказывается, что они собираем неправильную информацию. Мало того, что условия поиска определена по GFT часто не отражают случаи фактического болезнь-таким образом неоднократно переоценить, насколько болен американская общественность была-это также полностью пропустил неожиданные события, как несезонной 2009 H1N1-A пандемии гриппа. "Ряд ассоциаций в модели были действительно проблематично", говорит Lazer. "Это была обречена на неудачу."

Также не поможет, что GFT зависит от сверхсекретного и постоянно меняется алгоритм поиска Google. Google изменяет свой алгоритм поиска, чтобы обеспечить более точные результаты, но и увеличить доходы от рекламы. Рекомендуемые запросы, основанные на том, что другие пользователи искали, могу скинуть результаты для тенденций гриппа. В то время как GFT предполагает, что относительный объем поиска на разные сроки гриппа основана в реальности-больше из нас заболели, тем более из нас будет искать для подробной информации о гриппе, как мы сопеть выше наша клавиатуры-ведь сама Google меняет поисковый поведение через это постоянно смещается algorithim. Если данные не отражают мир, как он может предсказать, что произойдет?

GFT и другие крупные методы данные могут быть полезны, но только если они в паре с тем, что наука исследователи называют "маленький данных"-традиционные формы сбора информации. Положите их вместе, и вы можете получить отличную модель мира, как это на самом деле. Конечно, если большая данные на самом деле просто один из инструментов из многих, не путь универсальный для всеведение, что бы проколоть шумиха только немного. Вы не получите SXSW панель с такой скромностью.

Большую озабоченность, однако, является то, что большая часть этой информации вследствие собрались в "больших данных"-и формул, используемых для анализа он-управляется частными компаниями, которые могут быть положительно непрозрачным. Google никогда не сделал условия поиска, используемые в GFT общественности, и нет никакого способа для исследователей повторить, как GFT работает. Там в Google Коррелировать, которая позволяет любому найти поиска модели, которые претендует на карту реальные тенденции, но как наука исследователи криво внимание: "Нажав на ссылку под названием" соответствует шаблону фактического actvity гриппа (это, как мы построили Google Flu Trends !) "не будет, по иронии судьбы, производить репликацию GFT поисковых терминов.« Даже в академических работах по GFT письменного исследователями Google, нет ясно контактная информация, кроме общего Google адрес электронной почты. (Научных работ почти всегда содержат прямую контактную информацию для ведущих авторов.)

В лучшем случае, наука является открытым, кооператив и кумулятивный усилий. Если такие компании, как Google сохранить свои большие данные к себе, они упустить шанс улучшить свои модели, и сделать большие данные достойны обману. "Для того, чтобы использовать научно-исследовательского сообщества, они должны быть более прозрачными", говорит Lazer. "Модели для сотрудничества вокруг больших данных не были построены." Это достаточно страшно подумать, что частные компании собираются бесконечное количество данных на нас. Это было бы еще хуже, если выводы они достигают от этих данных даже не правильно.

#auto

Comments