9‎ > ‎s‎ > ‎

f

Истоки "больших данных": Этимологический Детектив

Стив Лор
1 февраля 2013 9:10 утра 1 февраля 2013 9:10 утра Фото Кредитная Ллойд Миллер для The New York Times

Слова и фразы являются основными строительными блоками языка и культуры, сколько генов и клетки в биологии жизни. И слова, как мы выражаем идеи, так прослеживая их происхождение, развитие и распространение не только академические достижения, но окно в интеллектуальной эволюции общества.

Цифровые технологии меняется и, как слова и идеи создаются и размножаться, и как они изучаются. Только в прошлом месяце, например, Библиотека Конгресса заявила, что ее архив общественных сообщений Twitter достигло 170 миллиардов твитов и растет, примерно на 500 миллионов твитов в день.

Библиотека Конгресса архива, в результате сделки, заключенной с Twitter в 2010 году, еще не открыт для исследователей. Но планируется, что он скоро будет. В белой бумаге, библиотека сказал, что социальные медиа обещает быть богатым ресурсом, который предоставляет "более полную картину сегодняшних культурных норм, диалога, тенденций и событий, чтобы сообщить стипендию, законодательный процесс, новые авторские работы, образования и другие цели ».

Новые цифровые формы общения - веб-сайты, блоги, чириканье - часто очень отличается от традиционных источников для изучения слов, таких как книги, информационные статьи и академических журналах.

"Это почти как устной речи вместо редактируемого текста", сказал Фред Р. Шапиро, редактор "Йельского Книги цитат" и ассоциированного библиотекаря в школе права Йельского. "Это путь в будущее."

В непослушные цифровые данные в Интернете является большим ингредиент в то, что сейчас называется "Big Data". И, как выясняется, термин Big Data, кажется, наиболее точно проследить, чтобы не ссылок в новостных или журнальных архивов, но к цифровому артефакты теперь размещены на технических веб-сайтов, соответственно достаточно.

Для нашей скромной сказке слова слежки: В августе прошлого года я написал колонку воскресенье приблизительно в 2012 будучи прорыв года для Больших Данных, как идея, на рынке, и как термин.

В то время, я сделал некоторые отчетность по корням термина, и я попросил г-на Шапиро из Йельского копаться в нем. Он рыскал баз данных и придумал несколько ссылок, в том числе в пресс-релизах для анонсы новых продуктов и одной интригующей использования этого термина в настоящее время-известного автора (об этом позже).

Но г-н Шапиро не мог найти ничего как четкий и окончательный, как он сделал для меня лет назад, когда я спросил его, чтобы попытаться найти первое упоминание о слове «программного обеспечения» как термин вычислительной. Это было в 1958 году, в своей статье в "The Американского математического Ежемесячно», написанной Джоном Тьюки, математик Принстонского.

Так, без убедительного ответа, я не писал о происхождении термина больших данных в этом столбце воскресенье. Но потом, я слышал от людей, которые имели идеи по этому вопросу.

Фрэнсис X. Diebold, экономист из Университета штата Пенсильвания, связался и даже написал статью, под названием мягко язык-в-щеку, "я ввел термин« Big Data »Я не думал об экономике как питательной средой на срок, но это не является необоснованным. Некоторые из статистических и алгоритмических методов в настоящее время в наборе инструментов больших данных проследить свое наследие в экономическом моделировании и Уолл-стрит.

Г-н Diebold заявил о себе на основе своей статье, "Динамический фактор Big Data моделей макроэкономического измерения и прогнозирования», представленной в 2000 году и опубликованной в 2003 году экономический моделирование документ был первый учебный ссылка обнаружено больших данных, согласно исследованиям Марко Pospiech, Ph. D. кандидат в Техническом университете Фрайберг в Германии.

К тому времени я слышал от Дугласа Laney, ветеран аналитиком в Gartner. Его отец сказал термина Big Data вполне может быть энциклопедической статье, который был руководитель исследовательских работ в Silicon Graphics в 1990-х годах.

Я ответил г-Diebold, что я думал, от того, что я видел, он, вероятно, было много конкуренции. И я прошел вдоль переписки по электронной почте я получил. Г-н Diebold гораздо сказал спасибо, и добавил, что у него был университет Пенсильвании исследовательский библиотекаря глядя в него, а также.

Термин Big Data является таким общим, что охота за его происхождения не только усилия, чтобы найти ранние упоминания об этих двух слов используются вместе. Вместо этого, цель была раннее использование термина, который предполагает свой нынешний оттенок - то есть, не просто много данных, но различные типы данных, обрабатываемых по-новому.

Кредит, как мне показалось, должны идти к тому, кто знал о контексте вычислительной. Именно поэтому, на мой взгляд, очень интригующий ссылка, обнаружен Йельского исследователя г-н Шапиро, не имеет права.

В 1989 году Эрик Ларсон, позже автор бестселлеров, включая "The Devil в Белый город" и "В саду зверей", написал статью для журнала Harper `s, который был переиздан в The Washington Post. Статья начинается с автором интересно, как все, что нежелательная почта приходит в его почтовом ящике и переходит к прямым маркетинга. В статье эти два предложения: "Хранители больших данных говорят, что они делают это на благо потребителя. Но данные есть способ используется для других не по назначению ".

Предвидения действительно. Но нет, я не думаю, что, использование термина, который предполагает намек на технологии, которую мы называем Big Data сегодня.

Так я впервые посмотрел на то, как он использовал термин, мне понравилось г-энциклопедической статье как создатель Больших Данных. В 1990-х годах, Silicon Graphics был гигант компьютерной графики, используемых для специальных эффектов в Голливуде и для видеонаблюдения на разведывательные службы. Это был жаркий компания в долине, что имел дело с новыми видами данных, и многое из него.

Там нет научных работ в поддержку присвоения г-ну энциклопедической статье. Вместо этого, он дал сотни переговоров в небольших группах в средних и поздних 1990-х годов, чтобы объяснить концепцию и, конечно, шаг Silicon Graphics продукты. Дело г-на энциклопедической статье на веб-сайтах технических и профессиональных организаций, таких как Usenix. Там, некоторые из своих слайдов презентации от этих переговоров, размещенные, в том числе "больших данных и следующая волна Infrastress" в 1998 году.

Для меня, ищу истоков больших данных был вопрос личного любопытства, то, чтобы вернуться к когда-нибудь и писать на выходные.

Когда я позвонил г-энциклопедической статье недавно, он сказал, что Big Data такой простой термин, это не так много претензий к славе. Его роль, если таковые имеются, по его словам, была популяризация термина в части высокотехнологичного сообщества в 1990-е годы. "Я был с помощью одной этикетки для целого ряда вопросов, и я хотел простейший, кратчайший фразу, чтобы передать, что границы вычисления продолжаем двигаться вперед", сказал г-н энциклопедической статье, консультант технологических компаний и попечителем Музей компьютерной истории в Вид на горы, штат Калифорния.

В Университете Пенсильвании, г-н Diebold продолжал смотреть в предмет, а также. Его последующие запросы, он сказал, оказалось "путешествие увеличения смирение." Он написал на два документа, начиная с первого.

Его последняя документе делается вывод: "Термин Big Data, которая охватывает информатику и статистику / эконометрика, вероятно, произошло от обеда столов бесед в Silicon Graphics в середине 1990-х, в которых энциклопедической статье видное место."

Прослеживая истоки точек больших данных для эволюции в области этимологии, по словам г-Шапиро. Йельский исследователь начал слово охоту почти 35 лет назад, будучи студентом юридического факультета Гарвардского университета, углубившись через библиотечные хранилища. Он был одним из первых пользователей баз данных юридических документов, информационные статьи и другие документы, в компьютеризированных архивах.

Web, г-н Шапиро сказал, открывает новую лингвистическую местности. "То, что вы видите, это брак структурированных баз данных и романа, менее структурированных материалов," сказал он. "Он может быть мощным инструментом, чтобы увидеть гораздо больше."

#auto

Subpages (1): c
Comments