i‎ > ‎r‎ > ‎

c

Большое дело о "большой данных" -Ваш путеводитель к тому, что, черт возьми это на самом деле означает,

Ничего себе ваш следующий ужин с этой не-BS пробоя раздражает словечко.

Ли Хатчинсон - 24 февраля 2015 8:30 вечера UTC

  • Доля
  • Чирикать
  • Google
  • Reddit
59 Вы можете увидеть тенденции, Нео? Warner Bros.

Есть три ключевых понятий, которые, если бы мы имели наш путь, будет пораженные полностью из мира: "облачного", "Интернет вещей", и "большие данные". Каждый из них был придуман в попытке захватить элегантно комплексное понятие, и каждый из них не провал. "Облако" является крушение срок, который не имеет фиксированного определение (с близким, как правило, является "чужие серверы"); "Интернет вещей" это так страшно и неинформативные, что его использование должно быть наказуемо смертью; а там "большие данные", которые, кажется, не на самом деле означает что-нибудь.

Мы собираемся сосредоточиться на этой последней срок здесь, потому что на самом деле увлекательная концепция непрозрачной и глупой модным словом. На поверхности, "большими данными" звучит, как он должен что-то делать, скажем, с хранения огромных объемов данных. Откровенно говоря, это делает, но это только часть общей картины. Википедия имеет чрезвычайно длительный, очень тщательно (и, слишком сложным) разбивка срока, но не читая в течение двух часов, больших данных, как словом относится ко всему процессу сбора и хранения огромного количества данных, то, применяя огромные суммы вычислительной мощности и продвинутые алгоритмы, чтобы данные для того, чтобы забрать из тенденций и подключения точки, которые иначе были бы невидимы и не-соединяться в массы.

Для еще более простой определения званого обеда: когда кто-то говорит "большие данные", они говорят об использовании компьютеров, чтобы найти тенденции в огромных коллекций информационно-тенденций, которые люди не могут забрать, потому что есть слишком много данных для людей, чтобы просеять через ,

Старый концепция, новое слово?

Компьютерный анализ свай и свай данных не является новой, конечно. Делая утомительные вещи с номерами была основная функция компьютеров с компьютеров были изобретены (и задолго до этого, еще в то время, когда фраза "компьютер" означает "человек в задней комнате, который делает утомительные вещи с номерами"). Причина, почему термин "большой данных" вдруг пришел в моде-друга, чем усилия по маркетингу в различных компаниях, которые продают "большие данные" решения других компаний есть, потому что это действительно только в течение последних 10 до 15 лет, что слияние улучшений в способности обработки данных как на аппаратном так и на стороне программного обеспечения сделал целостный анализ действительно ошеломляющие объемы данных возможных.

Увеличить / Старая школа большие данные машины: в Cray-1 суперкомпьютер. Рама

Какие масштабе мы говорим здесь? Обычно "большими данными" означает, что вы просеивания через, по крайней мере многие сотни гигабайт с помощью некоторых манеру сложному алгоритму и, как правило, распределяя нагрузку между двумя или более компьютерами. Крупные предприятия или научные проблемы могут работать с наборами данных, которые легко входят в терабайт или петабайт диапазоне даже порядков больше в крайних случаях.

Чтобы сохранить это объяснение становится слишком глубоко, есть четыре аспекта большой данных, которые действительно имеют значение. Мы собираемся кратко остановиться на трех, а затем укутать несколько примеров больших данных в реальном мире.

Четвероногий стула

Во-первых, конечно, текущая коллекция все данные делает ваш большую кучу данных. Это внешний озабоченность здесь: если вы оператор сотовой связи, например, вы, возможно, сотни миллионов (или более) клиентов и устройств записи в какой-то распределенной базы данных. Если вы исследователь, вы, возможно, эксперимент, который генерирует много гигабайт точек, каждый час, что вы отслеживаете в течение дней или недель. Фактические данные, конечно, важно, но, как вы получите это в основном безразлично. Важно то, что у вас есть, и вы должны просеять его.

Вторым фактором является хранение данных. Вы должны иметь способ сохранить ваши гигабайт или терабайт или петабайт (или экзабайт) данных, и сохранить его таким образом, что вы сможете получить доступ к его случайно, на то, что точка вам нужно, с возможностью к сделать полезные вещи для него. Это может означать, используя распределенную файловую систему (что-то вроде Gluster) для лечения многих компьютерах диски ", как они являются частью одного тома; это может означать использование внешнего хранения облако, как Amazon EBS; это может означать, если-вы можете себе это позволить, используя большой дорогой сети хранения данных. Есть много способов, чтобы держать много данных, но вы должны иметь какой-то ведро, чтобы сбросить его в.

Далее вам нужно несколько компьютеров, чтобы сделать что-то со всеми вашими данными, будь то стеллажи серверов, снимаю Elastic Cloud устройства, специализированные устройства, или любой другой. И вы, вероятно, потребуется много вычислительной мощности, тоже. Известный дорического цитатой Архимеда применяется здесь: "Дайте мне точку опоры, и с помощью рычага я переверну весь мир». Заменить "рычаг" с "достаточно вычислительной мощности", и вы получите эту идею.

Но тогда есть то, что четвертая нога-программного обеспечения. Пыткам метафору немного мимо предела, если "вычислительной мощности" стоит в течение рычага Архимеда, то "программное обеспечение, которое может сделать полезные вещи с этой вычислительной мощности" является Архимеда место, чтобы стоять. Хотя очень большое количество вычислительной мощности является требование, право программное обеспечение секретный соус, который делает большую работу-данные правильный алгоритм может сделать разницу между поиском через набор данных, который занимает час в сравнении с поиском, что занимает несколько секунд.

Увеличить / Apache Hadoop является открытым исходным кодом "большими данными" рамки. Кроме того, логотип Hadoop имеет слона в нем, и это только очаровательны. Apache Software Foundation

Где и что

Самый простой пример "большой данных" является одним, что все, кто читает эту статью, знакомы с Google-поиска в. Он работает так быстро и так надежно, что это редко, чтобы избавить мысль о том, что происходит под капотом, но те результаты поиска, полученные в миллисекундах являются результатом огромных количествах распределенной вычислительной мощности вспенивание через обширные наборы данных. Очень упрощенно все это работает, что вместо поиска по страницам напрямую, Google сохраняет индекс слов и коллекций слов, которые появляются на веб-страницах, и это то, что индекс, на котором условия поиска применяются. Это намного быстрее, чтобы посмотреть что-то в индексе, чем сканировать целую страницу.

Тем не менее, для генерации индекса, они должны сканировать целиком страниц. Google использовал для использования базы под названием MapReduce для этого-парцелляции сканирование по всей огромного количества серверов и интеграции результатов обратно в индекс. MapReduce уже давно на пенсии по Google в пользу более современных приложений, которые могут обрабатывать большие и большие наборы данных.

Увеличить / Внутри одного из массивных данных Google центров-если вы хотите, чтобы увидеть одно изображение аппаратной стороны «больших данных", это он. Проводной

Даже если Google не использовать его больше, MapReduce в настоящее время является частью Apache Hadoop, который большая база данных с открытым исходным кодом, который видит огромную использование в реальном мире многие компании и научно-исследовательских институтов.

Другой простой в проглотить пример больших данных можно увидеть в огромный серийного производства. Следует помнить, что большая данные о нахождении иглы данных в стога данных, и каждый шаг в сложном процессе производства может генерировать огромные объемы данных. Если у вас есть огромный конвейер, который строит компоненты из частей, которые сами по себе каждая из которых производственные процессы, лежащие в них, он может быть чрезвычайно трудно отследить проблемы в завершенных частей обратно к ошибкам сборки. Есть просто так много усугубляется переменные. Тем не менее, достаточно вычислительной мощности и правильных алгоритмов, становится гораздо легче решать проблемы-тренды, которые не может быть видна невооруженным глазом (или даже сотен невооруженным глазом) могут быть визуализированы.

В самом деле, когда мы посетили научно-исследовательский центр GE в Мюнхене в прошлом месяце, мы увидели, что именно. Аналитика в производстве является большой бизнес все самостоятельно. Будучи в состоянии выяснить, что сказать, дисперсию в влажности на один день в заводе одного производителя вызвало один набор компонентов будет построен немного из терпимости, которая, в свою очередь влияет другим компонентом сто шагов вниз линии в том, что рода что может спасти огромное количество времени и денег.

Один пример, который получил много внимания средств массовой информации несколько лет назад было использование T-Mobile больших данных разузнать закономерности в отмене заказчика. Среди прочего, T-Mobile посмотрел на том, как их абоненты были соединены вместе, который назвал, кто, в основном, и попытался выяснить, каждого абонента эффективный уровень влияния по отношению к другим абонентам. Они отметили, что некоторые из их клиентов может начать то, что они называют "заразной оттока," где отмена приведет к отмене других. T-Mobile также тщательно изучил данные, за пределами их счетов базе данных, глядя на пропущенных звонков и другие "неоплачиваемые" показатели раздражения клиентов. Затем они вытащили все это вместе и начал концентрировать усилия на активно помогать высокие влияющие клиентов, как предлагает фемтосот на высоком влияющие пользователем, который переехал в новый район с плохим обслуживанием, чтобы предотвратить это клиент покинуть T-Mobile и принимая их круг с ними.

Веб-мы ткать

Теперь, когда кто-то обращается к вам и говорит: "Эй, я слышал, вы читаете, что АРС Технический сайт-то, что делает" большие данные "означает, в любом случае?" вы можете столкнуться с их уверенной улыбкой и стрелять с ответом! Это все о сортировке переменных и их отслеживания, склеивания вещей, что люди не могут. Компьютеры очень хорошо просеивания огромные объемы информации (с правом программного обеспечения, конечно), и это ядро ​​больших данных.

Говоря о грандиозных объемов данных: в то время как мы сосредотачиваемся на этой неделе в нашей поездке в Мюнхен и рассказы вдохновили нашего визита там, это не конец нашей дискуссии о больших данных. Если вы заинтригованы этой теме, вы будете любить то, что мы делаем в течение нескольких недель, когда Шон Галлахер роет в точности, как GE дело с данными их производственные процессы производят.

Развернуть полный рассказ

Комментарии читателей 59

Вы должны войти в систему или зарегистрироваться, чтобы комментировать.

Ли Хатчинсон / Ли Старший редактор Отзывы в Ars и несет ответственность за новостями продукта и обзоры раздел. Он также знает, материал о корпоративных систем хранения данных, безопасности, и пилотируемых космических полетов. Ли в Хьюстоне, штат Техас.

← Старая история Новее История →

#auto

Comments