f‎ > ‎p‎ > ‎

q

Big Data прямо сейчас: Пять Модные Open Source технологии

Добавлено 27 октября 2012 Тим Gasper
  • Еще
    • Добавить в Flipboard Magazine.
    • представить Reddit
Следующий сюжет

Cinefy позволяет добавлять CGI специальные эффекты ужасно, шаткая iPhone Видео

Big Data на уме каждого ИТ-директора в этом квартале, и не зря. Компании будут потратили $ 4,3 млрд на Больших данных технологий к концу 2012 года.

Но вот что интересно. Эти первоначальные инвестиции, в свою очередь вызвать эффект домино обновлений и новых инициатив, которые ценятся в $ 34 млрд в 2013 году, за Gartner. За 5-летний период, проводят оценивается в $ 232 000 000 000.

То, что вы видите сейчас, является лишь верхушкой гигантского айсберга.

Big Data в настоящее синонимом технологий, таких как Hadoop, и класс "NoSQL" из баз данных, включая Монго (хранилища документов) и Кассандра (ключ-значение). Сегодня это возможно для потоковой передачи в режиме реального времени аналитики с легкостью. Спиннинг кластеры вверх и вниз (относительно) тюльпан, осуществляется в 20 минут или меньше. У нас есть таблицы ставок.

Но существуют новые, неиспользованные преимущества и нетривиально большие возможности за пределами этих обычных подозреваемых.

Знаете ли вы, что существует более 250K эффективных технологий с открытым исходным кодом на рынке сегодня? Инновации вокруг нас. Усложнение системы, на самом деле, выглядит примерно так:

У нас есть много ... вариантов, чтобы не сказать больше.

Что на нашей собственной РЛС, и то, что спускается трубу для Fortune 2000 компаний? Какие новые проекты являются наиболее жизнеспособными кандидатами на использование производства класса? Какие заслуживают вашего пристального внимания?

Мы сделали все исследования и испытания, поэтому вам не придется. Давайте посмотрим на пяти новых технологий, которые сотрясают вещи в больших данных. Вот новейший класс инструментов, которые вы не можете позволить себе пропустить, в ближайшее время на предприятие рядом с вами.

Шторм и Кафка

Шторм и Кафка это будущее потоковой обработки, и они уже используются в ряде громких компаний, включая Groupon, Alibaba, и The Weather Channel.

Родился внутри Twitter, Storm является "распределенная система вычислений в реальном времени". Шторм делает для обработки в реальном времени, что Hadoop сделал для пакетной обработки. Кафка со своей стороны представляет собой систему обмена сообщениями разработан в LinkedIn, чтобы служить в качестве основы для их деятельности потока и обработки данных трубопровода за ним.

В сочетании вместе, вы получите поток, вы получите его в реальном времени, и вы получите его в линейном масштабе.

Почему Вы должны заботиться?

С Буря и Кафки, вы можете провести обработку потока в линейном масштабе, заверил, что каждое сообщение, обрабатывается в реальном времени, надежно. В тандеме, Шторм и Кафка может обрабатывать скорости передачи данных десятки тысяч сообщений в секунду.

Решения по обработке потоковых как Буря и Кафки привлекли внимание многих предприятий в связи с их повышенной подхода к ETL (извлечения, преобразования нагрузки) и интеграции данных.

Шторм и Кафка также отлично на в-памяти аналитики и поддержки принятия реального времени. Компании быстро поняв, что пакетную обработку в Hadoop браузер не поддерживает деловые потребности в режиме реального времени. В режиме реального времени потоковое аналитику является составной нужно обязательно иметь в любой предпринимательской решения больших данных или стека, потому что, как элегантно они обращаются "три Ви" - объем, скорость и разнообразие.

Шторм и Кафка являются две технологии в списке, что мы наиболее привержены в Infochimps, и это разумно ожидать, что они будут в официальную часть нашей платформы в ближайшее время.

Дрель и Dremel

Дрель и Dremel сделать крупномасштабных специальную запросов к данным возможных, с радикально более низкими задержками, которые особенно склонны для исследования данных. Они позволяют сканировать более петабайт данных в секундах, чтобы ответить на специальные вопросы и, предположительно, силовые убедительные визуализации.

Дрель и Dremel поставить власть в руках бизнес-аналитиков, а не только инженеры данных. Деловая сторона дома будут любить сверло и Dremel.

Сверло версию с открытым кодом, что Google делает с Dremel (Google также предлагает Dremel-как-услуга с его предложением BigQuery). Компании собираются хотите сделать инструмент самостоятельно, что, почему дрель является вещь, чтобы посмотреть в основном тесно. Хотя это не совсем там все же, большой интерес со стороны сообщества развития помогает инструмент быстро созревают.

Почему Вы должны заботиться?

Дрель и Dremel выгодно отличаются от Hadoop ни за что для данного случая. Hadoop это все о рабочих процессов пакетной обработки, что создает определенные неудобства.

Hadoop экосистема очень много работали, чтобы сделать MapReduce доступным инструментом для нерегламентированных запросов. От Sawzall в Свинья и Hive, много слоев интерфейса были построены на вершине Hadoop, чтобы сделать его более дружественным, и бизнес-пользователей. Тем не менее, для всех из SQL-как знакомство, эти слои абстракции игнорировать один фундаментальную реальность - MapReduce (и тем самым Hadoop) является специально построенный для организованной обработки данных (читай: выполнение заданий, или "рабочие процессы").

Что делать, если вы не беспокоитесь о выполнении заданий? Что делать, если вы больше озабочены задавать вопросы и получать ответы - нарезки и перетасовки, ищу прозрений?

Это "специальная разведка" в двух словах - если предположить, данные, которые были обработаны уже, как вы можете оптимизировать скорость? Вы не должны запускать новую работу и ждать, иногда в течение значительных отрезков времени, каждый раз, когда вы хотите, чтобы задать новый вопрос.

В противоположность этому, чтобы рабочий процесс на основе методологии, большинство бизнес-приводом BI и аналитика запросов принципиально специальной, интерактивная, с низкой задержкой анализов. Дать Карта Уменьшить рабочих процессов является запретительной для многих бизнес-аналитиков. Ожидание минут на работу, чтобы начать и часов для рабочих процессов для завершения не способствует интерактивный опыт данных, сравнения и противопоставления, и масштабирование так, что в конечном итоге создает принципиально новые идеи.

Некоторые ученые данных даже предположить, что дрель и Dremel самом деле может быть лучше, чем Hadoop в более широком смысле, и потенциальной замены, даже. Это немного слишком острый позиция принять прямо сейчас, но есть смысл в подходе к аналитике, что является более запроса-ориентированных и низкой латентностью.

В Infochimps нам нравится Elasticsearch полнотекстовый поисковая система и база для ведения разведки данных высокого уровня, но по-настоящему способным запросов больших данных в (относительно) уровне сиденья, мы считаем, что дрель станет де-факто решение.

R

R является открытым исходным кодом языка статистического программирования. Это невероятно мощный. Более двух миллионов (и количества) аналитики используют Р. Это было вокруг с 1997 года, если вы можете в это поверить. Это современная версия S языке для статистических расчетов, что изначально пришли из Bell Labs. Сегодня, R быстро становится новым стандартом для статистики.

R выполняет сложную науку данных на гораздо меньшую цену (буквально и фигурально). R делает серьезных успехов в свержении SAS и SPSS с престолов, и стал инструментом выбора для лучших статистиков мира (и ученых данных и аналитики тоже).

Почему Вы должны заботиться?

Потому что она имеет необычайно сильное сообщество вокруг него, вы можете найти R библиотеки для чего угодно под солнцем - делает практически любой научной данные возможности доступны без нового кода. R является захватывающим, потому что от того, кто работает на нем, и сколько чистой-нововведение происходит на ежедневной основе. R сообщество является одним из самых захватывающих мест, чтобы быть в больших данных прямо сейчас.

R является также замечательным способом что проверяйте Ваши программы Big Data. В последние несколько месяцев, буквально тысячи новых функций были введены, изобилует общедоступных баз знаний для каждого типа анализа вы хотели бы сделать в качестве организации.

Кроме того, R очень хорошо работает с Hadoop, что делает его идеальным частью комплексного подхода больших данных.

Чтобы следить за: Юлия интересная и растет альтернативой R, потому что борется с заведомо медленный проблему языка интерпретатора R в. Сообщество вокруг Юлии далеко не так сильны сейчас, но если у вас есть потребность в скорости ...

Gremlin и Giraph

Gremlin и Giraph способствующих расширению возможностей анализа график, и часто используются в сочетании с графа баз, таких как Neo4j или InfiniteGraph, или в случае Giraph, работе с Hadoop. Золотой Orb это еще один громких примером проекта графа основе набирает обороты.

График базы данных довольно режущей кромки. У них есть интересные различия с реляционными базами данных, что означает, что иногда вы можете взять граф подход, а не реляционной подход с самого начала.

Общая аналог для графа подходов является Google, Преголя, из которых Gremlin и Giraph альтернативы с открытым исходным кодом. На самом деле, вот великий читать о том, как мимикрия технологий Google является кустарной промышленности к себе.

Почему Вы должны заботиться?

Графики сделать большую работу по моделированию компьютерных сетей, и в социальных сетях, тоже - все, что связывает данные вместе. Другим часто используемым является отображение и географические пути - расчета кратчайших маршрутов, например, от пункта А в пункт B (или, чтобы вернуться в социальной случае, отслеживание близость указанных отношений от человека А к человеку B).

Графики также популярны для бионаучных и физика прецедентов по этой причине - они могут наметить молекулярные структуры необычайно хорошо, например.

Большая картина, базы данных граф и языки анализа и структуры являются отличным примером того, как мир начинает понимать, что Большие Данные не о том, одну базу данных или один основу программирования, который выполняет все. График подходы убийца приложение, так сказать, за все, что включает в больших сетей со многими узлами и многих связанных путей между этими узлами.

Наиболее инновационные ученые и инженеры знают применять правильный инструмент для каждой работы, убеждаясь, что все играет хорошо и может говорить друг с другом (клей в этом смысле становится основной специализацией).

SAP Hana

SAP Hana является аналитика платформа в памяти, что включает в себя базу данных в оперативной памяти и набор инструментов и программного обеспечения для создания аналитических процессов и перемещения данных в и из, в нужных форматах.

Почему Вы должны заботиться?

SAP собирается вразрез с наиболее укоренившихся предприятия мега-игроков, предоставляя очень мощный продукт, бесплатный для использования в целях развития. И это не только то, что - SAP также создает значимые стимулы для стартапов, чтобы охватить Hana также. Они достоверно содействия участию общин и есть равномерно позитивные настроения вокруг Hana в результате.

Hana высоко пользу любые приложения с необычайно быстрыми потребностей обработки, таких как финансовое моделирование и поддержки принятия решений, веб-сайт персонализации, и выявления случаев мошенничества, среди многих других вариантов использования.

Самый большой недостаток Hana является то, что "в памяти" означает, что это по определению использует доступ к твердотельной памяти, которая имеет явные преимущества, но гораздо дороже, чем обычные дисковом хранилище.

Для организаций, которые не возражают добавленную стоимость эксплуатации, Hana означает невероятную скорость для очень низкой латентности обработки больших данных.

Поощрительная премия: D3

D3 не сделать список еще, но это близко, и стоит отметить, по этой причине.

D3 является JavaScript библиотека визуализации документ, революция, как мощно и творчески мы можем визуализировать информацию, и сделать данные по-настоящему интерактивным. Он был создан Майклом Босток и вышел из его работ в Нью-Йорк Таймс, где он графическом редакторе.

Например, вы можете использовать D3 для генерации HTML таблицу из массива чисел. Или, вы можете использовать те же данные для создания интерактивной диаграммы бар с плавными переходами и взаимодействия.

Вот пример из D3 в действии, что делает 2013 Бюджетное предложение президента Обамы понятно, и судоходная.

С D3, программисты могут создавать информационные панели в изобилии. Организации всех размеров быстро охватывает D3 в качестве высшего визуализации платформы к хедз-ап дисплеев прошлых лет.

Примечание редактора: Тим Gasper является менеджер по продукции Infochimps, # 1 платформа Big Data в облаке. Он приводит маркетинга продукта, разработка продукта, и открытие клиентов. До этого он был одним из основателей и директор по маркетингу в Keepstream, социальной курирование и аналитики СМИ компании, которая Infochimps приобретенного в августе 2010 года Вы должны следовать за ним на Twitter здесь.

  • представить Reddit
Реклама
    Реклама

    TechCrunch Рассылка

    Похожие видео

    • Ubooly Пышное обучения для детей | Один Lap Воспроизвести видео

      Ubooly Пышное обучения для детей | Один Lap

      4:31
    • Ipad воздуха 2 и Mini 3 Hands On Воспроизвести видео

      Ipad воздуха 2 и Mini 3 Hands On

    • Клип повествования на камеру | One Lap Воспроизвести видео

      Клип повествования на камеру | One Lap

    Более Похожие видео
    • Популярные Сообщений

      #auto

      Subpages (2): q u
      Comments