h‎ > ‎e‎ > ‎4‎ > ‎

8

Бесплатный язык программирования для больших данных

pete warden / 01 фев. 2011 / Hack Бесплатный язык программирования для больших данных

До последних нескольких лет крупномасштабная обработка данных была чем-то большим, что могли позволить себе крупные компании. По мере того, как Hadoop появился, он включил подход Google MapReduce в руки простых смертных. Самая большая проблема заключается в том, что для ее создания и использования требуется еще много технических знаний. Инициативы, такие как Hive and Pig, направлены на то, чтобы сделать Hadoop более доступным для традиционных пользователей баз данных, но они все еще довольно сложны.

Именно поэтому так интересен сегодняшний выпуск новой бесплатной версии глобальной системы обработки данных Greenplum от EMC. Он опирается на идеи революции MapReduce, но ее родословная определенно находится в традиционном мире корпоративных баз данных. Это означает, что он предназначен для использования аналитиками и статистиками, знакомыми с подходами высокого уровня к обработке данных, вместо того, чтобы требовать глубоких знаний в области программирования. Так что же это значит на практике?

Визуальное программирование может быть очень эффективным способом работы с потоками данных, поскольку Apple Quartz Composer демонстрирует в мире обработки изображений. В EMC есть среда под названием Alpine Miner, которая позволяет вам наращивать свою обработку как график операций, связанных с трубами данных. Это дает статистикам игровую площадку для быстрого эксперимента и прототипа новых подходов. Благодаря базовой технологии базы данных они могут запускать результаты на массивах данных. Такой подход никогда не заменит скриптов для хардкорных программистов, но открытость и интуитивно понятная компоновка конвейера обработки сделают его популярным среди более широкой аудитории.

Дополнением Alpine Miner является MADlib с открытым исходным кодом. Описывая себя как «дискуссию между разработчиками ядра базы данных, учеными-данными, ИТ-архитекторами и учеными, которые были заинтересованы в новых подходах к масштабируемой, сложной аналитике в базе данных», это, по сути, библиотека кода SQL для выполнения общего статистического и машинного обучения задания.

Красота сочетания этого с Alpine Miner заключается в том, что он превращает методы, такие как классификация Байеса, k-означает кластеризацию и многолинейную регрессию в инструменты, которые вы можете перетащить, чтобы построить свой конвейер обработки.

Традиционно для внедрения этих алгоритмов на больших наборах данных была интенсивная работа, но теперь они находятся в пределах досягаемости аналитиков, не требуя технических ресурсов. Еще лучше, потому что пользователи с открытым исходным кодом других систем баз данных могут воспользоваться кодом, хотя тогда они не будут пользоваться базовым процессором Greenplum.

Этот выпуск от EMC доступен только для использования не для производства, и большая часть продукта не является открытым исходным кодом, поэтому это определенно не является непосредственной угрозой для принятия Hadoop. Это признак того, что традиционный корпоративный мир начинает уделять внимание всему миру, хотя и демонстрирует некоторые области, где отсутствуют бесплатные решения, особенно с точки зрения их простоты использования.

Двигатель является чрезвычайно мощным инструментом для крупномасштабного машинного обучения, как демонстрирует этот пример от Роджера Магуласа О'Рейли. Разве это откроет эти виды корпоративных инструментов для целого нового набора академических и стартовых пользователей?

Метки:
  • #Большие данные
  • #hack

смотритель

    Похожие сообщения

    • 3 Особенности CRM Вам необходимо стать совместимыми с GDPR
    • Что происходит, когда вы игнорируете основные бизнес-практики?
      Что происходит, когда вы игнорируете базовый бизнес ...
    • iot график проекта
      6 факторов для определения успеха вашего IoT ...
    • метафора темной паутины
      Обнаружение угроз под поверхностью на ...

    #auto

    Comments