9‎ > ‎l‎ > ‎

l

Взгляните на список (АФС) в в Apache Software Foundation в проекты, и вы можете чувствовать себя разбитым. Между верхнего уровня и инкубационных проектов, есть слишком много, чтобы отслеживать. Фильтрация вниз по списку проектов больших данных не может помочь, потому что это "меньше" список еще довольно долго. И не забывайте, что есть несколько примечательных проектов с открытым кодом, которые даже не под зонтиком ASF, чтобы начать с.

Так, во имя полезной сортировки, вот пять проектов, чтобы держать глаза на:

Apache Флинк
Флинк работает с отказоустойчивой, "один раз" потоковое двигателя данных по своей сути, и лечит пакетные операции как частный случай потокового видео. Он предлагает библиотеки для машинного обучения и обработки графов и совместим с Apache Кафки и HBase, среди других компонентов Hadoop.

Флинк может показаться много, как искры, но ее отказоустойчивой, потоковое первый парадигма делает его немного отличается. Между тем, два двигателя имеют большое перекрытие в сценариях они обращаются, и некоторая конкуренция между ними может последовать. Возьмите попкорн и следить за этим.

Apache Samza
Проект Samza ориентирована на потоковой обработки данных. Это пространство может показаться, что уже хорошо обслуживается Storm, искры и Флинк (в настоящее время, что вы знаете об этом), но Samza имеет несколько трюков в рукаве. Он работает с Кафки и пряжи из коробки, но, в соответствии с его веб-сайте, предлагает подключаемый архитектуры, что позволяет интеграцию с другими двигателями сообщениями и выполнения.

Давайте проясним кое о чем: в прямом платформы данных наслаждаясь шумиха цикл самостоятельно в настоящее. Как природа реклама, это появление непропорционально количеству потоковых данных работ делается там. Но это по-прежнему важно и, скорее всего, имеют эффект создания потоковой обработки больше, ну, мейнстрим.

Сочетание Кафки и Samza один с некоторым облатки, и как были разработаны в LinkedIn. Код, используемый в производстве, прежде чем ее пусках проекта с открытым исходным кодом, особенно в большом социальных медиа компании с насущными проблемами, большие данные, естественно, пользуется авторитетом и привлекает внимание. Но будь что достаточно, чтобы преодолеть популярность искры Streaming и широкую поддержку (особенно сформировать Hortonworks) для Буря еще предстоит увидеть.

Отель Ibis (Cloudera инкубировали)
Я написал о Ibis раньше. Это Cloudera инкубировали проект, направлены на ученых данных, которая направлена, чтобы принести программирования Python язык в мире распределенных приложений. Многое, как революции Analytics (в настоящее время принадлежащих Microsoft) сделал для языка программирования R, команда Ibis разрабатывает способ для Python код для выполнения по узлам в кластере, а не на одной рабочей станции или сервера.

Интересно, Ibis достигает этой распределенной возможность по совмещенной на антилоп, массово параллельная обработка (МПП) SQL-на-Hadoop проекта, также инкубируют при Cloudera. Команда проекта, тем не менее, стремиться сделать связь Ibis 'с Impala свободная один, так что она может работать на других распределенных платформ, а также. Учитывая популярность языка Python (наряду R) в машинного обучения и интеллектуального аналитики, и, учитывая важность распределенных вычислений в обоих этих занятий, поглощение отеля Ibis стоит мониторинг.

Apache саржевого (инкубация)
Проект саржевого обеспечивает уровень абстракции над пряжа, кластеризации и ресурсов менеджера Hadoop в. ПРЯЖА это компонент, который отделяет Hadoop от алгоритма MapReduce, позволяя ему работать, а также позволяет другим двигатели обработки - в том числе и искры Флинк - занять свое место. При этом, пряжа эффективно превращает Hadoop в более общем распределенной вычислительной платформы. Это, конечно, имеет большую ценность.

Проблема, однако, является то, что нити сложен и имеет крутой кривой обучения. Слой абстракции Twill направлена ​​на развитие ПРЯЖА сделать доступными для обычных Java-разработчиков. Его команда из 10 коммитеров возглавляет Арун Мурти, основатель и архитектор Hortonworks ", и движущей силой пряжа и Тез. Это означает, самоотверженность, чтобы сделать Twill эффективно часть пряжи предложения, и это очень интересно.

Apache Mahout-Сансара
Mahout является машинного обучения двигатель, который ни новым, ни неясным в земле проектов Hadoop экосистем. Но я покрыть ее здесь, потому что она прошла через крупный реконструкции с 0.10.0 выпуска в апреле, когда был добавлен новый математика среда называется Самсара. Примечательно, Сансара работает на Apache искры, а не просто необязательно, но как жесткий зависимости.

Это меняет Mahout от того, чтобы уровень абстракции MapReduce, и, таким образом наследуя все накладные расходы Hadoop MapReduce, в к более современной гибкой масштабируемой машины библиотеке обучения. По данным веб-сайта проекта, MapReduce-разрядных версий алгоритмов машинного обучения Mahout будет продолжать оказывать поддержку, но не Hadoop реализации новых алгоритмов не будут приняты для включения в проект.

Это создает некоторые интересные между проекта конкурентные сценарии. Во-первых, он ставит саму Mahout в конкуренции с собственной компонента MLlib Спарк. Во-вторых, это добавляет топливо к конкуренции между искры и самой Hadoop.

Где Hadoop собирается?
Если это небольшая выборка некоторых из многих больших данных с открытым исходным кодом проектов там показывает что-нибудь, то, что Hadoop не просто как город, а скорее основным столичный район. Она имеет свои пригороды, где его мэр не имеет никакой юрисдикции, и где политические убеждения могут отличаться от тех, в центре города. Но он имеет свою основную характер и должны рассматриваться в качестве рынка в своем собственном праве. Практикующие должны подходить к "большей" Hadoop, а не только основной сам проект, или они рискуют недостающие тенденции в его принятия и эволюции.

#auto

Subpages (1): d
Comments