5‎ > ‎j‎ > ‎

x

Дев Гость

Секреты проектирования и строительства крупных приложений данных

24 декабря 2013 3:00 вечера
Аарон Кимбалл

Аарон Кимбалл соучредителем WibiData в 2010 году он работал с Hadoop с 2007 года и является коммиттером по проекту Apache Hadoop.

Программные приложения традиционно воспринимается в качестве единицы расчета разработанной и используемой, чтобы решить проблему. Будь приложение является инструментом CRM, что позволяет управлять информацией о клиентах или комплексной системы управления цепочками поставок, проблема это решает часто весьма специфичны. Заявки также часто разработаны с относительно статического набора интерфейсов ввода и вывода, а общение и из приложения использует специально разработанные (или выбран) протоколов.

Заявки также строится вокруг данных. Данные, которые приложение использует, чтобы решить проблему хранится с использованием платформы данных. Это базовая платформа данных исторически был разработан для того, чтобы оптимально хранение и поиск данных. Где-то в процессе хранения и поиска данных, приложение применяет вычисление для получения результатов в применении.

Один неудачный побочный эффект этого оптимизированного хранения данных и дизайна поисковой является то, что он требует данные, которые будут структурированы в заранее определенном пути (как на диске и во время информационного дизайна и поиска.) В мире больших данных, приложения должны опираться на данные из жестко структурированные элементы, такие как имена, адреса, количества и дни рождения, а также потерять и неструктурированные данные, такие как изображения и текст в свободном формате.

Определение и построение большой приложение данных может быть недоумение, учитывая отсутствие жесткости в исходных данных. Это отсутствие структуры делает его более трудно точно определить, что будет делать большое приложение данных. Это относится и к интерфейсам связи, вычисления на неструктурированных или слабоструктурированных данных и даже общения с другими приложениями.

В то время как традиционные приложения, возможно, решается конкретная проблема, большое приложение данные не ограничивает себя в весьма специфической или целевой задачи. Его целью является обеспечить основу для решения многих проблем. Большой применение данных управляет жизненных циклов данных в прагматическом и предсказуемым образом. Большие данные приложения могут включать в себя партию или компонент высокой задержкой, с малым временем задержки (или в режиме реального времени компонент), или даже компонент в-поток. Большие данные приложения не заменить традиционные одно- проблемных приложений, а дополняют их.

Давайте использовать инструмент CRM в качестве примера. Традиционный инструмент CRM может хранить информацию о клиентах, их историю покупок и уровень лояльности клиентов. Учитывая конечный ресурс, такой как вызова клиентов центра, во время пиковых нагрузок CRM должны определить, какие клиенты должны получать равное по сравнению с приоритетом обслуживания. Как правило, более высокие клиенты лояльности получит приоритетное обслуживание, с уровнями лояльности обычно будучи предварительно определенных. Эти уровни могут быть обусловлен тратить, тратить диапазоны или другие правила, но определение зависит от данных, который, как правило, жестко структурированные данные.

Тем не менее, если инструмент CRM имеет способность предсказывать ли данного клиента, даже если она не находится в пределах заранее установленного диапазона лояльности, проявляет поведение, как известно, приводят к высокой клиента лояльности, он сможет сделать умнее решение о том, как приоритеты в распределении ресурсов и предложить приоритетности ее вызов.

Традиционные приложения могут работать только на заранее определенных формул и данных. Инструмент CRM должен знать заранее, является ли клиент предпочтительный клиент и должны получать приоритет ресурса или нет.

Действуя на наборах данных из всех аспектов бизнеса, большая заявка данных вводит новые способности, чтобы присоединиться к наборам данных, которые не были раньше. Это дает возможность создать петлю обратной связи для существующих приложений, чтобы помочь сделать их умнее. В приведенном выше примере, CRM поставщик может использовать большой приложение данных для расчета и анализа тенденций, которые ведут к предпочтительных клиентов и определить тех клиентов раньше, чем это было возможно ранее. Большие Данные приложений будет постоянно переоценивать прогностическую оценку модели, основанной на изменениях в информации о каждом клиенте, как они взаимодействуют с традиционными приложениями.

Так как же вы подход проектирования и строительства большой приложение данных? Что некоторые из соображений, решений или предостережений, которые необходимо принять при построении большой приложение данных? Вот несколько рекомендуемых действий для построения сложных большой приложение данных:

Определить цели с открытой душой

Определите ощутимые результаты применения. Будет ли приложение просто предоставляют возможность присоединиться наборов данных по технологиям? Найти дорогостоящих клиенты раньше, чем существующие системы? Независимо от определенной цели, имейте в виду, что присоединение данные могут дать представление за рамки определенной цели. Не выбрасывайте данные, потому что вы можете найти самородки золота в самых неожиданных местах.

Поймите объемы, источники и точки интеграции

Определите существующие приложения, которые вы хотите, чтобы поток данных в и из. Документ объемы данных, и как часто изменения данных. Привлекать команды, которые управляют эти наборы данных на ранней стадии, чтобы понять, лучший способ (ы) обмена данными из различных источников. Отсутствует ключевой информации клиентов может сделать мир разницы.

Определить платформу

Понимание типов и объема данных ваш Большие Данные приложение будет работать на собирается диктовать платформу, необходимую. Традиционно, Hadoop является платформой де-факто, так как это позволяет на всех форм захвата и анализа, начиная от реального времени, к партии, к малым временем ожидания аналитиков. Выберите платформу, которая является наиболее универсальным и соответствует вашим потребностям. Партнер с продавцом, который может поддержать вас на протяжении всего срока своих приложениях.

Начните с партией; выпускник медленно

Большие платформы данных сегодня предлагают множество способов анализа данных будь то партия, в режиме реального времени, или обработка в потоке. Начните сначала с Марио или пакетной обработки. Это позволяет обрабатывать и анализировать данные в порядке, ненавязчивой, чтобы существующие приложения. Как фазы применения зрелые, переход на более реальном времени точки интеграции между вашим большим применения данных и существующих приложений.

Создать процесс сбора данных

Пакетная загрузка и обработка это правильный путь, чтобы начать проект больших данных приложений. После того, как вы выполните свой первоначальный анализ, работа по созданию способа, который позволяет для дополнительных обновления данных. Вы должны быть в состоянии копировать только обновленные изменения из ваших исходных систем в вашей большой платформы данных. Непрерывный обновления бизнес-данных, которые могут проводить анализ до-до-даты.

Создать петлю обратной связи на 360 градусов

После того, как процесс сбора и обновления данных было установлено, приступить к созданию наборов данных, которые могут кормить существующие приложения и системы, чтобы сделать их умнее. Установить процесс на 360 градусов, что будет планировать данные и кормить его в большом применения данных для анализа. Создать дополнительные и меньшие наборы данных для потребления обратно исходного приложения. Используя этот метод, все существующие приложения выиграют от разведки, анализа и актуальной информации из систем, что они не должны знать существовать, или не смогли извлечь выгоду из ранее.

Добыча Использование данных и прогнозного анализа

Вы находитесь хорошо на Вашем пути к большой применения данных после создания большой цикл обратной связи, что в настоящее время мосты все различные источники данных в рамках бизнеса. Идите дальше, делая глубокий анализ данных и поведенческий анализ на данных, чтобы предсказать, где лучше всего оптимизировать ресурсы. Как технологии больших данных зрелые, новые высокоуровневые структуры с открытым исходным кодом, такие как кижи, может снизить порог вхождения для углублённого изучения машины и глубоких аналитики интеллектуального анализа данных.

Оцените в режиме реального времени, прогнозирующие модели

Учитывая предыдущий интеллектуального анализа данных, или другие аналитики идеи, увеличить свои приложения в дальнейшем, предоставляя интерфейс, в режиме реального времени, что может динамически rescore свои прогностические модели, основанные на до второго изменениях в данных. Использование знаний, извлеченных из пакетного / итерационного исследований и анализа для создания более прогнозных моделей, которые могут выполняться в режиме реального времени, на каждого пользователя уровне. Открытые рамки кодом, такие как кижи отдыха и кижи Scoring позволяет это сделать почти со скоростью мысли. Будучи в состоянии перебрать и быстро развернуть новые модели, как тенденции переложить позволит вам заработать на тенденции, как они происходят, а не отстающих тенденций клиентов по несколько недель или месяцев.

Постоянно совершенствовать процесс

Успешный большое приложение данных требует постоянного оценку и изысканность. Является собираются правильные данные? Есть ли новые источники данных, которые должны быть интегрированы? Есть ли какие-источники данных, которые должны удалены или несвежие? Существуют ли более эффективные модели прогнозирования мы можем использовать, чтобы обеспечить более точное опыт в реальном времени? Это вопросы, которые должны быть постоянно анализируются так что качество потоковой передачи данных в вашей большой применения данных остается постоянно отношение к бизнесу.

Измерьте результаты и пожинать плоды

Это должно действительно быть включены в каждом шаге выше: меры, меры, меры. Единственный способ узнать, влияние и производительность вашего большого применения данных является измерение результатов. Это может быть также просто, как знать, сколько данные собираются ежедневно стих количество записей отправляется обратно в существующие традиционные приложения или реализации предварительное испытание A / B на поведенческих моделях. В любом случае, дело в том, то же самое: лучший способ узнать, является ли ваш большой приложение данные достижения своих целей является измерение результатов с ожиданиями.


Мобильная разработчик или издатель? VentureBeat изучает мобильный автоматизации маркетинга. Заполните нашу 5-ти минутах опрос, и мы будем обмениваться данными с тобой.

#auto

Subpages (1): e
Comments