Большие данные (Big Data)

Принято считать, что современные программные инструменты не в состоянии оперировать такими объемами в рамках разумных временных промежутков. Очевидно, обозначенный диапазон значений носит весьма условный характер и имеет тенденцию к увеличению в большую сторону, поскольку вычислительная техника непрерывно совершенствуется и становится все более доступной. В частности, Gartner рассматривает «большие данные» сразу в трех плоскостях – роста объемов, роста скорости обмена данными и увеличения информационного разнообразия[1].

Основной особенностью используемых в рамках концепции больших данных подходов является возможность обработки информационного массива целиком для получения более достоверных результатов анализа. Прежде приходилось полагаться на так называемую репрезентативную выборку или подмножество информации. Закономерно погрешности при таком подходе были заметно выше. Кроме того, такой подход требовал затрат определенного количества ресурсов на подготовку данных для анализа и приведение их к требуемому формату.

[править]

Что такое большие данные?

[править]

Самое простое определение

Из названия можно предположить, что термин `большие данные` относится просто к управлению и анализу больших объемов данных. Согласно отчету McKinsey Institute `Большие данные: новый рубеж для инноваций, конкуренции и производительности` ( Big data: The next frontier for innovation, competition and productivity), термин `большие данные` относится к наборам данных, размер которых превосходит возможности типичных баз данных (БД) по занесению, хранению, управлению и анализу информации. И мировые репозитарии данных, безусловно, продолжают расти. В представленном в середине 2011 г. отчете аналитической компании IDC `Исследование цифровой вселенной` ( Digital Universe Study), подготовку которого спонсировала компания EMC, предсказывалось, что общий мировой объем созданных и реплицированных данных в 2011-м может составить около 1,8 зеттабайта (1,8 трлн. гигабайт) — примерно в 9 раз больше того, что было создано в 2006-м.

[править]

Более сложное определение

Тем не менее `большие данные` предполагают нечто большее, чем просто анализ огромных объемов информации. Проблема не в том, что организации создают огромные объемы данных, а в том, что бóльшая их часть представлена в формате, плохо соответствующем традиционному структурированному формату БД, — это веб-журналы, видеозаписи, текстовые документы, машинный код или, например, геопространственные данные. Всё это хранится во множестве разнообразных хранилищ, иногда даже за пределами организации. В результате корпорации могут иметь доступ к огромному объему своих данных и не иметь необходимых инструментов, чтобы установить взаимосвязи между этими данными и сделать на их основе значимые выводы. Добавьте сюда то обстоятельство, что данные сейчас обновляются все чаще и чаще, и вы получите ситуацию, в которой традиционные методы анализа информации не могут угнаться за огромными объемами постоянно обновляемых данных, что в итоге и открывает дорогу технологиям больших данных.

[править]

Наилучшее определение

В сущности понятие больших данных подразумевает работу с информацией огромного объема и разнообразного состава, весьма часто обновляемой и находящейся в разных источниках в целях увеличения эффективности работы, создания новых продуктов и повышения конкурентоспособности. Консалтинговая компания Forrester дает краткую формулировку: `Большие данные объединяют техники и технологии, которые извлекают смысл из данных на экстремальном пределе практичности`.

[править]

Объем данных

[править]

Прогноз на 2013-2015 годы

На технологии работы с Большими Данными в 2013 году в мире будет потрачено порядка 34 млрд долл., а к 2015 году в этом секторе будет создано 4,4 млн рабочих мест, но самым сложным вопросом все равно остается то, какие результаты при этом предполагается получить. Даже банки не занимаются анализом больших объемов данных в производственных масштабах, поскольку основная их часть хорошо организована и хранится на мэйнфреймах. Дальше всего в этом направлении продвинулись сети розничной торговли. Они с успехом обрабатывают данные средств радиочастотной идентификации (RFID), систем снабжения и покупательских карт. Во многих других отраслях только начинают искать способы монетизации имеющихся данных — но далеко не все данные являются ресурсом, и на анализ некоторых из них тратятся лишние деньги, указывает аналитик.

В ближайшие 8 лет количество данных в мире достигнет 40 зеттабайт, что эквивалентно 5200 гигабайт (Гб) на каждого жителя планеты, по данным исследования IDC Digital Universe, опубликованного в декабре 2012 года. 40 зеттабайт эквивалентно 40 триллионам Гб, что в 57 раз больше, чем количество песчинок на пляжах на всей поверхности Земли. По прогнозам, количество данных на планете будет удваиваться каждые два года вплоть до 2020 года.

Исследование Digital Universe проводится при содействии EMC с 2005 года, последнее его обновление было выпущено 18 месяцев назад (по отношению к декабрю 2012 года). согласно предыдущей версии, обнародованной в июне 2011 года, количество данных в мире в 2020 году должно было достигнуть только 35, а не 40 зеттабайт.

Большую часть данных, которая будет произведена в период с 2012 по 2020 годы, сгенерируют не люди, а машины в ходе взаимодействия друг с другом и другими сетями данных. Сюда относятся, например, сенсоры и интеллектуальные устройства, которые могут взаимодействовать со сторонними девайсами.

Значительная часть произведенных к настоящему моменту данных ни разу не была исследована с помощью специализированных аналитических инструментов. По оценкам IDC, к 2020 году только 35% данных будет содержать ценную для анализа информацию.

«Цифровая вселенная» (digital universe) включает в себя как цифровые изображение и видео, загруженные с мобильных телефонов, например, на Youtube, так и HD видео, передаваемое по сетям провайдеров. Как корпоративные данные, генерируемые бизнес-приложениями, так и данные, которые создает Большой адронный коллайдер (БАК).

Количество серверов (виртуальных и физических) во всем мире вырастет десятикратно, в первую очередь за счет расширения и создания новых промышленных дата-центров, говорится в исследовании IDC. Тем не менее, количество обслуживающих их ИТ-специалистов увеличится не более чем в 1,5 раза.

Также аналитики ожидают, что в будущем большая часть цифровой информации будет храниться в облаке. Если сейчас на облачные технологии приходится около 5% от мировых ИТ-расходов, то к 2020 году 40% всей информации в цифровой вселенной будет «привязано» к облачным системам. Однако, в облаке будет производиться преимущественно обработка и процессинг данных, а непосредственно храниться в облаке будет только 15% информации.

Инвестиции в управление, хранение, изучение битов в цифровой вселенной вырастут только на 40% в период с 2012 по 2020 году. В результате инвестиции на гигабайт в этот период снизятся с $2 до $0,2.

Отмечается и большой вклад развивающихся ИТ рынков в наполнение цифровой вселенной новой информацией. Если в 2005 году, по данным IDC, 48% всех данных было сгенерировано в США и Западной Европе, а на развивающиеся страны в совокупности приходилось 20%, то в 2012 году доля развивающихся стран составила 36%, а к 2020 году достигнет 62%. Только на Китай будет приходиться 21% всей цифровой информации в мире.

[править]

Почему данные стали большими

Источников больших данных в современном мире великое множество. В их качестве могут выступать непрерывно поступающие данные с измерительных устройств, события от радиочастотных идентификаторов, потоки сообщений из социальных сетей, метеорологические данные, данные дистанционного зондирования земли, потоки данных о местонахождении абонентов сетей сотовой связи, устройств аудио- и видеорегистрации. Собственно, массовое распространение перечисленных выше технологий и принципиально новых моделей использования различно рода устройств и интернет-сервисов послужило отправной точкой для проникновения больших данных едва ли не во все сферы деятельности человека. В первую очередь, научно-исследовательскую деятельность, коммерческий сектор и государственное управление.

Рост объемов данных (слева) на фоне вытеснения аналоговых средств хранения (справа). Источник: Hilbert and López, `The world’s technological capacity to store, communicate, and compute information,`Science, 2011Global

Несколько занимательных и показательных фактов:

  • В 2010 году корпорации мира накопили 7 экзабайтов данных, на наших домашних ПК и ноутбуках хранится 6 экзабайтов информации.
  • Всю музыку мира можно разместить на диске стоимостью 600 долл.
  • В 2010 году в сетях операторов мобильной связи обслуживалось 5 млрд телефонов.
  • Каждый месяц в сети Facebook выкладывается в открытый доступ 30 млрд новых источников информации.
  • Ежегодно объемы хранимой информации вырастают на 40%, в то время как глобальные затраты на ИТ растут всего на 5%.
  • По состоянию на апрель 2011 года в библиотеке Конгресса США хранилось 235 терабайт данных.
  • Американские компании в 15 из 17 отраслей экономики располагают большими объемами данных, чем библиотека Конгресса США.

Рост вычислительной мощности компьютерной техники (слева) на фоне трансформации парадигмы работы с данными (справа). Источник: Hilbert and López, `The world’s technological capacity to store, communicate, and compute information,`Science, 2011Global

К примеру, датчики, установленные на авиадвигателе, генерируют около 10 Тб за полчаса. Примерно такие же потоки характерны для буровых установок и нефтеперерабатывающих комплексов. Только один сервис коротких сообщений Twitter, несмотря на ограничение длины сообщения в 140 символов, генерирует поток 8 Тб/сут. Если все подобные данные накапливать для дальнейшей обработки, то их суммарный объем будет измеряться десятками и сотнями петабайт. Дополнительные сложности проистекают из вариативности данных: их состав и структура подвержены постоянным изменениям при запуске новых сервисов, установке усовершенствованных сенсоров или развертывании новых маркетинговых кампаний.

В ходе исследования (весна 2013 года) под названием Cisco Connected World Technology Report, проведенного в 18 странах независимой аналитической компанией InsightExpress, были опрошены 1 800 студентов колледжей и такое же количество молодых специалистов в возрасте от 18 до 30 лет. Опрос проводился, чтобы выяснить уровень готовности ИТ-отделов к реализации проектов Big Data и получить представление о связанных с этим проблемах, технологических изъянах и стратегической ценности таких проектов.

Большинство компаний собирает, записывает и анализирует данные. Тем не менее, говорится в отчете, многие компании в связи с Big Data сталкиваются с целым рядом сложных деловых и информационно-технологических проблем. К примеру, 60 процентов опрошенных признают, что решения Big Data могут усовершенствовать процессы принятия решений и повысить конкурентоспособность, но лишь 28 процентов заявили о том, что уже получают реальные стратегические преимущества от накопленной информации.

[править]

Откуда данные поступают

Компании собирают и используют данные самых разных типов, как структурированные, так и неструктурированные. Вот из каких источников получают данные участники опроса (Cisco Connected World Technology Report):

  • 74 процента собирают текущие данные;
  • 55 процентов собирают исторические данные;
  • 48 процентов снимают данные с мониторов и датчиков;
  • 40 процентов пользуются данными в реальном времени, а затем стирают их. Чаще всего данные в реальном времени используются в Индии (62 процента), США (60 процентов) и Аргентине (58 процентов);
  • 32 процента опрошенных собирают неструктурированные данные – например, видео. В этой области лидирует Китай: там неструктурированные данные собирают 56 процентов опрошенных.
[править]

Методики анализа больших данных

Существует множество разнообразных методик анализа массивов данных, в основе которых лежит инструментарий, заимствованный из статистики и информатики (например, машинное обучение). Список не претендует на полноту, однако в нем отражены наиболее востребованные в различных отраслях подходы. При этом следует понимать, что исследователи продолжают работать над созданием новых методик и совершенствованием существующих. Кроме того, некоторые из перечисленных них методик вовсе не обязательно применимы исключительно к большим данным и могут с успехом использоваться для меньших по объему массивов (например, A/B-тестирование, регрессионный анализ). Безусловно, чем более объемный и диверсифицируемый массив подвергается анализу, тем более точные и релевантные данные удается получить на выходе.

A/B testing. Методика, в которой контрольная выборка поочередно сравнивается с другими. Тем самым удается выявить оптимальную комбинацию показателей для достижения, например, наилучшей ответной реакции потребителей на маркетинговое предложение. Большие данные позволяют провести огромное количество итераций и таким образом получить статистически достоверный результат.

Association rule learning. Набор методик для выявления взаимосвязей, т.е. ассоциативных правил, между переменными величинами в больших массивах данных. Используется в data mining.

Classification. Набор методик, которые позволяет предсказать поведение потребителей в определенном сегменте рынка (принятие решений о покупке, отток, объем потребления и проч.). Используется в data mining.

Cluster analysis. Статистический метод классификации объектов по группам за счет выявления наперед не известных общих признаков. Используется в data mining.

Crowdsourcing. Методика сбора данных из большого количества источников.

Data fusion and data integration. Набор методик, который позволяет анализировать комментарии пользователей социальных сетей и сопоставлять с результатами продаж в режиме реального времени.

Data mining. Набор методик, который позволяет определить наиболее восприимчивые для продвигаемого продукта или услуги категории потребителей, выявить особенности наиболее успешных работников, предсказать поведенческую модель потребителей.

Ensemble learning. В этом методе задействуется множество предикативных моделей за счет чего повышается качество сделанных прогнозов.

Genetic algorithms. В этой методике возможные решения представляют в виде `хромосом`, которые могут комбинироваться и мутировать. Как и в процессе естественной эволюции, выживает наиболее приспособленная особь.

Machine learning. Направление в информатике (исторически за ним закрепилось название `искусственный интеллект`), которое преследует цель создания алгоритмов самообучения на основе анализа эмпирических данных.

Natural language processing (NLP). Набор заимствованных из информатики и лингвистики методик распознавания естественного языка человека.

Network analysis. Набор методик анализа связей между узлами в сетях. Применительно к социальным сетям позволяет анализировать взаимосвязи между отдельными пользователями, компаниями, сообществами и т.п.

Optimization. Набор численных методов для редизайна сложных систем и процессов для улучшения одного или нескольких показателей. Помогает в принятии стратегических решений, например, состава выводимой на рынок продуктовой линейки, проведении инвестиционного анализа и проч.

Pattern recognition. Набор методик с элементами самообучения для предсказания поведенческой модели потребителей.

Predictive modeling. Набор методик, которые позволяют создать математическую модель наперед заданного вероятного сценария развития событий. Например, анализ базы данных CRM-системы на предмет возможных условий, которые подтолкнут абоненты сменить провайдера.

Regression. Набор статистических методов для выявления закономерности между изменением зависимой переменной и одной или несколькими независимыми. Часто применяется для прогнозирования и предсказаний. Используется в data mining.

Sentiment analysis. В основе методик оценки настроений потребителей лежат технологии распознавания естественного языка человека. Они позволяют вычленить из общего информационного потока сообщения, связанные с интересующим предметом (например, потребительским продуктом). Далее оценить полярность суждения (позитивное или негативное), степень эмоциональности и проч.

Signal processing. Заимствованный из радиотехники набор методик, который преследует цель распознавания сигнала на фоне шума и его дальнейшего анализа.

Spatial analysis. Набор отчасти заимствованных из статистики методик анализа пространственных данных – топологии местности, географических координат, геометрии объектов. Источником больших данных в этом случае часто выступают геоинформационные системы (ГИС).

Statistics. Наука о сборе, организации и интерпретации данных, включая разработку опросников и проведение экспериментов. Статистические методы часто применяются для оценочных суждений о взаимосвязях между теми или иными событиями.

Supervised learning. Набор основанных на технологиях машинного обучения методик, которые позволяют выявить функциональные взаимосвязи в анализируемых массивах данных.

Simulation. Моделирование поведения сложных систем часто используется для прогнозирования, предсказания и проработки различных сценариев при планировании.

Time series analysis. Набор заимствованных из статистики и цифровой обработки сигналов методов анализа повторяющихся с течением времени последовательностей данных. Одни из очевидных применений – отслеживание рынка ценных бумаг или заболеваемости пациентов.

Unsupervised learning. Набор основанных на технологиях машинного обучения методик, которые позволяют выявить скрытые функциональные взаимосвязи в анализируемых массивах данных. Имеет общие черты с Cluster Analysis.

Visualization. Методы графического представления результатов анализа больших данных в виде диаграмм или анимированных изображений для упрощения интерпретации облегчения понимания полученных результатов.

[править]

Аналитический инструментарий

Некоторые из перечисленных в предыдущем подразделе подходов или определенную их совокупность позволяют реализовать на практике аналитические движки для работы с большими данными. Из свободных или относительно недорогих открытых систем анализа Big Data можно порекомендовать:[2]

Особый интерес в этом списке представляет Apache Hadoop – ПО с открытым кодом, которое за последние пять лет испытано в качестве анализатора данных большинством трекеров акций[3]. Как только Yahoo открыла код Hadoop сообществу с открытым кодом, в ИТ-индустрии незамедлительно появилось целое направление по созданию продуктов на базе Hadoop. В настоящее время практически все современные средства анализа больших данных предоставляют средства интеграции с Hadoop. Их разработчиками выступают как стартапы, так и общеизвестные мировые компании.

[править]

Решения IBM для анализа больших данных

20 марта 2012 года IBM представила три новые решения Smarter Analytics Signature Solutions для выявления фактов мошенничества, оценки рисков и анализа поведения потребителей. По оценкам IDC, компании потратят свыше $120 млрд до 2015 года на программно-аппаратные решения и сопутствующие сервисы, направленные на выявление скрытых закономерностей в «больших данных».

  • Решение Anti-fraud, Waste & Abuse призвано обнаруживать в режиме реального времени факты мошенничества, связанные с уклонением от уплаты налогов и страховыми выплатами, тем самым предотвращая неправомочные выплаты денежных средств. Кроме этого, соответствующие службы страховых компаний и государственных служб получат оптимальные рекомендации по дальнейшему разрешению возникающих инцидентов. При незначительных нарушениях они могут ограничиваться отправкой письма с требованием вернуть платеж, при более серьезных – поступает предложение провести полноценное расследование.
  • Решение Next Best Action должно помочь компаниям лучше узнать своих клиентов и выстроить с ними более содержательные взаимовыгодные отношения. Оно сможет проанализировать не только данные, накопленные в корпоративной CRM-системе, но и информацию из внешних источников, в частности, социальных сетей. Как следует из названия, результатом работы станет свод рекомендаций по дальнейшим действиям в зависимости от предпочтений и модели поведения отдельно взятого клиента.
  • Предпосылкой для создания решения CFO Performance Insight стали чрезвычайно высокие темпы роста объемов финансовой информации в компаниях, – по данным IBM, на уровне 70% в год. Новый аналитический инструментарий позволяет учитывать финансовые показали предыдущих лет, проводить моделирование по принципу «что если» и на основе полученных данных строить прогнозы.

Представленные решения включают разнообразные продукты IBM и услуги подразделения Global Business Services (GBS). Например, Anti-Fraud, Waste & Abuse сочетает ПО прогнозной аналитики IBM SPSS, iLog для управления правилами, интеграционную платформу WebSphere и хранилище данных Netezza. В решениях CFO Performance и Next-Best Action главенствующая роль принадлежит IBM Cognos, причем в последнем случае бизнес-аналитическое ПО работает в тесной связке с InfoSphere Big Insights – платформой, построенной на базе Apache Hadoop.

[править]

Адаптация технологий

[править]

Каждый второй ИТ-директор готов потратиться на Big data

После нескольких лет экспериментов с технологиями Big data и первых внедрений в 2013 году адаптация подобных решений значительно возрастет, прогнозируют вGartner[4]. Исследователи опросили ИТ-лидеров во всем мире и установили, что 42% опрошенных уже инвестировали в технологии Big data или планируют совершить такие инвестиции в течение ближайшего года (данные на март 2013 года.

Компании вынуждены потратиться на технологии обработки больших данных, поскольку информационный ландшафт стремительно меняется, требую новых подходов к обработки информации. Многие компании уже осознали, что большие массивы данных являются критически важными, причем работа с ними позволяет достичь выгод, не доступных при использовании традиционных источников информации и способов ее обработки. Кроме того, постоянное муссирование темы «больших данных» в СМИ подогревает интерес к соответствующим технологиям.

Фрэнк Байтендидк (Frank Buytendijk), вице-президент Gartner, даже призвал компании умерить пыл, поскольку некоторые проявляют беспокойство, что отстают от конкурентов в освоении Big data. «Волноваться не стоит, возможности для реализации идей на базе технологий «больших данных» фактически безграничны», - заявил он. По прогнозам Gartner, к 2015 году 20% компаний списка Global 1000 возьмут стратегический фокус на «информационной инфраструктуре».

В ожидании новых возможностей, которые принесут с собой технологии обработки «больших данных», уже сейчас многие организации организуют процесс сбора и хранения различного рода информации.

Для образовательных и правительственных организаций, а также компаний отрасли промышленности наибольший потенциал для трансформации бизнеса заложен в сочетании накопленных данных с так называемыми dark data (дословно – «темными данными»), к последним относятся сообщения электронной почты, мультимедиа и другой подобный контент. По мнению Gartner, в гонке данных победят именно те, кто научится обращаться с самыми разными источниками информации.

[править]

Эксперты: Big Data провоцируют все больше «шума»

Все без исключения вендоры на рынке управления данными сегодня ведут разработку технология для менеджмента Big Data. Этот новый технологический тренд также активно обсуждается профессиональными сообществом, как разработчиками, так и отраслевыми аналитиками и потенциальными потребителями таких решений.

Как выяснила компания Datashift, по состоянию на январь 2013 года волна обсуждений вокруг «больших данных» превысила все мыслимые размеры. Проанализировав число упоминаний Big Data в социальных сетях, в Datashift подсчитали, что за 2012 год этот термин употреблялся около 2 млрд раз в постах, созданных около 1 млн различных авторов по всему миру. Это эквивалентно 260 постам в час, причем пик упоминаний составил 3070 упоминаний в час.

Обсуждения Big Data в сети идут весьма активно. Причем, как видно из представленных выше круговых диаграмм, пик обсуждений только нарастает: если в первом квартале 2012 года насчитывалось более 504 тыс. упоминаний термина, то в четвертом квартале – уже более 800 тыс. Главные темы обсуждений применительно к большим данным – мифы и реальность, опыт использования, человеческий фактор, возврат инвестиций, новые технологии. Среди вендоров чаще всего упоминались компании Apache, 10gen, IBM, HP и Teradata.

[править]

Как справиться с большими данными

Невиданное прежде разнообразие данных, возникающих в результате огромного числа всевозможных транзакций и взаимодействий, предоставляет собой прекрасную фундаментальную базу для бизнеса по уточнению прогнозов, оценке перспектив развития продуктов и целых направлений, лучшего контроля затрат, оценки эффективности – список легко продолжать сколь угодно долго. С другой стороны, большие данные ставят непростые задачи перед любым ИТ-подразделением. Мало того, что они принципиально нового характера, при их решении важно учитывать накладываемые бюджетом ограничения на капитальные и текущие затраты.

ИТ-директор, который намерен извлечь пользу из больших структурированных и неструктурированных данных, должен руководствоваться следующими техническими соображениями[5]:

  • Разделяй и властвуй.

Перемещение и интеграция данных необходимы, но оба подхода повышают капитальные и операционные расходы на инструменты извлечения информации, ее преобразования и загрузки (ETL). Поэтому не стоит пренебрегать стандартными реляционными средами, такими как Oracle, и аналитическими хранилищами данных, такими как Teradata.

  • Компрессия и дедупликация.

Обе технологии существенно ушли вперед, например, многоуровневая компрессия позволяет сокращать объем `сырых` данных в десятки раз. Впрочем всегда стоит помнить какая часть сжатых данных может потребовать восстановления, и уже отталкиваясь от каждой конкретной ситуации принимать решение об использовании той же компрессии.

  • Не все данные одинаковы.

В зависимости от конкретной ситуации диапазон запросов для бизнес-аналитики меняется в широких пределах. Часто для получения необходимой информации достаточно получить ответ на SQL-запрос, но встречаются и глубокие аналитические запросы, требующие применения наделенных бизнес-интеллектом инструментов и обладающих полным спектром возможностей приборной доски и визуализации. Чтобы не допустить резкого увеличения операционных расходов, нужно тщательно подойти к составлению сбалансированного списка необходимых патентованных технологий в сочетании с открытым ПО Apache Hadoop.

  • Масштабирование и управляемость.

Организации вынуждены решать проблему разнородности баз данных и аналитических сред, и в этой связи возможность масштабирования по горизонтали и вертикали имеет принципиальное значение. Собственно, как раз легкость горизонтального масштабирования и стала одной из основных причин быстрого распространения Hadoop. Особенно в свете возможности параллельной обработки информации на кластерах из обычных серверов (не требует от сотрудников узкоспециальных навыков) и экономии таким образом инвестиций в ИТ-ресурсы.

[править]

Насколько велика разница между бизнес-аналитикой и большими данными?

Крейг Бати, исполнительный директор по маркетингу и директор по технологиям Fujitsu Australia, указывает, что сейчас бизнес-анализ является описательным процессом анализа результатов, достигнутых бизнесом в определенный период времени, между тем как скорость обработки больших данных позволяет сделать анализ предсказательным, способным предлагать бизнесу рекомендации на будущее. Технологии больших данных позволяют также анализировать больше типов данных в сравнении с инструментами бизнес-аналитики, что дает возможность фокусироваться не только на структурированных хранилищах.

Мэтт Слокум из O'Reilly Radar считает, что хотя большие данные и бизнес-аналитика имеют одинаковую цель (поиск ответов на вопрос), они отличаются друг от друга по трем аспектам.

  • Большие данные предназначены для обработки более значительных объемов информации, чем бизнес-аналитика, и это, конечно, соответствует традиционному определению больших данных.
  • Большие данные предназначены для обработки более быстро получаемых и меняющихся сведений, что означает глубокое исследование и интерактивность. В некоторых случаях результаты формируются быстрее, чем загружается веб-страница.
  • Большие данные предназначены для обработки неструктурированных данных, способы использования которых мы только начинаем изучать после того, как смогли наладить их сбор и хранение, и нам требуются алгоритмы и возможность диалога для облегчения поиска тенденций, содержащихся внутри этих массивов.
  • Согласно опубликованной компанией Oracle белой книге `Информационная архитектура Oracle: руководство архитектора по большим данным` (Oracle Information Architecture: An Architect's Guide to Big Data), при работе с большими данными мы подходим к информации иначе, чем при проведении бизнес-анализа.

Работа с большими данными не похожа на обычный процесс бизнес-аналитики, где простое сложение известных значений приносит результат: например, итог сложения данных об оплаченных счетах становится объемом продаж за год. При работе с большими данными результат получается в процессе их очистки путём последовательного моделирования: сначала выдвигается гипотеза, строится статистическая, визуальная или семантическая модель, на ее основании проверяется верность выдвинутой гипотезы и затем выдвигается следующая. Этот процесс требует от исследователя либо интерпретации визуальных значений или составления интерактивных запросов на основе знаний, либо разработки адаптивных алгоритмов `машинного обучения`, способных получить искомый результат. Причём время жизни такого алгоритма может быть довольно коротким.

Мировой рынок технологий Big Data

Подробнее: Big Data (мировой рынок)

Согласно прогнозу IDC (Worldwide Big Data technology and services forecast), вышедшему в марте 2012 года, рынок технологий и сервисов для обработки больших данных вырастет с $3,2 млрд в 2010 году до $16,9 млрд в 2015 году. Это соответствует среднегодовому темпу роста (CAGR) на уровне 40%, что примерно в 7 раз больше, чем среднегодовой темп роста всего ИКТ рынка в целом.

IDC указывает, что работа с Big Data станет еще одной must-have компетенцией в 2012 году. По данным IDC, в 2012 году буде сгенерировано около 2,43 Зеттабайт цифрового контента, что на 48% больше, чем в 2011 году. Более 90% этой информации будут представлять собой неструктурированные данные (изображения, видео, mp3 файлы и файлы социальных медиа), то есть данные, которые очень сложно поддаются анализу.

Исследование, проведенное LogLogic, показало, что 49% ИТ-руководителей уверены в готовности своих компаний справиться с Большими Данными. При этом 38%, напротив, признали, что даже не имеют подного представления о сути этого явления.

Big Data стал последним изобретенным аналитиками термином, призванным пустить пыль в глаза ИТ-менеджерам. Фактически это еще один способ указать, что компании накрывает волна данных, которые потребуют новых подходов в управлении и анализе. Эксперты сравнивают компании с кораблем, тянущим за собой гигантскую сеть и собирающим все, что в нее попадает. При этом объем пойманных морепродуктов, а также бесполезного мусора, постоянно растет. Сортировка, обработка и извлечение пользы из них становится действительно нетривиальным занятием, требующим принципиально иных механизмов.[править]

Ведущие игроки рынка

Интерес к инструментам сбора, обработки, управления и анализа больших данных проявляют едва ли не все ведущие ИТ-компании, что вполне закономерно. Во-первых, они непосредственно сталкиваются с этим феном в собственном бизнесе, во-вторых, большие данные открывают отличные возможности для освоения новых ниш рынка и привлечения новых заказчиков.

[править]

Новая волна стартапов

В последнее время появляется множество стартапов, которые делают бизнес на обработке огромных массивов данных. Часть из них используют готовую облачную инфраструктуру, предоставляемую крупными игроками вроде Amazon. Оговоримся сразу, через Google легко можно найти десятки других компаний за рамками представленного ниже списка.

[править]

Big Data в разных странах

[править]

Россия

В октябре 2013 года Корпорация EMC опубликовала результаты опроса, в рамках которого 678 ИТ-руководителей российских предприятий поделились своими взглядами на то, какие задачи и возможности, и, в том числе, новые компетенции, связывают они с большими данными и ИТ-трансформацией.

Российские специалисты отмечают, что использование больших данных ведет к существенному улучшению процессов принятия решений, положительно отражается на конкурентоспособности компаний и упрощает управление рисками.

  • 70% респондентов в России считают, что анализ данных их компании поможет принимать более взвешенные решения, а 35% респондентов подтверждают, что высшее руководство их компаний полагается на результаты аналитики больших данных при принятии принципиальных бизнес-решений.
  • 31% респондентов сообщили, что их компании получили конкурентное преимущество в результате внедрения технологий больших данных, а 51% респондентов считают, что отрасли, в которых используются такие инструменты, покажут наиболее высокий рост.
  • Более половины (51%) респондентов согласны, что технологии анализа больших данных сыграют решающую роль в выявлении и предотвращении кибер-атак; это может оказаться решающим фактором, так как только 67% респондентов в России уверены, что они смогут в случае необходимости полностью восстановить все свои данные.

В то же время опрос выявил ряд причин, влияющих на принятие решений о внедрении аналитики больших данных в российских компаниях:

  • 25% компаний, участвовавших в опросе, на данный момент не планируют внедрять технологии больших данных.
  • среди респондентов, не планирующих внедрение больших данных, 37% назвали основной причиной, препятствующей их внедрению, нерелевантность для бизнеса.

Поскольку компании в России по-прежнему видят в ИТ-инновациях основу конкурентного преимущества на внутреннем и внешнем рынке:

  • в число самых распространенных приоритетов для бизнеса, стимулирующих трансформацию ИТ, вошли эффективность бизнес-процессов/операционной деятельности (68%), улучшение обслуживания заказчиков и взаимодействия с ними (37%);
  • 76% респондентов отмечают, что инвестирование в технологии является стратегически важным фактором достижения
  • бизнес-целей их предприятия;
  • 71% респондентов прогнозируют, что в ближайшие три года важной задачей станет поддержание навыков специалистов на уровне, соответствующем темпам развития ИТ-технологий.
[править]

Индия

Индийский рынок ИТ постепенно начинает сбавлять темпы развития и индустрии приходится искать новые пути поддержания привычную динамику роста или способы не рухнуть вслед за другими отраслями в периоды мирового экономического кризиса. Разработчики ПО и приложений начинают предлагать новые варианты использования новейших технологий. Так некоторые индийские компании производят анализ покупательской активности на основе больших объемов неструктурированных данных (Big Data) и затем предлагают результаты исследований крупным магазинам и ритейловым сетям. Об этом сообщил 8 октября 2012 года Reuters.

Под пристальное изучение попали камеры видеонаблюдения, отчеты о покупках, запросах в интернете, отчеты о завершенных покупках с помощью того или иного веб-ресурса. "Эти данные могут нам дать понять о склонности посетителя к той или иной покупке, а следовательно эта информация дает ключ к заключению выгодной сделки для всех сторон", - цитирует Reutes генерального директора Бангалорской компании Mu Sigma Дхирая Раджарама (Dhiraj Rajaram), одной из крупнейших организаций, занимающейся анализом Big Data.

Дхирай Раджарам заметил, что основная часть подобного анализа производится в США, однако сейчас, когда бурное развитие Индийского ИТ-рынка начало ослабевать, компании обращают все более пристальное внимание в этому перспективному сегменту.

При этом, индийские компании при работе с Big Data чаще всего используют облачные технологии для хранения и обработки данных и результатов своей деятельности.

Объем общемировых данных, производимы в 2011 году оценивается, по мнению Дхирая Раджарама, в примерно 1,8 зеттабайт - 1,8 миллиарда терабайт, что эквивалентно 200 млрд. полнометражных фильмов высокой четкости.

Помимо анализа запросов и результатов обработки изображения с камер видеонаблюдения, огромный простор для работы Дхирай Раджарам видит в том, сколько информации от пользователей и покупателей появляется в социальных сетях. По его мнению этот относительно новый сегмент ИТ-рынка может стать драйвером всей индустрии в скором времени.

Индийская национальная ассоциация программного обеспечения и ИТ услуг (India's National Association of Software and Services Companies (Nasscom) прогнозирует шестикратный рост сегмента решения для работы с Big Data до 1,2 млрд долларов.

При этом общемировой рост Big Data составит более, чем 2 раза с 8,25 млрд долларов сейчас, до 25 млрд долларов в ближайшие несколько лет, считают в Nasscom.

[править]

Визуализация

Наглядное представление результатов анализа больших данных имеет принципиальное значение для их интерпретации. Не секрет, что восприятие человека ограничено, и ученые продолжают вести исследования в области совершенствования современных методов представления данных в виде изображений, диаграмм или анимаций. Казалось бы, ничего нового здесь придумать уже невозможно, но на самом деле это не так. В качестве иллюстрации приводим несколько прогрессивных методов визуализации, относительно недавно получивших распространение.

  • Облако тегов

Каждому элементу в облаке тега присваивается определенный весовой коэффициент, который коррелирует с размером шрифта. В случае анализа текста величина весового коэффициента напрямую зависит от частоты употребления (цитирования) определенного слова или словосочетания. Позволяет читателю в сжатые сроки получить представление о ключевых моментах сколько угодно большого текста или набора текстов.

  • Кластерграмма

Метод визуализации, использующийся при кластерном анализе. Показывает как отдельные элементы множества данных соотносятся с кластерами по мере изменения их количества. Выбор оптимального количества кластеров – важная составляющая кластерного анализа.

  • Исторический поток

Помогает следить за эволюцией документа, над созданием которого работает одновременно большое количество авторов. В частности, это типичная ситуация для сервисов wiki и сайта tadviser в том числе. По горизонтальной оси откладывается время, по вертикальной – вклад каждого из соавторов, т.е. объем введенного текста. Каждому уникальному автору присваивается определенный цвет на диаграмме. Приведенная диаграмма – результат анализа для слова «ислам» в Википедии. Хорошо видно, как возрастала активность авторов с течением времени.

  • Пространственный поток

Эта диаграмма позволяет отслеживать пространственное распределение информации. Приведенная в качестве примера диаграмма построена с помощью сервиса New York Talk Exchange. Она визуализирует интенсивность обмена IP-трафиком между Нью-Йорком и другими городами мира. Чем ярче линия – тем больше данных передается за единицу времени. Таким легко, не составляет труда выделить регионы, наиболее близкие к Нью-Йорку в контексте информационного обмена.

[править]

История

Сама по себе концепция «больших данных» не нова, она возникла во времена мэйнфреймов и связанных с ними научных компьютерных вычислений[6]. Как известно, наукоемкие вычисление всегда отличались сложностью и обычно неразрывно связаны с необходимостью обработки больших объемов информации.

Вместе с тем, непосредственно термин «большие данные» появился в употреблении относительно недавно. Он относится к числу немногих названий, имеющих вполне достоверную дату своего рождения — 3 сентября 2008 года, когда вышел специальный номер старейшего британского научного журнала Nature, посвященный поиску ответа на вопрос «Как могут повлиять на будущее науки технологии, открывающие возможности работы с большими объемами данных?». Специальный номер подытоживал предшествующие дискуссии о роли данных в науке вообще и в электронной науке (e-science) в частности[7].

Можно выявить несколько причин, вызвавших новую волну интереса к большим данным. Объемы информации растут по экспоненциальному закону и ее львиная доля относится к неструктурированным данным. Другими словами, вопросы корректной интерпретации информационных потоков становятся все более актуальными и одновременно сложными. Реакция со стороны ИТ-рынка последовала незамедлительно – крупные игроки приобрели наиболее успешные узкоспециализированные компании и начали развивать инструменты для работы с большими данными, количество соответствующих стартапов и вовсе превосходит все мыслимые ожидания.

Наряду с ростом вычислительной мощности и развитием технологий хранения возможности анализа больших постепенно становятся доступными малому и среднему бизнесу и перестают быть исключительно прерогативой крупных компаний и научно-исследовательских центров. В немалой степени этому способствует развитие облачной модели вычислений.

Впрочем, с дальнейшим проникновением ИТ в бизнес-среду и повседневную жизнь каждого из нас подлежащие обработке информационные потоки продолжают непрерывно расти. И если сегодня большие данные – это петабайты, завтра придется оперировать с экзабайтами и т.д. Очевидно, что в обозримой перспективе инструменты для работы с такими гигантскими массивами информации все еще будут оставаться чрезмерно сложными и дорогими.

[править]

Кому выгодны большие данные

Трудно найти отрасль, для которой проблематика больших данных была бы неактуальной. Умение оперировать большими объемами информации, анализировать взаимосвязи между ними и принимать взвешенные решения, с одной стороны, несет потенциал для компаний из различных вертикалей для увеличения показателей доходности и прибыльности, повышения эффективности. С другой стороны, это прекрасная возможность для дополнительного заработка партнерам вендоров – интеграторам и консультантам.

Чтобы подчеркнуть выгоды от развития и внедрения инструментов работы с большими данными компания McKinsey предлагает приведенную ниже статистику. Она имеет привязку преимущественно к рынку США, но ее нетрудно экстраполировать и на другие экономически развитые регионы.

Потенциальный объем рынка здравоохранения в США составляет 300 млрд долл. в год – в два с лишним раза больше, чем в Испании. Часть этой огромной суммы идет на внедрение современных ИТ, и очевидно, большие данные не останутся в стороне.

Суммарный годовой бюджет органов государственной власти в Европе достигает 250 млрд евро – это больше, чем ВВП Греции.

Монетизация геолокационных сервисов способна принести 600 млрд долл. дополнительных доходов участникам рынка.

Использование инструментов анализа «больших данных» в розничных сетях потенциально может привести к увеличению прибыльности на 60%.

Только в США для эффективной обработки «больших данных» понадобится 140-190 тыс. аналитиков и свыше 1,5 млн менеджеров для управления информационными массивами.

Американские компании в 15 из 17 отраслей экономики располагают большими объемами данных, чем библиотека Конгресса США.

[править]

Big Data поможет увеличить ИТ-бюджеты

В ходе исследования (весна 2013 года) под названием Cisco Connected World Technology Report, проведенного в 18 странах независимой аналитической компанией InsightExpress, были опрошены 1 800 студентов колледжей и такое же количество молодых специалистов в возрасте от 18 до 30 лет. Опрос проводился, чтобы выяснить уровень готовности ИТ-отделов к реализации проектов Big Data и получить представление о связанных с этим проблемах, технологических изъянах и стратегической ценности таких проектов.

Более половины опрошенных ИТ-руководителей считают, что проекты Big Data помогут увеличить ИТ-бюджеты в их организациях, так как будут предъявляться повышенные требования к технологиям, персоналу и профессиональным навыкам. При этом более половины респондентов ожидают, что такие проекты увеличат ИТ-бюджеты в их компаниях уже в текущем году. 57 процентов уверены в том, что Big Data увеличит их бюджеты в течение следующих трех лет.

81 процент респондентов заявили, что все (или, по крайней мере, некоторые) проекты Big Data потребуют применения облачных вычислений. Таким образом, распространение облачных технологий может сказаться на скорости распространения решений Big Data и на ценности этих решений для бизнеса.

Почти половина (48 процентов) ИТ-руководителей прогнозирует удвоение нагрузки на их сети в течение ближайших двух лет. (Это особенно характерно для Китая, где такой точки зрения придерживаются 68 процентов опрошенных, и Германии – 60 процентов). 23 процента респондентов ожидают утроения сетевой нагрузки на протяжении следующих двух лет. При этом лишь 40 процентов респондентов заявили о своей готовности к взрывообразному росту объемов сетевого трафика.

27 процентов опрошенных признали, что им необходимы более качественные ИТ-политики и меры информационной безопасности. 21 процент нуждается в расширении полосы пропускания.

[править]

Влияние Big Data на ИТ-отделы

Big Data открывает перед ИТ-отделами новые возможности для наращивания ценности и формирования тесных отношений с бизнес-подразделениями, позволяя повысить доходы и укрепить финансовое положение компании. Проекты Big Data делают ИТ-подразделения стратегическим партнером бизнес-подразделений.

По мнению 73 процентов респондентов, именно ИТ-отдел станет основным локомотивом реализации стратегии Big Data. При этом, считают опрошенные, другие отделы тоже будут подключаться к реализации этой стратегии. Прежде всего, это касается отделов финансов (его назвали 24 процента респондентов), научно-исследовательского (20 процентов), операционного (20 процентов), инженерного (19 процентов), а также отделов маркетинга (15 процентов) и продаж (14 процентов).

[править]

Большие данные – большие проблемы

Если производительность современных вычислительных систем за несколько десятилетий выросла на многие порядки и не идет ни в какое сравнение с первыми персональными ПК образца начала 80-х гг. прошлого столетия, то с СХДдела обстоят гораздо хуже. Безусловно, доступные объемы многократно увеличились (впрочем, они по-прежнему в дефиците), резко снизилась стоимость хранения информации в пересчете на бит (хотя готовые системы по-прежнему слишком дорогие), однако скорость извлечения и поиска нужной информации оставляет желать лучшего.

Если не брать в рассмотрение пока еще слишком дорогие и не вполне надежные и долговечные флэш-накопители, технологии хранения информации не очень далеко ушли вперед. По-прежнему приходится иметь дело с жесткими дисками, скорость вращения пластин которых даже в самых дорогих моделях ограничена на уровне 15 тыс. об./мин. Коль скоро речь идет о больших данных, очевидно, немалое их количество (если не подавляющее) размещается на накопителях со скоростью вращения шпинделя 7,2 тыс. об./мин. Достаточно прозаично и грустно.

Обозначенная проблема лежит на поверхности и хорошо знакома ИТ-директорам компаний. Впрочем, она далеко не единственная[8]:

  • Технологическое отставание.

Большие данные могут превратиться в большую головную боль или открыть большие возможности перед правительственными учреждениями, если только они сумеют ими воспользоваться. К таким выводам пришли во втором квартале 2012 года авторы исследования с неутешительным названием The Big Data Gap (с англ. gap – «расхождение», в данном контексте между теоретическими выгодами и реальным положением дел). По результатам опроса 151 ИТ-директора в ближайшие два года объемы хранимых данных в государственных учреждениях увечатся на 1 Петабайт (1024 Терабайт). В то же время извлекать выгоды из постоянно растущих информационных потоков становится все сложнее, сказывается недостаток доступного пространства в СХД, затрудняется доступ к нужным данным, не хватает вычислительной мощности и квалифицированного персонала.

Находящиеся в распоряжении ИТ-менеджеров технологии и приложения демонстрируют существенное отставание от требований реальных задач, решение которых способно принести большим данным дополнительную ценность. 60% представителей гражданских и 42% оборонных ведомств пока только занимаются изучением феномена больших данных и ведут поиск возможных точек его приложения в своей деятельности. Основной, по мнению ИТ-директоров федеральных органов власти, должно стать повышение эффективности работы – так считают 59% респондентов. На втором месте находится повышение скорости и точности принимаемых решений (51%), на третьем – возможность строить прогнозы (30%).

Как бы там ни было, но потоки обрабатываемых данных продолжают расти. На увеличение объемов хранимой информации в течение последних двух лет указали 87% опрошенных ИТ-директоров, на сохранение этой тенденции в перспективе ближайших двух лет рассчитывают уже 96% респондентов (со средним приростом 64%). Чтобы суметь воспользоваться всеми преимуществами, которые сулят большие данные, принимавшим участие в опросе учреждениям понадобится в среднем три года. Пока только 40% органов власти принимают стратегические решения, основываясь на накапливаемых данных, и лишь 28% взаимодействуют с другими организациями для анализа распределенных данных.

  • Низкое качество данных.

В большом доме всегда сложнее навести порядок, нежели в крохотной квартирке. Здесь можно провести полную аналогию с большими данными, при работе с которыми очень важно придерживаться формулы `мусор на входе — золото на выходе`. К сожалению, современные инструменты управления мастер-данными недостаточно эффективны и нередко приводят к обратным ситуациям (`золото на входе — мусор на выходе`).

  • Метаданные: осведомлен – значит вооружен.

Запрос, который хорошо справляется с поиском сотни строк из миллиона, может не справиться с таблицей из ста миллиардов строк. Если данные часто меняются, крайне важно вести журнал и проводить аудит. Выполнение этих несложных правил позволит располагать важной для выработки методики хранения и работы с данными информации об объеме данных, скорости и частоте его изменения.

  • Скажи мне кто твой друг – и я скажу кто ты.

Правильно интерпретировать скрытые в массивах больших данных тенденции и взаимосвязи могут в буквальном смысле считанные подготовленные специалисты. В некоторой степени их способны заменить фильтры и распознаватели структур, но качество получаемых на выходе результатов пока оставляет желать лучшего.

  • Визуализация.

Одноименный раздел статьи наглядно иллюстрирует всю сложность и неоднозначность используемых подходов для визуализации больших данных. В то же время, представление результатов в доступной для восприятия форме подчас имеет критически важное значение.

  • Время – деньги.

Просмотр данных в реальном времени означает необходимость постоянного пересчета, что далеко не всегда приемлемо. Приходится идти на компромисс и прибегать к ретроспективному способу аналитики, например, на базе кубов, и мириться с отчасти устаревшими результатами.

  • Палить из пушки по воробьям.

Никогда нельзя знать заранее на каком временном промежутке большие данные представляют особую ценность и наиболее релевантны. А ведь сбор, хранение, анализ, создание резервных копий требует немалых ресурсов. Остается оттачивать политику хранения и, конечно, не забывать применять ее на практике.

[править]

Без больших иллюзий

Аналитики компаний Ovum и Gartner предполагают, что для модной в 2012 году темы Больших Данных может настать время освобождения от иллюзий.

Термином «Большие Данные», как правило, обозначают постоянно растущий объем информации, поступающей в оперативном режиме из социальных медиа, от сетей датчиков и других источников, а также растущий диапазон инструментов, используемых для обработки данных и выявления на их основе важных бизнес-тенденций.

«Из-за шумихи (или несмотря на нее) относительно идеи Больших Данных производители в 2012 году с огромной надеждой смотрели на эту тенденцию», — отметил Тони Байер, аналитик Ovum.

Байер сообщил, что компания DataSift провела ретроспективный анализ упоминаний Больших Данных в Twitter за 2012 год. Ограничивая поиск производителями, аналитики хотели сфокусироваться на восприятии этой идеи рынком, а не широким сообществом пользователей. Аналитики выявили 2,2 млн твитов от более чем 981 тыс. авторов.

Эти данные различались в разных странах. Хотя общепринято убеждение, что США лидирует по показателю установленных платформ для работы с Большими Данными, пользователи из Японии, Германии и Франции часто были более активны в обсуждениях.

Идея Больших Данных привлекла столь большое внимание, что об этом широко писала даже бизнес-пресса, а не только специализированные издания.

Число положительных отзывов о Больших Данных со стороны производителей в три раза превышало число отрицательных, хотя в ноябре в связи с покупкой компанией HP компании Autonomy наблюдался всплеск негатива.

Концепцию Больших Данных ожидают намного более суровые времена, хотя, миновав их, эта идеология достигнет зрелости.

«Для сторонников Больших Данных наступает время расставания с иллюзиями», — пояснила Светлана Сикулар, аналитик Gartner. Она сослалась на обязательную стадию, входящую в классическую кривую цикла популярности (Hype Cycle), которую используют в Gartner.

Даже среди тех клиентов, которые добились наибольших успехов с использованием Hadoop, многие «утрачивают иллюзии». «Они отнюдь не чувствуют, что находятся впереди других, и полагают, что успех выпадает другим, в то время как они переживают не лучшие времена. У этих организаций потрясающие идеи, а теперь они разочарованы из-за трудностей в выработке надежных решений», — сказала Сикулар.

Впрочем, источником оптимизма для сторонников Больших Данных может быть то, что следующий цикл на кривой популярности, а также завершающие этапы имеют весьма многообещающие названия, а именно «склон просвещения» и «плато продуктивности».

[править]

Решение проблем - в модернизации ЦОДов

Результаты исследования корпорации Oracle свидетельствуют о том, что многие компании, по всей видимости, застигнуты врасплох бумом «больших данных». «Борьба с «большими данными», похоже, станет самой большой ИТ-задачей для компаний в ближайшие два года, – считает Луиджи Фрегуйя (Luigi Freguia), старший вице-президент по аппаратному обеспечению Oracle в регионе EMEA. – К концу этого периода они либо справятся с ней, либо значительно отстанут в бизнесе и будут далеки как от угроз, так и от возможностей «больших данных».

Задача по «освоению» больших данных является уникальной, признают в Oracle. Главным же ответом компаний на вызовы big data должна стать модернизация корпоративных центров обработки данных (ЦОД).

Чтобы оценить степень готовности компаний к изменениям внутри ЦОДов, на протяжении почти двух лет Oracle вместе с аналитической компанией Quocirca собирала данные для исследования Oracle Next Generation Data Centre Index (Oracle NGD Index). Этот индекс оценивает прогресс компаний в вопросе продуманного использования ЦОДов для улучшения производительности ИТ-инфраструктуры и оптимизации бизнес-процессов.

Исследование состояло из двух фаз (циклов), и аналитики заметили существенные изменения всех ключевых показателей уже на пороге второго этапа. Средний балл по Oracle NGD Index, который набрали участники опроса из Европы и Ближнего Востока, составил 5,58. Максимальный балл –10,0 – отражает наиболее продуманную стратегию использования ЦОДов.

Средний балл (5,58) стал выше по сравнению с первым циклом исследования, проведенным в феврале 2011 года, – 5,22. Это говорит о том, что компании в ответ на бум «больших данных» увеличивают инвестиции в стратегии развития ЦОДов. Все страны, отрасли и направления в рамках отраслей, охваченные исследованием, повысили индекс Oracle NGD Index по результатам второго цикла в сравнении с первым.

Скандинавия и регион DCH (Германия/ Швейцария) занимают лидирующие позиции по устойчивому развитию с индексом (Sustainability Index) в 6,57. Далее в этом рейтинге следует Бенилюкс (5,76) и, затем, Великобритания с показателем 5,4, что уже ниже среднего уровня.

У России, которая была включена в список стран/регионов только во втором цикле исследования и не участвовала в первом, есть значительный потенциал для роста (показатель 4,62), отмечают аналитики.

Согласно исследованию, российские организации рассматривают поддержку роста бизнеса в качестве важной причины для инвестиций в ЦОДы. Более 60% компаний видят необходимость таких инвестиций сегодня или в ближайшем будущем, предполагая, что организации в скором времени обнаружат, что конкурировать становится невероятно сложно, если и пока не сделать соответствующие инвестиции.

В целом в мире доля респондентов с собственными корпоративными ЦОДами снизилась с 60% по результатам первого цикла исследования до 44% на втором цикле исследования, напротив, использование внешних ЦОДов возросло на 16 пунктов до 56%.

Лишь 8% респондентов заявили, что им не нужны новые мощности ЦОДа в обозримом будущем. 38% респондентов видят необходимость в новых мощностях ЦОДа в пределах двух ближайших лет.Лишь 6,4% респондентов сообщили, что в их организации нет плана устойчивого развития, связанного с использованием ЦОДа. Доля руководителей ЦОДов, которые просматривают копии счетов на оплату электроэнергии, выросла с 43,2% до 52,2% за весь период исследования.

[править]

Проблема больших данных в различных отраслях

[править]

Big data и медиа

Требования к хранению больших данных в индустрии медиа и развлечений по мере роста разрешения видео возрастают очень быстро (июль 2012 г). Распространение стандарта HD и мобильного видео потребления стимулируют возникновение лавинообразного спроса на соответствующий цифровой контент. В связи с этим растет и спрос на решения хранения данных и на HDD для создания архивных видиотек, по данным аналитиков Coughlin Associates[9].

Значительно выросло проникновение конкретно в этой индустрии флеш-накопителей – до 37% в 2012 году. Флеш-память играет одну из ключевых ролей в распространении контента и пост продакшене, отмечают исследователи. В период с 2012 по 2017 год требования к емкости цифровых хранилищ данных в индустрии развлечений вырастет в 5,6 раз, а требования к задействованному объему хранилищ данных в год – в 4 раза (с 22425 Пб до 87152 Пб).

Выручка от реализации систем хранения в отрасли медиа и развлечений вырастут более чем в 1,4 раза в период с 2012 по 2017 годы с $5,6 млрд до $7,8 млрд. Максимально решения для хранения данных в 2012 году были задействованы для сохранения и архивирования нового контента (98%).

По оценкам Coughlin Associates, в 2012 году от общего объема поставленной памяти 43% пришлось на ленточный формат, 41% на HDD, 16% на оптические диски и 0,2% на флеш (которая используется в основном в цифровых камерах и некоторых системах дистрибуции медиа). К 2017 году на ленты будет приходиться только 38%, а на HDD – уже 59%, на оптические диски – 3% и на флеш – 0,3%.

Общая выручка от реализации носителей и устройств, используемых в медиа и индустрии развлечений, вырастет в период с 2012 по 2017 год в 1,3 раза с $774 млн до $974 млн.

[править]

Информационной экономике нужны миллионы ИТ-сотрудников

Мировые ИТ расходы достигнут $3,7 млрд к 2013 году, что на 3,8% больше расходов на информационные технологии в 2012 году (прогноз на конец года составляет $3,6 млрд). Сегмент больших данных (big data) будет развиваться гораздо более высокими темпами, говорится в отчете Gartner[10].

К 2015 году 4,4 млн рабочих мест в сфере информационных технологий будет создано для обслуживания больших данных, из них 1,9 млн рабочих мест – в США. Более того, каждое такое рабочее место повлечет за собой создание трех дополнительных рабочих мест за пределами сферы ИТ, так что только в США в ближайшие четыре года 6 млн человек будет трудиться для поддержания информационной экономики.

По мнению экспертов Gartner, главная проблема состоит в том, что в отрасли для этого недостаточно талантов: как частная, так и государственная образовательная система, например, в США не способны снабжать отрасль достаточным количеством квалифицированных кадров. Так что из упомянутых новых рабочих мест в ИТ кадрами будет обеспечено только одно из трех.

Аналитики полагают, что роль взращивания квалифицированных ИТ кадров должны брать на себя непосредственно компании, которые в них остро нуждаются, так как такие сотрудники станут пропуском для них в новую информационную экономику будущего.

[править]

Спрос на администраторов big data

46% директоров ИТ-служб, опрошенных в конце 2011 года кадровым агентством Robert Half, называют самой востребованной специальностью администрирование баз данных. Администрирование сетей назвали 41% опрошенных, администрирование систем Windows — 36%, техническую поддержку настольных приложений — 33%, а бизнес-аналитику и средства составления отчетов — 28%.

Обработка больших объемов данных становится серьезной проблемой для многих компаний, и это повышает спрос на специалистов по управлению базами данных, заключают в Robert Half. Помимо роста объемов неструктрированных данных (например, сообщений в социальных сетях), спрос повышается из-за подготовки к введению в Европе новых нормативных требований — в том числе стандартов платежеспособности Solvency II для страховых компаний и стандартов капитала и ликвидности Basel III для банковского сектора.

Аналитики Robert Half предсказывают также дефицит специалистов по мобильным и облачным технологиям. Их вывод основан на том, что 38% опрошенных ИТ-директоров главным направлением инвестиций назвали мобильные технологии, а 35% — виртуализацию.

[править]

Примечания

  1. Gartner Says Solving 'Big Data' Challenge Involves More Than Just Managing Volumes of Data
  2. Как анализировать большие данные
  3. Большие планы на «большие данные»
  4. Gartner Survey Finds 42 Percent of IT Leaders Have Invested in Big Data or Plan to Do So
  5. Making the Most of Big Data
  6. 2012-й: «облачный» год для «больших данных»
  7. Большие Данные — новая теория и практика
  8. Managing Big Data: Six Operational Challenges
  9. 2012 Digital Storage for Media and Entertainment Report
  10. Gartner Says Big Data Creates Big Jobs: 4.4 Million IT Jobs Globally to Support Big Data By 2015
Comments