5‎ > ‎f‎ > ‎

f

Тема: Большой данных

  • Следуйте через:
  • RSS
  • Оповещение по электронной почте

Большой данных, добыча данных и машинного обучения, рецензия на книгу: звук, но традиционный подход

Резюме: Эта книга объясняет, что она охватывает очень хорошо, но в поле, движется так быстро, как большие данные и машинного обучения, его звук, но довольно традиционный подход, возможно, скоро смотреть немного устаревшей.

Мэри Branscombe для ZDNet UK Книга отзывов | 3 сентября 2014 - 10:23 GMT (3:23 PDT)

Следуйтеmarypcbuk 0Комментарии
  • Email
  • Печать
  • Google+
  • Del.icio.us
  • Digg
  • StumbleUpon
  • Reddit
  • Pinterest
  • Slashdot
0Комментарии
  • Email
  • Печать
  • Google+
  • Del.icio.us
  • Digg
  • StumbleUpon
  • Reddit
  • Pinterest
  • Slashdot
большой данных бухгалтерского оставил Большой данных, добыча данных и машинного обучения: Создание стоимости для бизнес-лидеров и специалистов-практиков • Джаред Дин • John Wiley & Sons • 288 страниц • ISBN 978-1-118-61804-2 • £ 42.50

Большие данные и машинного обучения являются движителем некоторые из сегодняшних самых больших онлайн-бизнеса и услуг. Если вы хотите принять эти технологии в своем бизнесе, вы должны понимать, не только то, что они делают, но и то, как они это делают. Большие Данные Джаред Дина, добычи данных и машинного обучения обещает помочь бизнес-лидеры понимают потенциал и дать указания для тех, кто столкнулся с положив методы на практике.

Первая глава делает отличную работу, объясняя, что большие данные на самом деле (в том числе разумной комментарий, большими данными восходит к просто быть данные, когда работа с ним становится рутиной), а также, почему работа с полным набором данных может быть так много более эффективным, чем при использовании образца. Это большая работа, чтобы убедиться, что ваш образец является статистически значимым, а некоторые поведение просто не будет отображаться, если вы посмотрите на всех данных.

Но с самого начала, знак вопроса поднят вопрос о подходе к книге. Примечание во введении (вклад с помощью аналитика специалиста коллега Джаред Дин) предлагает все алгоритмы в книге, по крайней мере 15 лет и что "принципиально новые алгоритмы не нужны", - хотя автор также указывает, в первый глава, в которой алгоритмы "созрел" в последнее время. Теперь это правда, что старые алгоритмы (все пути назад к различным формам статистической регрессии) сделать много ездить прогнозных систем, но игнорирует различные достижения в машинном обучении, которые находятся за некоторые из самых больших последних событиях.

Джаред Дин работает на SAS, который был в прогностической аналитики в течение длительного времени, так что имеет смысл, что он охватывает классику. Но было бы ошибкой игнорировать более свежие алгоритмы, потому что это быстро развивающаяся область, - даже глубоко, узнав, что это за состояние дел в современных распознавания речи и Image Matching, будет находиться в пределах досягаемости для компаний, желающих работать с большими данными в ближайшем будущем.

В самом деле, Дин проводит много времени размещения информации в историческом контексте, с его шкале большой данных, связанных с развитием в горшках истории компьютерных компонентов и технологий баз данных. Это, безусловно, стоит отметить, что ваш большой информационный проект потерпит неудачу, если вы не имеете достаточно хорошее оборудование, чтобы сделать это реагировать, но информация, представленная здесь, не является достаточно подробным, чтобы помочь вам разработать систему, а так же с все оборудование рекомендациями, которые он скоро устареет. Там нет упоминания вообще работать все это в облаке, несмотря на как Google и Microsoft предлагают облачные машинного обучения и аналитика инструменты.

Перечень соответствующих программных средств и чувствует себя несколько вишней, охватывающих R, Python и несколько специальных инструментов, с большей частью площади, отведенной SAS (как вы могли бы ожидать от автора, который работает на SAS).

Несмотря на свое название, эта книга намного больше о больших данных и интеллектуального анализа данных для прогнозного анализа, чем это о машинном обучении.

Гораздо более полезным является раздел, посвященный Predictive Analytics, который сочетает в себе здравого смысла объяснения принципов и довольно подробности на высоком уровне статистических методов, участвующих. Вы также получите много истории по пути, из комментария на социальную фоне двух различных математиков по чья работа регрессионный анализ основан, в истории нейронных сетей. Последнее секция имеет множество подробностей о досрочном работы, как перцептрона, краткие сведения о ключевых изменениях в 1980-х годах о вперед и назад распространения, но потом скачком в настоящее время, когда нейронные сети стали широко использоваться - без покрытия либо из событий что сделали их популярными снова.

Это где концентрация на старых алгоритмов может ввести в заблуждение. Глубокое изучение - методика машинного обучения это в настоящее время преобразования сложных проблем искусственного интеллекта, как распознавание речи и классификации изображений до того, что Google, Microsoft, Facebook и Baidu все нанимать ключевых исследователей в этой области - отвергается в трех пунктах и ​​два вне дата ссылки. Тогда мы вернулись к статистически более ориентированных методов, таких как регрессии деревьев и байесовских сетей классификации и перейти к сегментации, кальцификации и моделирования реакций. Раздел о интеллектуального анализа данных информацию, которая расположены в хронологическом порядке отлично, но детали рекомендации и рейтинг краткие и очень сосредоточено на статистическом подходе.

На протяжении всей книги, хорошо подобранный реального мира объяснения - от разработки, что надеть на сколько времени небольшая задержка оставляя переполненный событие, может добавить к вашей поездке - помочь внести ясность в сложные статистические понятия, которые составляют большинство содержания. Это особенно хорошо работает в главе, посвященной добыче текст, который работает с помощью расширенного например, о Jeopardy! вопросы, чтобы показать, насколько мощным это может быть. Кроме того, заключительный раздел тематических исследований, показывающих, как некоторые компании используют большие данные очень полезны, потому что он идет в подробности о том, как они выбрали и строили свои модели.

Свет на машинном обучении

Большой данных, добыча данных и машинного обучения заканчивается опроса молнии предстоящих событиях, повторяет вид Дина, что "классические" алгоритмы в этой области хорошо проверены и будут служить в течение долгого времени, и подчеркивает его скептицизм по поводу недавних достижений. Там нет покрытия добычи сущности, выявление признаков и позиционирования методов, которые быстро становятся скобы в современной машинного обучения. Более важный принцип объединения нескольких алгоритмов тренироваться, оценивать и управлять своим машинного обучения, сравнивая результаты различных алгоритмов машинного обучения, чтобы посмотреть на цифры ложных срабатываний и негативов вы получаете, покрыта всего за пару страниц. И нет ничего о эвристики, которые необходимо применить к системам машинного обучения, чтобы сделать их пригодными вашу проблему пространство правильно.

В самом деле, несмотря на свое название, эта книга намного больше о больших данных и интеллектуального анализа данных для прогнозного анализа, чем это о машинном обучении. Это не объясняет, что она охватывает очень хорошо, ни скользя на слишком высоком уровне, чтобы быть полезным, ни застрять в сорняков реализации и технических деталей. Но в поле, движется так быстро, как большие данные и машинного обучения, этот звук, а скорее традиционный подход, возможно, скоро смотреть немного устаревшей.

Темы: Большой данных, в нерабочее время, Отзывы

О Марии Branscombe

Мэри Бранскомб является независимым Технология журналист. Мэри была технология писатель на протяжении почти двух десятилетий, охватывающих все, начиная от ранних версиях Windows, и в офисе на первых смартфонов, прибытие в Интернете и большинство вещей между ними.

zdnet_core.socialButton.googleLabel Followmarypcbuk Контакт

#auto

Comments