Большие данные

Большие данные
JayaDigital

Большие данные

В связи с этим в IT-сообществах все чаще обсуждается концепция «больших данных» (big data), т.е. подходов, инструментов и методов обработки данных огромных объёмов. Можно выделить три основные характеристики больших данных:

  • объем — стремительно растущие размеры массивов данных; 
  • многообразие — все виды хранения информации: текст, структурированные таблицы, документы, электронная почта, SMS, данные измерительных приборов, видео, аудио, данные биржевых торгов и многое другое;
  • быстродействие — время выдачи информации по запросу, способность оперативно реагировать на задачи и проблемы компании. Все три параметра являются критически важными в решении задачи обработки больших данных.

Но дело здесь даже не в сложности хранения и обработки очень больших массивов данных. У больших данных есть своя, очень любопытная специфика, которую, например, можно наблюдать в таких сервисах, как Google Flu Trends (сервис, который позволяет определить скорость распространения вируса гриппа в различных странах) и переводчике Google Translate. Как не странно, оперирование огромными объемами данных не мешает работе сервисов, а наоборот – помогает выдавать более точные результаты, и с большей скоростью. Логика здесь скрывается та же, что и при собирании головоломки-«паззла»: новые фрагменты добавлять гораздо легче, когда большая часть головоломки уже собрана, не смотря на то, что, вроде бы, из-за большего количества наличествующих фрагментов процесс должен становится сложнее.

Джефф Джонас, аналитик и специалист по данным из IBM, вывел три свойства больших данных:

1. Лучшие результаты. Большие данные уменьшают количество неверных ответов.

2. Нет плохих данных. Любая неверная информация тоже приносит пользу.

3. Чем больше данных, тем быстрее работа. Чем больше информации в базе данных, тем быстрее идет процесс получения результата.

Помимо очевидных преимуществ для аналитики в любой отрасли, большие данные приносят ряд весомых преимуществ в маркетинг. Скажем, оперируя массивами информации, ежедневно поступающими от социальных сетей, компании могут действительно прислушиваться к мнениям своих клиентов. От этого выигрывают все – клиенты знают, что их голос будет услышан, а компания приобретает лояльность клиентов. Обработка данных от пользователей помогают компаниям больше узнать о потребителях и лучше приспособить свои предложения к рынку. Это не просто слова - согласно исследованию McKinsey Institute, использование инструментов анализа «больших данных» в розничных сетях потенциально может привести к увеличению прибыльности на 60%.

Конечно, работа с большими данными требует специальных технологий. Сейчас уже существует несколько различных подходов и методов, на основе которых построены системы управления базами данных, многие из которых являются открытыми и свободно распространяемыми (Hadoop, Cassandra, Lucene).

Еще одним затруднением, связанным с большими данными, является проблема конфиденциальности. Профилированные технологии позволяют сделать анализ поведения человека и его предпочтений, в результате чего можно получить такую информацию о людях, о которой даже они остаются в неведении. Поэтому, кампаниям нужно применять методы больших данных с аккуратностью и осторожностью, в первую очередь думая о своих клиентах.

Однако, несмотря на все связанные с ними сложности, большие данные несомненно стоят всех усилий и затрат. За ними будущее, причем буквально – в докладе аналитиков фирмы Gartner сообщается, что к 2020 году обработка больших объемов данных станет стандартной функцией продуктов всех основных разработчиков корпоративного программного обеспечения, а архитектурные подходы, инфраструктура, оборудование и программы, не рассчитанные на работу с большими данными, будут считаться устаревшими.

 

Источник: http://www.ibm.com/smarterplanet