Big Data: что это такое простыми словами, технология больших данных (биг дата, дейта), характеристики, обработка, методы работы, определение, системы анализа

Если постараться дать определение простыми словами, что такое big data (биг дата или в переводе большой объем данных), то это обобщающее название для информационного потока, технологии, методов его обработки и системы анализа. Он обрабатывается путем применения программных инструментов, ставших аналогом традиционным базам и решениям Business Intelligence. Все действия направлены на структурирование и получение новых выводов.

Что это такое

IT-сфера уверенно заполняет пространство вокруг людей. Однако получаемые знания не могут уходить «вникуда», а учитывая колоссальный размер, хранилище должно быть объемным. Человечество уже давно перешло на цифровые носители, при этом все они отличаются по размеру.

Для работы с большими массивами информации нужен специальный набор инструментов и методик, чтобы с их помощью решать конкретные поставленные задачи. По сути, совокупность различных данных и инструментарий работы с ними и определяет термин Big Data.

Этот социально-экономический феномен напрямую связан с появлением масштабируемых технологий, которые позволяют работать с огромным количеством информации.

Какие компании занимаются большими данными

Первыми с большими данными, либо с «биг дата», начали работать сотовые операторы и поисковые системы. У поисковиков становилось все больше и больше запросов, а текст тяжелее, чем цифры. На работу с абзацем текста уходит больше времени, чем с финансовой транзакцией. Пользователь ждет, что поисковик отработает запрос за долю секунды — недопустимо, чтобы он работал даже полминуты. Поэтому поисковики первые начали работать с распараллеливанием при работе с данными.

Чуть позже подключились различные финансовые организации и ритейл. Сами транзакции у них не такие объемные, но большие данные появляются за счет того, что транзакций очень много.

Количество данных растет вообще у всех. Например, у банков и раньше было много данных, но для них не всегда требовались принципы работы, как с большими. Затем банки стали больше работать с данными клиентов. Стали придумывать более гибкие вклады, кредиты, разные тарифы, стали плотнее анализировать транзакции. Для этого уже требовались быстрые способы работы.

Сейчас банки хотят анализировать не только внутреннюю информацию, но и стороннюю. Они хотят получать большие данные от того же ритейла, хотят знать, на что человек тратит деньги. На основе этой информации они пытаются делать коммерческие предложения.

Сейчас вся информация связывается между собой. Ритейлу, банкам, операторам связи и даже поисковикам — всем теперь интересны данные друг друга.

Разница используемых методик

Всего выделяют 2 основных подхода к аналитике, которые имеют кардинально разные стратегии.

Традиционная	Современная
Анализирование небольших инфо-блоков	Обработка всего массива информации сразу
Редактирование, структурирование	Использование исходников
Разработка и проверка гипотез	Поиск соотношений по всему потоку до достижения результата
Поэтапность: сбор, хранение, анализ	Аналитика в реальном времени

VVV — признаки больших данных

Чтобы уменьшить размытость определений в сфере Big Data, разработаны признаки, которым они должны соответствовать. Все начинаются с буквы V, поэтому система носит название VVV:

• Volume – объём. Объём информации измерим.

• Velocity – скорость. Объём информации не статичен – он постоянно увеличивается, и инструменты обработки должны это учитывать.

• Variety – многообразие. Информация не обязана иметь один формат. Она может быть неструктурированной, частично или полностью структурированной.

К этим трём принципам, с развитием отрасли, добавляются дополнительные V. Например, veracity – достоверность, value – ценность или viability – жизнеспособность.

Но для понимания достаточно первых трёх: большие данные измеримые, прирастающие и неоднообразные.

Готовые решения для всех направлений

Магазины
Мобильность, точность и скорость пересчёта товара в торговом зале и на складе, позволят вам не потерять дни продаж во время проведения инвентаризации и при приёмке товара.

Узнать больше

Склады

Ускорь работу сотрудников склада при помощи мобильной автоматизации. Навсегда устраните ошибки при приёмке, отгрузке, инвентаризации и перемещении товара.

Узнать больше

Маркировка

Обязательная маркировка товаров — это возможность для каждой организации на 100% исключить приёмку на свой склад контрафактного товара и отследить цепочку поставок от производителя.

Узнать больше

E-commerce

Скорость, точность приёмки и отгрузки товаров на складе — краеугольный камень в E-commerce бизнесе. Начни использовать современные, более эффективные мобильные инструменты.

Узнать больше

Учреждения

Повысь точность учета имущества организации, уровень контроля сохранности и перемещения каждой единицы. Мобильный учет снизит вероятность краж и естественных потерь.

Узнать больше

Производство

Повысь эффективность деятельности производственного предприятия за счет внедрения мобильной автоматизации для учёта товарно-материальных ценностей.

Узнать больше

RFID

Первое в России готовое решение для учёта товара по RFID-меткам на каждом из этапов цепочки поставок.

Узнать больше

ЕГАИС

Исключи ошибки сопоставления и считывания акцизных марок алкогольной продукции при помощи мобильных инструментов учёта.

Узнать больше

Сертификация для партнеров

Получение сертифицированного статуса партнёра «Клеверенс» позволит вашей компании выйти на новый уровень решения задач на предприятиях ваших клиентов..

Узнать больше

Инвентаризация

Используй современные мобильные инструменты для проведения инвентаризации товара. Повысь скорость и точность бизнес-процесса.

Узнать больше

Мобильная автоматизация

Используй современные мобильные инструменты в учете товара и основных средств на вашем предприятии. Полностью откажитесь от учета «на бумаге».

Узнать больше Показать все решения по автоматизации

Нейронные сети и распознавание образов

С задачей распознавания визуальных образов справляются искусственные нейросети (ИНС), которые представляют собой математические модели в виде аппаратного и программного воплощения, имитирующие функционирование нейронных сетей живых организмов. Работа нейронных сетей выстроена по одному алгоритму: на вход поступают данные, которые проходят по нейронам, а на выходе выдается некий результат.

Метод используют для решения задач в социальных и профессиональных сферах, для обеспечения безопасности, прогнозирования, классификации и т.д и т.п. Технология позволяет заменить работу десятков людей.

Вариант использования нейросетей с распознаванием образов – различать фото мужчин и женщин.

Для этого потребуется:

Построить нейронную сеть, т.е. искусственные нейроны нужно запрограммировать воспринимать данные на входе и выстраивать связи.
Отправить нейросети выборку очищенного потока информации – базу фотографий с отметками женских и мужских лиц. Это необходимо для обучения нейросети, чтобы она в дальнейшем понимала, по каким критериям отличаются лица.
Запустить тест нейросети, для этого отправить новую очищенную выборку с лицами, но без отметок. В ходе тестирования можно определить частоту возникновения ошибок.

История возникновения

Первое упоминание о феномене произошло в 2008 от Клаффорда Линча в статье журнала Nature. С его слов сюда можно отнести любые неоднородные знания, поступающие в размере более 150 Гб за один день.

Согласно выкладкам аналитических агентств в 2005 по всему миру оперировало более 4-5 эксабайт (4-5 млрд гигабайт). В 2010 значение выросло до 0,20 зетта-байт (1 Зб равен 1024 Эб). В это время подход «big data » рассматривался только с научно-аналитической точки зрения, но на практике не применялся. В то же время неструктурированный массив неумолимо рос. За 2 года, то есть в 2012, показатели выросли до отметки 1,8 Зб, и проблема хранения стала актуальной и произошел всплеск интереса. К началу 2015 — до 7 Зб. К развитию направления активно подключались «цифровые гиганты» — Microsoft, IBM, Oracle, EMC, а также университеты, внедряя на практике прикладные науки (инженерию, физику, социологию).

Перспективы использования Биг Дата

Blockchain и Big Data — две развивающиеся и взаимодополняющие друг друга технологии. С 2016 блокчейн часто обсуждается в СМИ. Это криптографически безопасная технология распределенных баз данных для хранения и передачи информации. Защита частной и конфиденциальной информации — актуальная и будущая проблема больших данных, которую способен решить блокчейн.

Почти каждая отрасль начала инвестировать в аналитику Big Data, но некоторые инвестируют больше, чем другие. По информации IDC, больше тратят на банковские услуги, дискретное производство, процессное производство и профессиональные услуги. По исследованиям Wikibon, выручка от продаж программ и услуг на мировом рынке в 2018 году составила $42 млрд, а в 2027 году преодолеет отметку в $100 млрд.

По оценкам Neimeth, блокчейн составит до 20% общего рынка больших данных к 2030 году, принося до $100 млрд. годового дохода. Это превосходит прибыль PayPal, Visa и Mastercard вместе взятые.

Аналитика Big Data будет важна для отслеживания транзакций и позволит компаниям, использующим блокчейн, выявлять скрытые схемы и выяснять с кем они взаимодействуют в блокчейне.

Главные цели

Функция	Задача
BigData — это поток необработанных знаний	Сохранение и оперирование
DataMaining — структурирование данных как метод определения закономерностей	Создание единой структуры на основе обнаруженных связей для достижения единого смысла
Machine learning — машинное изучение, основанное на появившихся в процессе сведениях. Позднее появилось понятие Deep learning, работающее от искусственного интеллекта.	Анализирование и прогнозирование

Используемая технология

Обрабатывание информационного поля необходимо для предоставления пользователям конкретного результата с целью эффективного применения в будущем. То есть по итогу человек должен получить максимально полезную информацию о различных предметах или явлениях, а также взвесить положительные и отрицательные моменты для выбора дальнейшего решения. Искусственный интеллект строит приблизительную модель будущего, предлагая несколько вариантов, а затем отслеживает достигнутый результат.

Существующие аналитические агентства запускают программу-симулятор для тестирования различных идей. Она предполагает и выдает готовое решение проблемы. То есть все шаги полностью автоматизированы. Таким образом, Биг Дату можно смело назвать современной альтернативой, которая пришла на смену традиционным аналитическим методам.

Источниками являются:

интернет (социальные сети, онлайн-магазины, статьи, форумы);
корпоративные ресурсы — деловые архивы и активные базы;
показатели с приборов — датчики, электронные устройства, метеоданные.

При этом, несмотря на различия, происходит объединение, интеграция, направленные в дальнейшем на извлечение, получение новых знаний.

Следует помнить о главном правиле — VVV, которое служит характеристикой больших данных:

Volume — измерение объема в физической величине, которая занимает определенное пространство на носителе. Приставка «Биг» означает получение информационного массива в размере более 150 Гб за день.
Velocity — регулярное обновление в режиме реального времени за счет применения интеллектуальных технологий.
Variety — абсолютная или частичная бессистемность, разнообразие.

С течением времени упомянутые выше признаки дополнили еще двумя факторами:

Variability — способность изменяться в зависимости от внешних обстоятельств, неуправляемые всплески и спады поступающих потоков зачастую связаны с периодичностью;
Value — изменчивость в зависимости от сложности может затруднить функционирование искусственного интеллекта. То есть сначала требуется определение степени значимости, а после этого идет этап структуризации.

Чтобы обеспечить бесперебойность функционирования системы, необходимо одновременное включение трех основополагающих факторов:

возможность горизонтального расширения пространства, то есть увеличение количества серверов без деградации производительности;
устойчивость к отказу, а именно — число цифровых носителей и интеллектуальных машин для предотвращения вероятности сбоя при выходе из строя одного узла должно быть увеличено;
локальность — выделенное место для хранения и обработки информации, способствующее экономии времени, ресурсов.

Как собирают Big Data

Источниками могут быть:

интернет — от соцсетей и СМИ до интернета вещей (IoT);
корпоративные данные: логи, транзакции, архивы;
другие устройства, которые собирают информацию, например, «умные колонки».

Сбор. Технологии и сам процесс сбора данных называют дата майнингом (data mining).

Сервисы, с помощью которых проводят сбор — это, например, Vertica, Tableau, Power BI, Qlik. Собранные данные могут быть в разных форматах: текст, Excel-таблицы, SAS.

В процессе сбора система находит Петабайты информации, которая после будет обработана методами интеллектуального анализа, который выявляет закономерности. К ним относят нейронные сети, алгоритмы кластеризации, алгоритмы обнаружения ассоциативных связей между событиями, деревья решений, и некоторые методы machine learning.

Кратко процесс сбора и обработки информации выглядит так:

аналитическая программа получает задачу;
система собирает нужную информацию, одновременно подготавливая её: удаляет нерелевантную, очищает от мусора, декодирует;
выбирается модель или алгоритм для анализа;
программа учится алгоритму и анализирует найденные закономерности.

Где можно найти применение

Чем больший объем известен человеку о тех или иных предметах и явлениях, тем выше вероятность проведения точного прогноза на будущее. Даже не стоит лишний раз говорить, что наибольший спрос БигДата получила в бизнесе и маркетинге. Однако это не единственное возможное применение ее на практике. BigData активно внедряется в следующих областях:

Медицина и охрана здоровья. Увеличение размера доступных сведений о болезнях, методах лечения и применяемых препаратах позволяет побороть такие заболевания, которые в прошлом часто становились причиной летального исхода.
Предотвращение тяжелых последствий катастроф техногенного и природного характера. Сбор идет от множества доступных датчиков с определителем точного местоположения. Такое прогнозирование способно спасти тысячи людей.
Правоохранительные органы используют данные для определения возможного возрастания криминальной ситуации в мире с последующим принятием профилактических мер в зависимости от ситуации.

Для автоматизации бизнеса наша предлагает и оборудование, которые способны намного облегчить большинство рутинных задач, упростить рабочий процесс.

Для чего используют?

Чем больше мы знаем о конкретном предмете или явлении, тем точнее постигаем суть и можем прогнозировать будущее. Снимая и обрабатывая потоки данных с датчиков, интернета, транзакционных операций, компании могут довольно точно предсказать спрос на продукцию, а службы чрезвычайных ситуаций предотвратить техногенные катастрофы. Приведем несколько примеров вне сферы бизнеса и маркетинга, как используются технологии больших данных:

Здравоохранение. Больше знаний о болезнях, больше вариантов лечения, больше информации о лекарственных препаратах – всё это позволяет бороться с такими болезнями, которые 40-50 лет назад считались неизлечимыми.
Предупреждение природных и техногенных катастроф. Максимально точный прогноз в этой сфере спасает тысячи жизней людей. Задача интеллектуальных машин собрать и обработать множество показаний датчиков и на их основе помочь людям определить дату и место возможного катаклизма.
Правоохранительные органы. Большие данные используются для прогнозирования всплеска криминала в разных странах и принятия сдерживающих мер, там, где этого требует ситуация.

Методы анализа и обработки

Основы системы big data database заключаются в работе с огромным информационным полем, который постоянно дополняется сведениями с использованием следующих способов:

глубокое анализирование с разделением на отдельные небольшие группы. Для этого применяются специализированные математические цифровые алгоритмы;
крауд-сорсинг основан на способности принимать и направлять в переработку инфо-потоки из различных источников, число которых ограничено мощностью, но не количеством;
сплит-тесты базируются на сравнении элементов от исходной точки до момента изменения. Это необходимо для выявления факторов, оказывающих наибольшее влияние. То есть по итогу проведения тестирования будет получен максимально точный результат;
прогнозирование строится на внедрении новых параметров с дальнейшей проверкой поведения после поступления большого массива;
машинное обучение с перспективой поглощения и обработки искусственным интеллектом знаний, использования их для самостоятельного обучения;
анализирование активности в сети для разделения аудитории по интересу, месту, половозрастным признакам и другим параметрам.

MapReduce

Про MapReduce на хабре уже писали (раз, два, три), но раз уж цикл статей претендует на системное изложение вопросов Big Data – без MapReduce в первой статье не обойтись J

MapReduce

– это модель распределенной обработки данных, предложенная компанией Google для обработки больших объёмов данных на компьютерных кластерах. MapReduce неплохо иллюстрируется следующей картинкой (взято по ссылке):

MapReduce предполагает, что данные организованы в виде некоторых записей. Обработка данных происходит в 3 стадии:

1. Стадия Map

. На этой стадии данные предобрабатываются при помощи функции map(), которую определяет пользователь. Работа этой стадии заключается в предобработке и фильтрации данных. Работа очень похожа на операцию map в функциональных языках программирования – пользовательская функция применяется к каждой входной записи.

Функция map() примененная к одной входной записи и выдаёт множество пар ключ-значение

. Множество – т.е. может выдать только одну запись, может не выдать ничего, а может выдать несколько пар ключ-значение. Что будет находится в ключе и в значении – решать пользователю, но ключ – очень важная вещь, так как данные с одним ключом в будущем попадут в один экземпляр функции reduce.

2. Стадия Shuffle

. Проходит незаметно для пользователя. В этой стадии вывод функции map «разбирается по корзинам» – каждая корзина соответствует одному ключу вывода стадии map. В дальнейшем эти корзины послужат входом для reduce.

3. Стадия Reduce

. Каждая «корзина» со значениями, сформированная на стадии shuffle, попадает на вход функции reduce().

Функция reduce задаётся пользователем и вычисляет финальный результат для отдельной «корзины».

Множество всех значений, возвращённых функцией reduce(), является финальным результатом MapReduce-задачи.

Несколько дополнительных фактов про MapReduce:

1) Все запуски функции map

работают независимо и могут работать параллельно, в том числе на разных машинах кластера.

2) Все запуски функции reduce

работают независимо и могут работать параллельно, в том числе на разных машинах кластера.

3) Shuffle внутри себя представляет параллельную сортировку, поэтому также может работать на разных машинах кластера. Пункты 1-3 позволяют выполнить принцип горизонтальной масштабируемости.

4) Функция map, как правило, применяется на той же машине, на которой хранятся данные – это позволяет снизить передачу данных по сети (принцип локальности данных).

5) MapReduce – это всегда полное сканирование данных, никаких индексов нет. Это означает, что MapReduce плохо применим, когда ответ требуется очень быстро.

Разрабатываемые решения

Биг дейта — это возможность эффективного использования полученных сведений в удобной и наглядной форме для выполнения прикладных задач. Основным источником является человек, при этом могут быть использованы самые различные средства (соцсети, СМИ и др.). Данные используются в первую очередь для проведения анализа с последующим созданием продуктов. Это могут быть консультации, товары или услуги, возможно внедрение программ оптимизации потребления ресурсов, прогнозирование. При этом важно защитить серверы от мошеннических манипуляций и угрозы вируса. Учитывая характер полученных сведений, программист сможет создать уникальные платформы и барьеры, защищающие от утечки.

Как происходило развитие в мире

Рост объема получаемой информации ежегодно растет в геометрической прогрессии. Если в 2003 году он составлял всего 5 Эб, то в 2015 этот показатель возрос до 6,5 Зб и до сих пор продолжает увеличиваться. При этом новые полученные знания можно смело назвать жизненно важным активом, а основы безопасности должны стать фундаментом. Повсеместное возрастание значимости феномена способно кардинально изменить экономическую ситуацию в мире, а незаинтересованный пользователь будет находиться в постоянном контакте с различными электроустройствами.

Готовые решения для всех направлений

Узнать больше

Склады

Узнать больше

Маркировка

Узнать больше

E-commerce

Узнать больше

Учреждения

Узнать больше

Производство

Узнать больше

RFID

Первое в России готовое решение для учёта товара по RFID-меткам на каждом из этапов цепочки поставок.

Узнать больше

ЕГАИС

Узнать больше

Сертификация для партнеров

Узнать больше

Инвентаризация

Узнать больше

Мобильная автоматизация

Узнать больше Показать все решения по автоматизации

Предиктивная аналитика

Прогнозная, предсказательная или предиктивная аналитика составляет прогноз на основании накопившейся информации, отвечая на вопрос «Что может произойти?». Данные получают методами моделирования, математической статистики, машинного обучения, Data mining и т.д.