• 1.jpg
  • 2.jpg
О Big Data
Big Data или большие данные - это структурированные или неструктурированные массивы данных большого объема. Их обрабатывают при помощи специальных автоматизированных инструментов, чтобы использовать для статистики, анализа, прогнозов и принятия решений.
Сам термин «большие данные» предложил редактор журнала Nature Клиффорд Линч в спецвыпуске 2008 года. Он говорил о взрывном росте объемов информации в мире. К большим данным Линч отнес любые массивы неоднородных данных более 150 Гб в сутки, однако единого критерия до сих пор не существует /1/.

Data Engineer (Дата-инженер- специалист, который работает с большими данными. Он организует сбор, очистку и загрузку данных в базы, создаёт инфраструктуру для хранения, чтобы дата-аналитики могли найти в них полезные инсайты для бизнеса.

Онлайн курсы Data Engineer от Skillbox.kz, подробнее .

Data Scientist -  исследователь данных.
Основные функции дата сайентиста:
-проводить анализ и исследование данных для решения  бизнес-задач;

-организовывать большие объемы данных из внутренних и внешних источников для решения запросов бизнеса;
-использовать аналитические программы, машинное обучение и статистику для прогнозирования;
-исследовать данные, чтобы находить скрытые закономерности;
-предоставлять полученную информацию в доступном формате руководству./1/

                        Видео по теме .

                 Что такое Big Data, 2021

IDC: Аналитика Больших данных как инструмент бизнес-инноваций, 2020

Что такое big data? 10 вопросов data-инженеру, 05.11 2022, смотреть


        Справочная информация .
Компания Meta Group предложила следующие основные характеристики больших данных:
Volume - объем данных: от 150 Гб в сутки;
Velocity - скорость накопления и обработки массивов данных. Большие данные обновляются регулярно, поэтому необходимы интеллектуальные технологии для их обработки в режиме онлайн;
Variety -  разнообразие типов данных.
 
Сегодня к этим трем характеристикам добавляют еще три признака:
Veracity - достоверность как самого набора данных, так и результатов его анализа;
Variability - изменчивость. У потоков данных бывают свои пики и спады под влиянием сезонов или социальных явлений. Чем нестабильнее и изменчивее поток данных, тем сложнее его анализировать;
Value -  ценность или значимость. Как и любая информация, большие данные могут быть простыми или сложными для восприятия и анализа.
Пример простых данных -это посты в соцсетях, сложных - банковские транзакции, подробнее 


Данные могут быть структурированными, неструктурированными или структурированными частично. 

Обзоры
Что такое Big Data и почему их называют «новой нефтью», 20.01.2023