Tel: +380677640202
Email: ceo@cubodrom.com

Address: 65000 Odessa, Ukraine ln. Botanicheskiy 6, office 34

  • LinkedIn Basic Black
  • Facebook Basic Black
Поиск

Data Lake

Пост обновлен 3 авг. 2018 г.

Mинимальный и достаточный набор условий для успешного внедрения.

Широкое распространение «Озера Данных» получили в последние 3-5 лет. Статей по этой теме опубликовано довольно много, но если вас продолжают беспокоить вопросы целесообразности использования, области применения и получаемых преимуществ – тогда welcome потратить 5 минут вашей жизни и разобраться с тем, что такое озера данных, откуда они появились, есть ли фактические границы между озерами и болотами данных, ну и где то огромное «added value», ради которого весь сыр-бор..



Что такое «Data Lake».


Data Lake функционально очень схоже с понятием Staging Area в рамках классического хранилища данных. Так же, как и staging area, data lake хранит копии «сырых» данных систем источников. Но есть и принципиальные отличия:

  • данные из Data Lake используются не только следующими слоями хранилища, но и внешними потребителями, как то: аналитические приложения, репортинговые системы, MDM решения, системы прогнозирования и принятия решений;

  • Data Lake используется для хранения не структурированных данных (текст, видео, аудио и пр.);

  • для Data Lake обычно используются более дешевые storage’и по сравнению с реляционными базами данных (да, я именно о вариациях на тему HDFS и no-sql document storage database и, в том числе, их обллачных реализациях).

Причины появления Data Lake.


Что явилось предпосылкой к появлению озер данных? Как обычно существуют объективные и субъективные предпосылки. К объективным можно отнести следующие: появление самих больших данных, создание новых технологических решений по их обработке, ну и, как следствие, возникновение потребностей в решениях удовлетворяющих специфике работы с большими данными – data quality check; особенности работы и трансформация самого понятия «мусора» или непригодных данных; специфика data mining’а и как следствие бурный рост использования machine learning’а. К субъективным предпосылкам стоит отнести в первую очередь потребность рынка в появлении новых тенденций, терминов, инноваций и пр. Т.е. на т.м. подтверждающих фактов наличия явных преференций использования data lake подхода по сравнению с классическими способами разработки задач по интеграции данных практически нет. Любые тесты и умозаключения скорее являются следствием желания подтвердить правильность выбора набора технологий, архитектурных паттернов и подходов в разработке. А кроме того, нашим идеологам и «великим кормчим» всего DWH’ного направления очень хочется продолжать оставаться в трэнде, находиться на пике популярности, писать все новые статьи с миллионными тиражами и репостами..


Дальнейшее развитие концепции Data Lake.


Сегодня предлагаемые архитектуры Data Like достаточно сильно начали варьировать в зависимости от технологий реализации:

  • разделение на «озера хранения данных» и «озера вычисления данных»;

  • разделение на логические слои: сырые данные, надежные данные и пр.;

  • использование различных песочниц (sandboxes) для решения различных бизнес задач.

Следствия такой «широты» применяемых подходов: увеличение размеров кластера, где должно «хоститься» такое озеро, снижение гибкости дальнейшего расширения, увеличение стоимости разработки и сопровождения, рост проблем синхронизации результатов работы песочниц… И это только самые явные проблемы и «неудобства», лежащие на поверхности.


Результаты, следствия и дальнейшие перспективы…


Т.к. упомянутые в начале статьи 5 минут вашего времени уже заканчиваются, то сделаю только небольшие наброски основных тем, которые будут рассмотрены далее... Прежде всего о результатах – подход использования Staging Area расширенной до Data Lake точно хорош в рамках концепции уменьшения time-to-market и получения всевозможных quick wins, «а то, что придется потом платить, так ведь это ж, пойми, потом!». Перспективы – точно радужные, по крайней мере с точки зрения основных вендоров таких решений (amazon, microsoft, databricks и даже сам apache foundation). Подтверждений тому как минимум 2:

  • концепция использования Spark’а на 100% подходит для использования в Data Lake;

  • U-SQL от microsoft решает туже задачу в контексте инструментов с очень похожим названием (azure data lake store / analytics).

На этом пока все – TBD…