├── BigData.md
├── CODE_OF_CONDUCT.md
├── Python.md
├── README.md
├── SQL.md
├── SystemDesign.md
└── sd-im
    ├── CPUUtilization.png
    ├── DiskSpaceUtilization.png
    ├── NetworkUtilization.png
    └── RAMUtilization.png


/BigData.md:
--------------------------------------------------------------------------------
   1 | # Big Data
   2 | <a id="sections"></a>
   3 | 
   4 | * [Что такое DWH](#dwh)  
   5 | * [Data Lake](#data-lake)
   6 | * [Витрины данных](#data-marts)
   7 | * [ETL и ETL-запросы](#ETL)
   8 | * [Разработка ETL-процесса](#ETL-process)
   9 | * [Элементы ETL-процесса](#Elements-of-the-ETL-process)
  10 | * [Что такое Hadoop?](#hadoop)
  11 | * [Data Vault](#Data-Vault)
  12 | * [Apache Kafka](#Apache-Kafka)
  13 | * [Greenplum](#Greenplum)
  14 | * [Распределенная файловая система HDFS](#distributed-file-system-HDFS)
  15 |   * [Архитектура HDFS](#HDFS-architecture)
  16 |   * [Shell-команды](#Shell-commands)
  17 |   * [Java API](#Java_API1)
  18 | * [MapReduce](#MapReduce)
  19 |   * [Фреймворк MapReduce](#MapReduce-framework)
  20 |   * [Hadoop Streaming](#Hadoop-Streaming)
  21 | <!-- * [Решение задач с помощью MapReduce](#Solving-problems-with-MapReduce)
  22 |   * [Алгоритмы на MapReduce](#Algorithms-on-MapReduce)
  23 |   * [Реляционные функции](#Relational-functions)
  24 |   * [Расчет TF-IDF](#TF-IDF-calculation)
  25 | * [Алгоритмы на графах в MapReduce](#Graph-Algorithms-in-MapReduce)
  26 |   * [Графы в MapReduce](#Graphs-in-MapReduce)
  27 |   * [Поиск кратчайшего пути в графе](#Finding-the-shortest-path-in-a-graph)
  28 |   * [PageRank](#PageRank)
  29 |   * [Проблемы MR-алгоритмов на графах](#Problems-of-MR-algorithms-on-graphs) -->
  30 | * [Pig и Hive](#Pig-and-Hive)
  31 |   * [Pig](#Pig)
  32 |   * [Hive](#Hive)
  33 | * [NoSQL базы данных: HBase и Cassandra](#HBase-and-Cassandra)
  34 |   * [Способы хранения данных](#Data-storage-methods)
  35 |   * [NoSQL](#NoSQL)
  36 |   * [Введение в HBase](#Introduction-to-HBase)
  37 |   * [Архитектура HBase](#HBase-Architecture)
  38 |   <!-- * [Cassandra](#Cassandra) -->
  39 | * [Spark](#Spark)
  40 |   * [Основные понятия Spark](#Basic-concepts-of-Spark)
  41 |   * [Операторы Spark](#Spark-Operators)
  42 | * [Чем отличается PostgreSQL от ClickHouse?](#PostgreSQL-vs-ClickHouse)
  43 | * [Зачем в ClickHouse на движке MergeTree прописывается ORDER BY?](#Why-ORDER-BY-is-required-in-MergeTree-of-ClickHouse)
  44 | * [Как работает запрос на джойн таблиц в ClickHouse, если выполнять по ключу, который отсортирован и не отсортирован?](#How-does-ClickHouse-handle-joins-on-sorted-and-unsorted-keys)
  45 | * [Какие существуют архитектуры DWH?](#DWH-architectures)
  46 | * [В чём преимущество Data Vault, если у нас происходят частые изменения на источнике?](#Advantages-of-Data-Vault-with-frequent-source-changes)
  47 | * [ETL и ELT: разница, преимущества и недостатки.](#ETL-vs-ELT)
  48 | * [Что выбрать, если меняется структура данных на источнике?](#What-to-choose-if-data-structure-changes-at-source)
  49 | * [Apache Flink](#Apache-Flink)
  50 |   * [Чем Apache Flink отличается от Apache Spark?](#Flink-vs-Spark)
  51 |   * [Какие преимущества реального времени предлагает Flink по сравнению с пакетной обработкой?](#Real-time-advantages-of-Flink-over-batch-processing)
  52 | * [Обработка потоков данных](#Stream-Processing)
  53 |   * [Что такое обработка потоков данных и какие задачи она решает?](#What-is-stream-processing-and-what-problems-does-it-solve)
  54 |   * [Какие паттерны обработки потоков данных вы знаете?](#Stream-processing-patterns)
  55 | * [Lambda и Kappa архитектуры](#Lambda-and-Kappa-Architectures)
  56 |   * [В чем разница между Lambda и Kappa архитектурами?](#Difference-between-Lambda-and-Kappa-Architectures)
  57 |   * [Приведите примеры использования Lambda и Kappa архитектур.](#Examples-of-Lambda-and-Kappa-Architectures)
  58 | * [Microservices and Big Data](#Microservices-and-Big-Data)
  59 |   * [Как микросервисы интегрируются с большими данными?](#How-do-microservices-integrate-with-big-data)
  60 |   * [Какие проблемы масштабируемости и управления могут возникнуть при использовании микросервисов для больших данных?](#Scalability-and-management-issues-with-microservices-for-big-data)
  61 | * [Data Mesh](#Data-Mesh)
  62 |   * [Что такое Data Mesh и каковы его ключевые принципы?](#What-is-Data-Mesh-and-what-are-its-core-principles)
  63 |   * [Как Data Mesh способствует децентрализации управления данными?](#How-Data-Mesh-facilitates-decentralized-data-management)
  64 | * [Security in Big Data](#Security-in-Big-Data)
  65 |   * [Какие основные аспекты безопасности необходимо учитывать при работе с большими данными?](#Key-security-aspects-in-big-data)
  66 |   * [Какие механизмы обеспечения безопасности данных используются в Hadoop и Spark?](#Data-security-mechanisms-in-Hadoop-and-Spark)
  67 | * [Data Governance](#Data-Governance)
  68 |   * [Что такое управление данными (Data Governance) и почему это важно для больших данных?](#What-is-Data-Governance-and-why-is-it-important-for-big-data)
  69 |   * [Какие инструменты и технологии используются для управления качеством данных?](#Tools-and-technologies-for-data-quality-management)
  70 | * [Machine Learning with Big Data](#Machine-Learning-with-Big-Data)
  71 |   * [Как интегрировать машинное обучение с большими данными?](#Integrating-machine-learning-with-big-data)
  72 |   * [Какие фреймворки и библиотеки чаще всего используются для машинного обучения на больших данных?](#Frameworks-and-libraries-for-machine-learning-on-big-data)
  73 | * [Cloud Solutions for Big Data](#Cloud-Solutions-for-Big-Data)
  74 |   * [Какие облачные решения существуют для работы с большими данными?](#Cloud-solutions-for-big-data)
  75 |   * [В чем преимущества и недостатки использования облачных платформ для обработки и хранения больших данных?](#Advantages-and-disadvantages-of-using-cloud-platforms-for-big-data)
  76 | 
  77 | 
  78 | # Что такое DWH
  79 | <a id="dwh"></a>
  80 | 
  81 | DWH — Data warehouse — Корпоративное хранилище данных (КХД) — склад всех нужных и важных для принятия решений данных компании.  
  82 | 
  83 | Потребность в КХД сформировалась примерно в 90-х годах прошлого века, когда в секторе enterprise стали активно использоваться разные информационные системы для учета множества бизнес-показателей. Каждое такое приложение успешно решало задачу автоматизации локального производственного процесса, например, выполнение бухгалтерских расчетов, проведение транзакций, HR-аналитика и т.д.  
  84 | 
  85 | При этом схемы представления (модели) справочных и транзакционных данных в одной системе могут кардинально отличаться от другой, что влечет расхождение информации. Кроме того, большое разнообразие моделей данных затрудняет получение консолидированной отчетности, когда нужна целостная картина из всех прикладных систем. Поэтому возникли корпоративные хранилища данных (Data Warehouse, DWH) – предметно-ориентированные базы данных для консолидированной подготовки отчётов, интегрированного бизнес-анализа и оптимального принятия управленческих решений на основе полной информационной картины.
  86 | 
  87 | __Архитектура КХД__
  88 | 
  89 | Вышеприведенное определение DWH показывает, что это средство хранения данных является реляционным. Однако, не стоит считать КХД просто большой базой данных с множеством взаимосвязанных таблиц. В отличие от традиционной SQL-СУБД, Data Warehouse имеет сложную многоуровневую (слоеную) архитектуру, которая называется LSA – Layered Scalable Architecture. По сути, LSA реализует логическое деление структур с данными на несколько функциональных уровней. Данные копируются с уровня на уровень и трансформируются при этом, чтобы в итоге предстать в виде согласованной информации, пригодной для анализа.
  90 | 
  91 | Классически LSA реализуется в виде следующих уровней:
  92 | 
  93 | 1. Операционный слой первичных данных(Primary Data Layer или стейджинг)  
  94 | Здесь выполняется загрузка информации из систем-источников в исходном качестве и сохранением полной истории изменений. Здесь происходит абстрагирование следующих слоев хранилища от физического устройства источников данных, способов их сбора и методов выделения изменений.
  95 | 2. Ядро хранилища (Core Data Layer)  
  96 | Центральный компонент, который выполняет консолидацию данныхиз разных источников, приводя их к единым структурам и ключам. Именно здесь происходит основная работа с качеством данных и общие трансформации, чтобы абстрагировать потребителей от особенностей логического устройства источников данных и необходимости их взаимного сопоставления. Так решается задача обеспечения целостности и качества данных.
  97 | 3. Аналитические витрины (Data Mart Layer)  
  98 | Тут данные преобразуются к структурам, удобным для анализа и использования в BI-дэшбордах или других системах-потребителях. Когда витрины берут данные из ядра, они называются регулярными. Если же для быстрого решения локальных задач не нужна консолидация данных, витрина может брать первичные данные из операционного слоя и называется соответственно операционной. Также бывают вторичные витрины, которые используются для представления результатов сложных расчетов и нетипичных трансформаций. Таким образом, витрины обеспечивают разные представления единых данных под конкретную бизнес-специфику.
  99 | 4. Сервисный слой (Service Layer)  
 100 | Обеспечивает управление всеми вышеописанными уровнями. Он не содержит бизнес-данных, но оперирует метаданными и другими структурами для работы с качеством данных, позволяя выполнять сквозной аудит данных (data lineage), использовать общие подходы к выделению дельты изменений и управления загрузкой. Также здесь доступны средства мониторинга и диагностики ошибок, что ускоряет решение проблем.
 101 | 
 102 | 
 103 | __LSA – слоеная архитектура DWH: как устроено хранилище данных__  
 104 | ![LSA – слоеная архитектура DWH: как устроено хранилище данных](https://www.bigdataschool.ru/wp-content/uploads/2020/04/%D0%B4%D0%B2%D1%85_1.png)
 105 | 
 106 | Все слои, кроме сервисного, состоят из области постоянного хранения данных и модуля загрузки и трансформации. Области хранения содержат технические (буферные) таблицы для трансформации данных и целевые таблицы, к которым обращается потребитель. Для обеспечения процессов загрузки и аудита ETL-процессов данные в целевых таблицах стейджинга, ядра и витринах маркируются техническими полями (мета-атрибутами). Еще выделяют слой виртуальных провайдеров данных и пользовательских отчетов для виртуального объединения (без хранения) данных из различных объектов. Каждый уровень может быть реализован с помощью разных технологий хранения и преобразования данных или универсальных продуктов, например, SAP NetWeaver Business Warehouse (SAP BW).
 107 | 
 108 | __В чём разница между обычной базой данных и DWH__
 109 | 
 110 | 1. Типы хранимых данных.   
 111 | Обычные СУБД хранят данные строго для определенных подсистем. База данных склада хранит складские запасы и ничего более. База данных кадровиков хранит данные по персоналу, но не товары или сделки. DWH, как правило, хранит информацию разных подразделений — там найдутся данные и по товарам, и по персоналу, и по сделкам.
 112 | 2. Объемы данных.  
 113 | Обычная БД, которая ведется в рамках стандартной деятельности компании, содержит только актуальную информацию, нужную в данный момент для функционирования определенной системы. В DWH пишутся не столько копии актуальных состояний, сколько исторические данные и агрегированные значения. Например, состояние запасов разных категорий товаров на конец смены за последние пять лет. Иногда в DWH пишутся и более крупные пачки данных, если они имеют критическое значение для бизнеса — допустим, полные данные по продажам и сделкам. То есть, по сути, это копия СУБД отдела продаж.
 114 | 3. Место в рабочих процессах.  
 115 | Информация обычно сразу попадает в рабочие базы данных, а уже оттуда некоторые записи переползают в DWH. Склад данных, по сути, отражает состояние других БД и процессов в компании уже после того, как вносятся изменения в рабочих базах.
 116 | 
 117 | DWH — это система данных, отдельная от оперативной системы обработки данных. В корпоративных хранилищах в удобном для анализа виде хранятся архивные данные из разных, иногда очень разнородных источников. Эти данные предварительно обрабатываются и загружаются в хранилище в ходе процессов извлечения, преобразования и загрузки, называемых ETL. Решения ETL и DWH — это (упрощенно) одна система для работы с корпоративной информацией и ее хранения.
 118 | 
 119 | __Что дают DWH-решения для BI и принятия решений в компании__
 120 | 
 121 | Понятное дело, что просто так тратить деньги и время на консервирование кучи разных записей, которые и так можно накопать в других базах данных, никто не станет. Ответ заключается в том, что DWH необходима для того, чтобы делать BI — business intelligence.  
 122 | 
 123 | Что такое BI с DWH? Бизнес-аналитика (BI) — это процесс анализа данных и получения информации, помогающей компаниям принимать решения.  
 124 | 
 125 | Допустим, у вас в онлайн-магазине упала выручка. Менеджеры зовут на помощь бизнес-аналитика и просят его разобраться. Тот идет в DWH, вынимает оттуда данные по продажам, выручке, количеству пользователей, расходам — и собирает отчет, который в подробностях и с цифрами говорит о причинах падения финансовых показателей. Менеджеры внимательно смотрят на эту информацию и принимают решения по реорганизации ассортимента товаров и маркетинговых политик.
 126 | Если бы такого аналитического отчета не было — управленцам пришлось бы искать проблему наугад.
 127 | 
 128 | Логичный вопрос: казалось бы, зачем держать для этого всего DWH? Аналитики вполне могут ходить в базы данных разных систем и просто выдергивать оттуда то, что им надо.
 129 | 
 130 | Ответ: так, конечно, тоже можно делать. Но — не нужно. И вот почему:
 131 | 
 132 | 1. Доступ к нужным данным.   
 133 | Если компания большая, на получение данных из разных источников нужно собирать разрешения и доступы. У каждого подразделения в такой ситуации, как правило, свои базы данных со своими паролями, которые надо будет запрашивать отдельно. В DWH все нужное уже будет под рукой в готовом виде. Можно просто пойти и дернуть там необходимую статистику.
 134 | 2. Сохранность нужных данных.   
 135 | Данные в DWH не теряются и хранятся в виде, удобном для принятия решений: есть исторические записи, есть агрегированные значения. В операционной базе данных такой информации может и не быть. Например, админы уж точно не будут хранить на складском сервере архив запасов за 10 лет — БД склада в таком случае была бы слишком тяжелой. А вот хранить агрегированные запасы со склада в DWH — это нормально.
 136 | 3. Устойчивость работы бизнес-систем.   
 137 | DWH оптимизируется для работы аналитиков, а эти ребята могут запрашивать очень большие объемы информации. Если они будут делать это с помощью DWH — ничего страшного, даже если их запрос будет обрабатываться очень долго. А если запросить слишком много записей с боевой базы данных сервера — он может уйти в отказ до конца выполнения запроса от аналитики и создать проблемы для других систем. DWH исключает риск того, что аналитики что-то повесят или сломают.   
 138 | 
 139 | __Почему бизнес-аналитика невозможна без DWH__
 140 | 
 141 | DWH и бизнес-аналитики переводят управление компаниями из искусства в науку. Имея под рукой результаты измерений по сотням показателей, можно выдвигать гипотезы и ставить эксперименты. Правильные решения легко подтверждаются объективными цифрами, которые достают аналитики из DWH.
 142 | 
 143 | Оптимальные управленческие решения — это не всегда максимизация прибыли. Это еще и выращивание новых производственных мощностей, минимизация негативного влияния на экологию, достойное качество жизни сотрудников, лояльность клиентов и стабильность бизнеса в долгосрочной перспективе. Все эти, казалось бы, сложные и эфемерные показатели можно анализировать с помощью BI и данных из DWH.
 144 | 
 145 | Без DWH и аналитиков управление бизнесом превращается в слепую езду по льду — возможно, при определенной сноровке вы попадете куда надо, но шансов улететь в сугроб или в столб все же куда больше.  
 146 | 
 147 | ## Data Lake
 148 | <a id="data-lake"></a>
 149 | ([наверх](#sections))
 150 | 
 151 | Data Lake (Озеро данных) – это метод хранения данных системой или репозиторием в натуральном (RAW) формате, который предполагает одновременное хранение данных в различных схемах и форматах. Обычно используется blob-объект (binary large object) или файл. Идея озера данных в том чтобы иметь логически определенное, единое хранилище всех данных в организации (enterprise data) начиная от сырых, необработанных исходных данных (RAW data) до предварительно обработанных (transformed) данных, которые используются для различных задач: отчеты, визуализация, аналитика и машинное обучение.
 152 | 
 153 | Data Lake (озеро данных) включает структурированные данные из реляционных баз данных (строки и колонки), полуструктурированные данные (CSV, лог файлы, XML, JSON), неструктурированные данные (почтовые сообщения, документы, pdf) и даже бинарные данные (видео, аудио, графические файлы).
 154 | 
 155 | Data Lake (озеро данных), кроме методов хранения и описания данных, предполагает определение источников и методов пополнения данных.
 156 | 
 157 | При этом используются следующие термины:
 158 | 
 159 |   * источники – sources;
 160 |   * настройки каналов – pipelines;
 161 |   * регулярность обновлений – schedulers;
 162 |   * владельцы – custodians;
 163 |   * время хранения – retention time;
 164 |   * метаданные – другие “данные о данных”.
 165 | 
 166 | Data Lake (озеро данных) может использовать единый репозиторий в качестве хранилища данных (HDFS, EDW, IMDG, Cloud и т.д.) либо использовать модульную концепцию источников хранения данных для разных требований по безопасности, скорости, доступности при соблюдении условий хранения данных: неизменяемые RAW данные, согласованное время хранения (retention time), доступность.
 167 | 
 168 | В 2010-х годах, с наступлением эпохи Big Data, фокус внимания от традиционных DWH сместился озерам данных (Data Lake). Однако, считать озеро данных новым поколением КХД не совсем корректно по следующим причинам:
 169 | 
 170 | 1. Разное целевое назначение  
 171 | DWH используется менеджерами, аналитиками и другими конечными бизнес-пользователями, тогда как озеро данных – в основном Data Scientist’ами. Напомним, в Data Lake хранится неструктурированная, т.н. сырая информация: видеозаписи с беспилотников и камер наружного наблюдения, транспортная телеметрия, графические изображения, логи пользовательского поведения, метрики сайтов и информационных систем, а также прочие данные с разными форматами хранения (схемами представления). Они пока непригодны для ежедневной аналитики в BI-системах, но могут использоваться Data Scientist’ами для быстрой отработки новых бизнес-гипотез с помощью алгоритмов машинного обучения;
 172 | 2. Разные подходы к проектированию   
 173 | Дизайн DWH основан на реляционной логике работы с данными – третья нормальная форма для нормализованных хранилищ, схемы звезды или снежинки для хранилищ с измерениями. При проектировании озера данных архитектор Big Data и Data Engineer большее внимание уделяют ETL-процессам с учетом многообразия источников и приемников разноформатной информации. А вопрос ее непосредственного хранения решается достаточно просто – требуется лишь масштабируемая, отказоустойчивая и относительно дешевая файловая система, например, HDFS или Amazon S3;
 174 | 3. Цена  
 175 | обычно Data Lake строится на базе бюджетных серверов с Apache Hadoop, без дорогостоящих лицензий и мощного оборудования, в отличие от больших затрат на проектирование и покупку специализированных платформ класса Data Warehouse, таких как SAP, Oracle, Teradata и пр.
 176 | 
 177 | Таким образом, озеро данных существенно отличается от КХД. Тем не менее, архитектурный подход LSA может использоваться и при построении Data Lake. Например, именно такая слоенная структура была принята за основу озера данных в Тинькоф-банке:
 178 | 
 179 | * на уровне RAW хранятся сырые данные различных форматов (tsv, csv, xml, syslog, json и т.д.);
 180 | * на операционном уровне (ODD, Operational Data Definition) сырые данные преобразуются в приближенный к реляционному формат;
 181 | * на уровне детализации (DDS, Detail Data Store) собирается консолидированная модель детальных данных;
 182 | * уровень MART выполняет роль прикладных витрин данных для бизнес-пользователей и моделей машинного обучения.  
 183 | 
 184 | В данном примере для структурированных запросов к большим данным используется Apache Hive – популярное средство класса SQL-on-Hadoop. Само файловое хранилище организовано в кластере Hadoop на основе коммерческого дистрибутива от Cloudera (CDH). Традиционное DWH банка реализовано на массивно-параллельной СУБД Greenplum. От себя добавим, что альтернативой Apache Hive могла выступить Cloudera Impala, которая также, как Greenplum, Arenadata DB и Teradata, основана на массивно-параллельной архитектуре. Впрочем, выбор Hive обоснован, если требовалась высокая отказоустойчивость и большая пропускная способность. Подробнее о сходствах и различиях Apache Hive и Cloudera Impala мы рассказывали здесь. Возвращаясь к кейсу Тинькофф-банка, отметим, что BI-инструменты считывают данные из озера и классического DWH, обогащая типичные OLAP-отчеты информацией из хранилища Big Data. Это используется для анализа интересов, прогнозирования поведения, а также выявления текущих и будущих потребностей, которые возникают у посетителей сайта банка.
 185 | 
 186 | ## Витрины данных
 187 | <a id="data-marts"></a>
 188 | ([наверх](#sections))
 189 | 
 190 | Витрины данных — подмножество (срез) хранилища данных, представляющее собой массив тематической, узконаправленной информации, ориентированной, например, на пользователей одной рабочей группы или департамента.
 191 | 
 192 | Концепция имеет ряд несомненных достоинств:
 193 | 
 194 | * Аналитики видят и работают только с теми данными, которые им реально нужны.
 195 | * Целевая БД максимально приближена к конечному пользователю.
 196 | * Витрины данных обычно содержат тематические подмножества заранее агрегированных данных, их проще проектировать и настраивать.
 197 | * Для реализации витрин данных не требуется высокомощная вычислительная техника.
 198 | Но концепция витрин данных имеет и очень серьёзные пробелы. По существу, здесь предполагается реализация территориально распределённой информационной системы с мало контролируемой избыточностью, но не предлагается способов, как обеспечить целостность и непротиворечивость хранимых в ней данных.
 199 | 
 200 | ## ETL и ETL-запросы
 201 | <a id="ETL"></a>
 202 | ([наверх](#sections))
 203 | 
 204 | __ETL__
 205 | 
 206 | В переводе ETL (Extract, Transform, Load) — извлечение, преобразование и загрузка. То есть процесс, с помощью которого данные из нескольких систем объединяют в единое хранилище данных.
 207 | 
 208 | Представьте ритейлера с розничными и интернет-магазинами. Ему нужно анализировать тенденции продаж и онлайн, и офлайн. Но бэкэнд-системы для них, скорее всего, будут отдельными. Они могут иметь разные поля или форматы полей для сбора данных, использовать системы, которые не могут «общаться» друг с другом.
 209 | 
 210 | И вот тогда наступает момент для ETL.
 211 | 
 212 | ETL-система извлекает данные из обеих систем, преобразует их в соответствии с требованиями к формату хранилища данных, а затем загружает в это хранилище.
 213 | 
 214 | Схема всегда выглядит так: сначала извлечение данных из одного или нескольких источников, потом их подготовка к интеграции, после этого идет загрузка, и извлеченные данные попадают в общую базу.
 215 | 
 216 | **Проектирование и разработка процесса ETL**
 217 | 
 218 | Процесс ETL реализуется путем либо разработки приложения ETL, либо создания комплекса встроенных программных процедур, либо использования ETL-инструментария. Приложения ETL извлекают информацию из исходных БД источников, преобразуют ее в формат, поддерживаемый БД назначения, а затем загружают в эту БД преобразованные данные.
 219 | 
 220 | Цель любого ETL-приложения состоит в том, чтобы своевременно доставить данные из внешних систем в систему, с которой работают пользователи. Как правило, ETL-приложения используются при переносе данных внешних источников в ХД систем бизнес-аналитики. Поэтому организация процесса ETL является составной частью проекта разработки практически любого ХД.
 221 | 
 222 | Проектирование и разработка etl -процесса является одной из самых важных задач проектировщика ХД.  
 223 | Для ХД процесс ETL имеет следующие свойства:
 224 |   * Во-первых, объем данных, который выбирается из систем источников данных и помещается в ХД, как правило, бывает достаточно большим, до десятков Гб.  
 225 |   * Во-вторых, процесс ETL является необходимой составной частью эксплуатации ХД. Периодичность процесса ETL определяется не только потребностью пользователя в своевременных данных, но и размером загружаемой порции данных. По оценкам специалистов, ETL-процесс может занимать до 80% времени.  
 226 |   * В-третьих, на разных стадиях процесса ETL формируются метаданные ХД и обеспечивается качество данных.  
 227 |   * В-четвертых, во время процесса ETL может произойти потеря данных, поэтому необходимо обеспечивать контроль за поступлением данных в ХД.  
 228 |   * В-пятых, процесс ETL обладает свойством восстанавливаемости после сбоев без потери данных.  
 229 | 
 230 | **Процесс ETL состоит из трех основных стадий:**  
 231 | 
 232 |   * Извлечение данных На этой стадии отбираются и описываются данные внешних источников (начинают формироваться метаданные ХД), которые должны храниться в ХД (релевантные данные).
 233 |   * Преобразование данных На этой стадии релевантные данные преобразуются в формат представления данных в ХД, правила преобразования сохраняются в метаданных ХД, формируются ключевые поля таблиц физической структуры ХД, выполняется очистка данных.
 234 |   * Загрузка данных На этой стадии данные загружаются в ХД, выполняется построение агрегатов.
 235 | 
 236 | **Подходы к реализации ETL-процесса**  
 237 | 
 238 | Существует несколько подходов к реализации процесса ETL. Общепринятый подход состоит в извлечении данных из систем источников, размещении их в промежуточной области дисковой памяти (Data Staging Area), выполнении в этой промежуточной области процедур преобразования и очистки данных, а затем загрузки данных в ХД. Размещение извлеченных данных в промежуточной области означает запись данных в БД или файлы дисковой подсистемы.
 239 | 
 240 | Еще один подход к реализации процесса ETL: 
 241 | 
 242 | Преобразование данных выполняется на сервере ХД, в процессе их загрузки. Использование такого подхода определяется вычислительными возможностями сервера ХД. Обычно такой подход применяется для [MPP серверов](https://coderoad.ru/2984338/%D0%A7%D1%82%D0%BE-%D1%82%D0%B0%D0%BA%D0%BE%D0%B5-%D0%BC%D0%B0%D1%81%D1%81%D0%BE%D0%B2%D0%B0%D1%8F-%D0%BF%D0%B0%D1%80%D0%B0%D0%BB%D0%BB%D0%B5%D0%BB%D1%8C%D0%BD%D0%B0%D1%8F-%D0%BE%D0%B1%D1%80%D0%B0%D0%B1%D0%BE%D1%82%D0%BA%D0%B0-MPP) ХД.
 243 | 
 244 | В зависимости от того, **кто** извлекает данные из систем источников, реализация ETL-процесса может быть выполнена следующими способами.
 245 | 
 246 |   * ETL-сервер периодически подключается к системам, источникам данных, опрашивает их, извлекает результаты выполнения запросов и размещает их у себя для дальнейшей обработки.
 247 |   * Триггеры систем источников данных отслеживают изменения в данных и размещают измененные данные в отдельных таблицах, которые затем экспортируются на ETL-сервер.
 248 |   * Специально разработанное приложение в системах источниках данных периодически опрашивает их и экспортирует данные на ETL-сервер.
 249 |   * Используются log-журналы БД систем источников, которые содержат все транзакции изменения данных. Измененные данные извлекаются из log-журналов и сохраняются на сервере системы источника данных для последующего импорта в ETL-сервер.
 250 | 
 251 | В зависимости от того, **где** выполняется процесс извлечения данных из систем источников, реализация ETL-процесса может быть выполнена следующими способами.
 252 | 
 253 |   * ETL-процесс выполняется на выделенном ETL-сервере, который располагается между системами источниками данных и сервером ХД. В этом случае процесс ETL не использует вычислительных ресурсов сервера ХД и серверов систем источников данных.
 254 |   * ETL-процесс выполняется на сервере ХД. В этом случае сервер ХД должен иметь достаточное дисковое пространство для выполнения ETL-процесса, использование ресурсов сервера не должно сильно влиять на производительность запросов пользователей к ХД.
 255 |   * ETL-процесс выполняется на серверах систем источников данных для ХД. В этом случае изменения в данных сразу же отражаются в ХД. Такой подход используется при разработке ХД реального времени.
 256 | 
 257 | Таким образом, при проектировании процесса ETL проектировщик ХД должен на основе анализа требований к функционированию ХД совместно с руководителем ИТ-проекта выбрать программно-аппаратное решение для реализации ETL-процесса, а именно – точно определить, где и каким способом будет выполняться ETL-процесс. На это решение может сильно повлиять бюджет проекта. Например, может быть недостаточно финансовых средств, чтобы реализовать процесс ETL на выделенном сервере.
 258 | 
 259 | __ETL на практике__  
 260 | 
 261 | Современные инструменты ETL собирают, преобразуют и хранят данные из миллионов транзакций в самых разных источниках данных и потоках. Эта возможность предоставляет множество новых возможностей: анализ исторических записей для оптимизации процесса продаж, корректировка цен и запасов в реальном времени, использование машинного обучения и искусственного интеллекта для создания прогнозных моделей, разработка новых потоков доходов, переход в облако и многое другое.
 262 | 
 263 | **Облачная миграция** Процесс переноса данных и приложений в облако называют облачной миграцией. Она помогает сэкономить деньги, сделать приложения более масштабируемыми и защитить данные. ETL в таком случае используют для перемещения данных в облако.
 264 | 
 265 | **Хранилище данных** Хранилище данных — база данных, куда передают данные из различных источников, чтобы их можно было совместно анализировать в коммерческих целях. Здесь ETL используют для перемещения данных в хранилище данных.
 266 | 
 267 | **Машинное обучение** Машинное обучение — метод анализа данных, который автоматизирует построение аналитических моделей. ETL может использоваться для перемещения данных в одно хранилище для машинного обучения.
 268 | 
 269 | **Интеграция маркетинговых данных** Маркетинговая интеграция включает в себя перемещение всех маркетинговых данных — о клиентах, продажах, из социальных сетей и веб-аналитики — в одно место, чтобы вы могли проанализировать их. ETL используют для объединения маркетинговых данных.
 270 | 
 271 | **Интеграция данных IoT** То есть данных, собранных различными датчиками, в том числе встроенными в оборудование. ETL помогает перенести данные от разных IoT в одно место, чтобы вы могли сделать их подробный анализ.
 272 | 
 273 | **Репликация базы данных** — данные из исходных баз данных копируют в облачное хранилище. Это может быть одноразовая операция или постоянный процесс, когда ваши данные обновляются в облаке сразу же после обновления в исходной базе. ETL можно использовать для осуществления процесса репликации данных.
 274 | 
 275 | **Бизнес-аналитика** Бизнес-аналитика — процесс анализа данных, позволяющий руководителям, менеджерам и другим заинтересованным сторонам принимать обоснованные бизнес-решения. ETL можно использовать для переноса нужных данных в одно место, чтобы их можно было использовать.
 276 | 
 277 | __Популярные ETL-системы__  
 278 | 
 279 | **Cloud Big Data** — PaaS-сервис для анализа больших данных (big data) на базе Apache Hadoop, Apache Spark, ClickHouse. Легко масштабируется, позволяет заменить дорогую и неэффективную локальную инфраструктуру обработки данных на мощную облачную инфраструктуру. Помогает обрабатывать структурированные и неструктурированные данные из разных источников, в том числе в режиме реального времени. Развернуть кластер интеграции и обработки данных в облаках можно за несколько минут, управление осуществляется через веб-интерфейс, командную строку или API.
 280 | 
 281 | **IBM InfoSphere** — инструмент ETL, часть пакета решений IBM Information Platforms и IBM InfoSphere. Доступен в различных версиях (Server Edition, Enterprise Edition и MVS Edition). Помогает в очистке, мониторинге, преобразовании и доставке данных, среди преимуществ: масштабируемость, возможность интеграции почти всех типов данных в режиме реального времени.
 282 | 
 283 | **PowerCenter** — набор продуктов ETL, включающий клиентские инструменты PowerCenter, сервер и репозиторий. Данные хранятся в хранилище, где к ним получают доступ клиентские инструменты и сервер. Инструмент обеспечивает поддержку всего жизненного цикла интеграции данных: от запуска первого проекта до успешного развертывания критически важных корпоративных приложений.
 284 | 
 285 | **iWay Software** предоставляет возможность интеграции приложений и данных для удобного использования в режиме реального времени. Клиенты используют их для управления структурированной и неструктурированной информацией. В комплект входят: iWay DataMigrator, iWay Service Manager и iWay Universal Adapter Framework.
 286 | 
 287 | **Microsoft SQL Server** — платформа управления реляционными базами данных и создания высокопроизводительных решений интеграции данных, включающая пакеты ETL для хранилищ данных.
 288 | 
 289 | **OpenText** — платформа интеграции, позволяющая извлекать, улучшать, преобразовывать, интегрировать и переносить данные и контент из одного или нескольких хранилищ в любое новое место назначения. Позволяет работать со структурированными и неструктурированными данными, локальными и облачными хранилищами.
 290 | 
 291 | **Oracle GoldenGate** — комплексный программный пакет для интеграции и репликации данных в режиме реального времени в разнородных IT-средах. Обладает упрощенной настройкой и управлением, поддерживает облачные среды.
 292 | 
 293 | **Pervasive Data Integrator** — программное решение для интеграции между корпоративными данными, сторонними приложениями и пользовательским программным обеспечением. Data Integrator поддерживает сценарии интеграции в реальном времени.
 294 | 
 295 | **Pitney Bowes** предлагает большой набор инструментов и решений, нацеленных на интеграцию данных. Например, Sagent Data Flow — гибкий механизм интеграции, который собирает данные из разнородных источников и предоставляет полный набор инструментов преобразования данных для повышения их коммерческой ценности.
 296 | 
 297 | **SAP Business Objects** — централизованная платформа для интеграции данных, качества данных, профилирования данных, обработки данных и отчетности. Предлагает бизнес-аналитику в реальном времени, приложения для визуализации и аналитики, интеграцию с офисными приложениями.
 298 | 
 299 | **Sybase** включает Sybase ETL Development и Sybase ETL Server. Sybase ETL Development — инструмент с графическим интерфейсом для создания и проектирования проектов и заданий по преобразованию данных. Sybase ETL Server — масштабируемый механизм, который подключается к источникам данных, извлекает и загружает данные в хранилища.
 300 | 
 301 | __Open source ETL-средства__
 302 | 
 303 | Большинство инструментов ETL с открытым исходным кодом помогают в управлении пакетной обработкой данных и автоматизации потоковой передачи информации из одной системы данных в другую. Эти рабочие процессы важны при создании хранилища данных для машинного обучения.  
 304 | 
 305 | Некоторые из бесплатных и открытых инструментов ETL принадлежат поставщикам, которые в итоге хотят продать корпоративный продукт, другие обслуживаются и управляются сообществом разработчиков, стремящихся демократизировать процесс.  
 306 | 
 307 | Open source ETL-инструменты интеграции данных:  
 308 | 
 309 | **Apache Airflow** — платформа с удобным веб-интерфейсом, где можно создавать, планировать и отслеживать рабочие процессы. Позволяет пользователям объединять задачи, которые нужно выполнить в строго определенной последовательности по заданному расписанию. Пользовательский интерфейс поддерживает визуализацию рабочих процессов, что помогает отслеживать прогресс и видеть возникающие проблемы.  
 310 | 
 311 | **Apache Kafka** — распределенная потоковая платформа, которая позволяет пользователям публиковать и подписываться на потоки записей, хранить потоки записей и обрабатывать их по мере появления. Kafka используют для создания конвейеров данных в реальном времени. Он работает как кластер на одном или нескольких серверах, отказоустойчив и масштабируем.  
 312 | 
 313 | **Apache NiFi** — распределенная система для быстрой параллельной загрузки и обработки данных с большим числом плагинов для источников и преобразований, широкими возможностями работы с данными. Пользовательский веб-интерфейс NiFi позволяет переключаться между дизайном, управлением, обратной связью и мониторингом.  
 314 | 
 315 | **CloverETL** (теперь CloverDX) был одним из первых инструментов ETL с открытым исходным кодом. Инфраструктура интеграции данных, основанная на Java, разработана для преобразования, отображения и манипулирования данными в различных форматах. CloverETL может использоваться автономно или встраиваться и подключаться к другим инструментам: RDBMS, JMS, SOAP, LDAP, S3, HTTP, FTP, ZIP и TAR. Хотя продукт больше не предлагается поставщиком, его можно безопасно загрузить с помощью SourceForge. CloverDX по-прежнему поддерживает CloverETL в соответствии со стандартным соглашением о поддержке.  
 316 | 
 317 | **Jaspersoft ETL** — один из продуктов с открытым исходным кодом TIBCO Community Edition, позволяет пользователям извлекать данные из различных источников, преобразовывать их на основе определенных бизнес-правил и загружать в централизованное хранилище данных для отчетности и аналитики. Механизм интеграции данных инструмента основан на Talend. Community Edition прост в развертывании, позволяет создавать витрины данных для отчетности и аналитики.  
 318 | 
 319 | **Apatar** — кроссплатформенный инструмент интеграции данных с открытым исходным кодом, который обеспечивает подключение к различным базам данных, приложениям, протоколам, файлам. Позволяет разработчикам, администраторам баз данных и бизнес-пользователям интегрировать информацию разного формата из различных источников данных. У инструмента интуитивно понятный пользовательский интерфейс, который не требует кодирования для настройки заданий интеграции данных. Инструмент поставляется с предварительно созданным набором инструментов интеграции и позволяет пользователям повторно использовать ранее созданные схемы сопоставления.
 320 | 
 321 | # Разработка ETL-процесса
 322 | <a id="ETL-process"></a>
 323 | ([наверх](#sections))
 324 | 
 325 | Разработка ETL-процесса
 326 | Как правило, при конструировании процесса ETL для ХД придерживаются следующей последовательности действий.
 327 | 
 328 |   * [Планирование ETL-процесса](#Planning-the-ETL-process), которое включает в себя разработку диаграммы потоков данных от систем-источников, определение преобразований, метода генерации ключей и последовательности операций для каждой таблицы назначения.
 329 |   * [Конструирование процесса заполнения таблиц измерений](#Designing-a-Process-for-Populating-Measurement-Tables), которое включает в себя разработку и верификацию процесса заполнения статических таблиц измерений, разработку и верификацию механизмов изменения для каждой таблицы измерений.
 330 |   * [Конструирование процесса заполнения таблиц фактов](#Designing-a-process-for-populating-fact-tables), которое включает в себя разработку и верификацию процесса первоначального заполнения и периодического дополнения таблиц фактов, построение агрегатов и разработку процедур автоматизации процесса ETL.
 331 | 
 332 | **Планирование ETL-процесса**
 333 | <a id="Planning-the-ETL-process"></a>
 334 | 
 335 | Сначала создается обобщенный план, в котором отражается перечень систем –источников данных и указываются планируемые целевые области данных (данных, которые будут размещаться в ХД). Источник целевых данных определяется на основе сформулированных бизнес-требований к ХД. Как правило, источники данных существенно различаются: от БД и текстовых файлов до SMS-сообщений. Это обстоятельство может значительно усложнить задачу преобразования данных.
 336 | 
 337 | Назначение таких высокоуровневых описаний источников дает, с одной стороны, разработчикам представление и о создаваемой системе, и о существующих источниках данных, а с другой, руководству организации, — понимание сложности, связанной с процессами преобразования данных.
 338 | 
 339 | К составлению обобщенного плана лучше всего приступать, когда разработана многомерная модель ХД. Тогда для каждой таблицы многомерной схемы можно определить таблицы – источники данных.
 340 | 
 341 | На этой стадии планирования необходимо зафиксировать все обнаруженные расхождения в определениях данных и схемах кодирования.
 342 | 
 343 | Детальное планирование ETL-процесса во многом зависит от использования выбранных ETL-инструментов. К настоящему времени разработано достаточно много таких инструментов как компаниями производителями комплексных решений в области ХД (IBM, Oracle, MicroSoft), так и сторонними производителями программного обеспечения (Sunopsis). Поэтому задача выбора подходящих ETL-инструментов должна быть решена до того, как приступать к детальному планированию.
 344 | 
 345 | Программное обеспечение этого класса предназначено для извлечения, приведения к общему формату, преобразованию, очистки и загрузки данных в хранилище. Существуют два подхода к написанию ETL-процедур: 
 346 |   1) их можно написать вручную; 
 347 |   2) можно воспользоваться специализированными средствами ETL.
 348 | 
 349 | Каждый из подходов имеет ряд преимуществ и недостатков, поэтому выбор того или иного метода реализации процедур ETL определяется требованиями к подсистеме загрузки данных в каждом конкретном случае.
 350 | 
 351 | _Написание вручную:_
 352 |   * возможность использования широко распространенных парадигм программирования, например, объектно-ориентированного программирования;
 353 |   * возможность применения многих существующих методик и программных средств, позволяющих автоматизировать процесс тестирования разрабатываемых процедур загрузки данных ;
 354 |   * доступность человеческих ресурсов;
 355 |   * возможность построения наиболее производительного решения с использованием при программировании всех преимуществ систем управления базами данных (СУБД), задействованных в проекте;
 356 |   * возможность построения наиболее гибкого решения.
 357 | 
 358 | _Применение ETL-инструментов:_
 359 | 
 360 |   * упрощение процесса разработки, и, главное, процесса поддержания и модификации процедур ETL;
 361 |   * ускорение процесса разработки системы, возможность использования готовых наработок, поставляемых вместе со средствами ETL;
 362 |   * возможность использования встроенных систем управления метаданными, позволяющих синхронизовать метаданные между СУБД, средством ETL, а также инструментами визуализации данных;
 363 |   * возможность автоматической документации написанных процедур;
 364 |   * многие средства ETL предоставляют собой средства увеличения производительности подсистемы загрузки данных, которые включают в себя возможность распараллеливания вычислений на различных узлах системы, использование хеширования и многие другие.
 365 | 
 366 | 
 367 | **Конструирование процесса заполнения таблиц измерений**
 368 | <a id="Designing-a-Process-for-Populating-Measurement-Tables"></a>
 369 | 
 370 | Для таблиц измерений ХД, которые не будут изменяться со временем, в разработке процесса ETL первой основной задачей является выбор первичного ключа таблицы. Выбор ключа осуществляется проектировщиком ХД на основе анализа источников данных.
 371 | 
 372 | Второй основной задачей является проверка наличия в измерении отношений "один к одному" и "один ко многим". Как правило, для такой проверки используется сортировка.
 373 | 
 374 | Затем следует рассмотреть изменяющиеся измерения, определить тип изменений и описать процедуры работы с такими измерениями.
 375 | 
 376 | Загрузка таблиц измерений выполняется либо путем перезаписи таблицы измерения (для небольших по объему таблиц), либо загружаются только изменения в данных таблиц измерений.
 377 | 
 378 | **Конструирование процесса заполнения таблиц фактов**
 379 | <a id="Designing-a-process-for-populating-fact-tables"></a>
 380 | При конструировании процесса заполнения таблиц фактов проектировщик решает следующие основные задачи:
 381 | 
 382 |   * проанализировать построенные таблицы фактов;
 383 | рассмотреть процесс загрузки таблиц фактов;
 384 |   * рассмотреть и проанализировать построенные агрегаты;
 385 |   * рассмотреть процесс загрузки агрегатов.
 386 | 
 387 | Процесс загрузки таблиц фактов бывает двух типов: первоначальная загрузка и периодическая загрузка изменений.
 388 | 
 389 | Проблемы, связанные с первоначальной загрузкой, состоят в том, что с большой долей вероятности вы не получите корректных исторических данных из-за больших объемов данных. Поэтому важно оценить, какой тип загрузки для какой таблицы фактов подходит наилучшим образом.
 390 | 
 391 | ## Элементы ETL-процесса
 392 | <a id="Elements-of-the-ETL-process"></a>
 393 | ([наверх](#sections))
 394 | 
 395 | **Извлечение данных**
 396 | 
 397 | Целью процесса извлечения данных является быстрое извлечение релевантных данных из источников данных.
 398 | 
 399 | Процесс извлечения данных из источников данных можно разбить на следующие основные типы:
 400 | 
 401 |   * извлечение данных при помощи приложений, основанных на выполнении SQL-команд. Эти приложения функционируют совместно с другими приложениями систем источников данных;
 402 |   * извлечение данных при помощи встроенных в СУБД механизмов импорта/экспорта данных. Использование таких механизмов, как правило, обеспечивает более быстрое извлечение данных, чем с помощью команд SQL;
 403 |   * извлечение данных с помощью специально разработанных приложений.
 404 | 
 405 | Процесс извлечения данных может выполняться ежедневно, еженедельно или, в редких случаях, ежемесячно. Отметим, что существует целый класс систем бизнес-аналитики, которые требуют извлечения данных в режиме реального времени: например, системы, анализирующие биржевые операции (каждую секунду), или системы в области телекоммуникаций.
 406 | 
 407 | Процесс извлечения данных может выполняться либо в среде оперативных систем обработки данных (источников), либо в среде функционирования ХД.
 408 | 
 409 | **Преобразование данных**
 410 | 
 411 | Процесс преобразования данных источников включает в себя следующие основные действия.
 412 | 
 413 |   * Преобразование типов данных:
 414 |       - преобразования, связанные с кодировкой данных, например, EBCDIC -> ASCII / UniCode;
 415 |       - преобразование строковых данных;
 416 |       - преобразование форматов данных для представления даты или времени.
 417 |   * Преобразования, связанные с нормализацией или денормализацией схемы данных:
 418 |       - преобразование денормализации схемы с целью увеличения производительности выполнения запросов к ХД;
 419 |       - нормализация схемы ХД с целью обеспечения простоты SQL-запросов.
 420 |   * Преобразования ключей, связанные с обеспечением соответствия бизнес-ключей суррогатным ключам ХД.
 421 |   * Преобразования, связанные с обеспечением качества данных в ХД.
 422 | 
 423 | Как правило, данные источников не обладают необходимым уровнем качества данных. Заметим, что данные в ХД должны быть:
 424 | 
 425 |   * точными – данные должны содержать правильные количественные значения метрик или давать объяснения, почему невозможно такие значения иметь;
 426 |   * полными – пользователи ХД должны знать, что имеют доступ ко всем релевантным данным;
 427 |   * согласованными – никакие противоречия в данных не допускаются: агрегаты должны точно соответствовать подробным данным;
 428 |   * уникальными – одни и те же объекты предметной области должны иметь одинаковые наименования и идентифицироваться в ХД одинаковыми ключами;
 429 |   * актуальными – пользователи ХД должны знать, с какой частотой данные обновляются (т.е. на какую дату данные действительны).
 430 | 
 431 | Для обеспечения качества данные при преобразовании подвергаются процедуре очистки. Процедура очистки данных необходима, поскольку системы бизнес-аналитики не работают с несогласованными и неточными данными, иначе бизнес-анализ становится бессмысленным.
 432 | 
 433 | Процедура очистки данных включает в себя согласование форматов данных, кодирование данных, исключение ненужных атрибутов (например, комментариев), замещение кодов значениями (например, почтового индекса наименованием населенного пункта), комбинирование данных из различных источников под общим ключом (например, собрать все данные о покупателях), обнаружение одинаково поименованных атрибутов, которые содержат различные по смыслу значения.
 434 | 
 435 | Очистку данных можно разделить на следующие типы:
 436 | 
 437 |   * конвертация и нормализация данных (приведение к одинаковому кодированию текста, форматам даты и т. д.);
 438 |   * стандартизация написания имен, представления адресов, устранение дубликатов;
 439 |   * стандартизация наименований таблиц, индексов и т.д.;
 440 |   * очистка, основанная на бизнес-правилах предметной области.
 441 | 
 442 | Процедуры очистки также включают в себя создание меток статуса фактов в таблицах измерения (нормальный, ненормальный, невозможный, выходящий за границы, анализируемый или нет и т.д.), распознавание случайных и зашумленных значений (замещение их NULL-значением или оценкой), унификация использования NULL-значений, маркирование фактов с изменившимся статусом (например, покупатель аннулировал контракт), агрегирование фактов и т.п.
 443 | 
 444 | **Загрузка данных**
 445 | 
 446 | Основная цель процесса загрузки данных состоит в быстрой загрузке данных в ХД. Отметим некоторые особенности выполнения процесса загрузки данных в ХД.
 447 | 
 448 | * Во-первых, загрузка данных, основанная на использовании команд обновления SQL, является медленной. Каждая команда SQL выполняется СУБД по определенному плану выполнения, и ее обработка включает выполнение нескольких фаз. Поэтому загрузка с помощью встроенных в СУБД средств импорта/экспорта является предпочтительной.
 449 | 
 450 | * Во-вторых, индексы таблиц загружаются медленно. Во многих случаях целесообразно удалить индекс и построить его заново.
 451 | 
 452 | * В-третьих, следует максимально использовать параллелизм при загрузке данных. Измерения могут производиться одновременно с фактами и секциями таблиц. Аналогично факты и секции таблиц могут загружаться одновременно с измерениями.
 453 | 
 454 | Следует заметить, что при загрузке данных должна быть гарантирована ссылочная целостность данных, а агрегаты должны быть построены и загружены одновременно с подробными данными.
 455 | 
 456 | Настройка производительности загрузки данных в ХД выполняется администратором ХД с помощью набора процедур, предусмотренных используемой СУБД.
 457 | 
 458 | # Что такое Hadoop?
 459 | <a id="hadoop"></a>
 460 | ([наверх](#sections))
 461 | 
 462 | Hadoop - инструмент для обработки Big Data. Hadoop - это проект Apache, является системой для распределённых вычислений. При этом эта система является масштабируемой и отказоустойчивой. 
 463 | 
 464 | __История Hadoop__  
 465 | Начинался как проект в Apache Nutch  
 466 | В 2004 году Google публикует статьи про GFS и MapReduce  
 467 | На основе этих статей формируется распределённая файловая система  
 468 | 
 469 | __Системные принципы Hadoop__  
 470 | * Горизонтальное (Scale-out) масштабирование вместо вертикального (Scale-Up)
 471 | * Отправление кода к данным
 472 | * Умение обрабатывать падения нод и отказы оборудования
 473 | * Инкапсуляция сложности работы распределённых и многопоточных приложений
 474 | 
 475 | __Масштабирование__  
 476 | * Вертикальное  
 477 |   - Добавить дополнительные ресурсы к существующему железу (CPU, RAM)  
 478 |   - Если нельзя улучшить железо, то надо покупать более мощное новое  
 479 |   - Закон Мура не успевает за ростом объёма данных  
 480 | * Горизонтальное 
 481 |   - Добавить больше машин к существующему кластеру
 482 |   - Приложение поддерживает добавлние/удаление серверов
 483 |   - Просто масштабировать "вниз"
 484 | 
 485 | # Data Vault
 486 | <a id="Data-Vault"></a>
 487 | ([наверх](#sections))
 488 | 
 489 | Большинство компаний сегодня накапливают различные данные, полученные в процессе работы. Часто данные приходят из различных источников — структурированные и не очень, иногда в режиме реального времени, а иногда они доступны в строго определенные периоды. Все это разнообразие нужно структурированно хранить, чтоб потом успешно анализировать, рисовать красивые отчеты и вовремя замечать аномалии. Для этих целей проектируется хранилище данных (Data Warehouse, DWH).
 490 | 
 491 | Data Vault - это один из подходов к построению такого универсального хранилища. 
 492 | 
 493 | Data Vault состоит из трех основных компонентов — **Хаб** (Hub), **Ссылка** (Link) и **Сателлит** (Satellite).
 494 | 
 495 | **Хаб**
 496 | 
 497 | Хаб — основное представление сущности (Клиент, Продукт, Заказ) с позиции бизнеса. Таблица-Хаб содержит одно или несколько полей, отражающих сущность в понятиях бизнеса. В совокупности эти поля называются «бизнес ключ». Идеальный кандидат на звание бизнес-ключа это ИНН организации или VIN номер автомобиля, а сгенерированный системой ID будет наихудшим вариантом. Бизнес ключ всегда должен быть уникальным и неизменным.
 498 | Хаб так же содержит мета-поля _load timestamp_ и _record source_, в которых хранятся время первоначальной загрузки сущности в хранилище и ее источник (название системы, базы или файла, откуда данные были загружены). 
 499 | 
 500 | Таблицы Хабы  
 501 | 
 502 | ![Таблицы Хабы](https://habrastorage.org/r/w780/webt/8q/r3/ik/8qr3ikyx5nwg2dsjaqbxdrw7y4a.png)
 503 | 
 504 | **Ссылка**
 505 | 
 506 | Таблицы-Ссылки связывают несколько хабов связью многие-ко-многим. Она содержит те же метаданные, что и Хаб. Ссылка может быть связана с другой Ссылкой, но такой подход создает проблемы при загрузке, так что лучше выделить одну из Ссылок в отдельный Хаб.
 507 | 
 508 | Таблица-ссылка  
 509 | 
 510 | ![Таблица-ссылка](https://habrastorage.org/r/w780/webt/sr/q1/p2/srq1p2pdfcgx-xmqjl6xrsh_hpq.png)
 511 | 
 512 | **Сателлит**
 513 | 
 514 | Таблицы-Сателлиты содержат все описательные атрибуты Хаба или Ссылки (контекст). Помимо контекста Сателлит содержит стандартный набор метаданных (_load timestamp_ и _record source_) и один и только один ключ «родителя». В Сателлитах можно без проблем хранить историю изменения контекста, каждый раз добавляя новую запись при обновлении контекста в системе-источнике. Для упрощения процесса обновления большого сателлита в таблицу можно добавить поле hash diff: MD5 или SHA-1 хеш от всех его описательных атрибутов. Для Хаба или Ссылки может быть сколь угодно Сателлитов, обычно контекст разбивается по частоте обновления. Контекст из разных систем-источников принято класть в отдельные Сателлиты.
 515 | 
 516 | Таблицы-Сателлиты  
 517 | 
 518 | ![Таблицы-Сателлиты](https://habrastorage.org/r/w780/webt/kl/fa/7r/klfa7re28amqqotkvwxovutlpo8.png)
 519 | 
 520 | Таблицы Data Vault: хабы, ссылки, спутники  
 521 | 
 522 | ![Таблицы Data Vault: хабы, ссылки, спутники](https://www.bigdataschool.ru/wp-content/uploads/2020/04/%D0%B4%D0%B0%D1%82%D0%B0%D0%B2%D0%BE%D0%BB_1.png)
 523 | 
 524 | **Как с этим работать?**
 525 | 
 526 | ![Building a Scalable Data Warehouse with Data Vault 2.0](https://habrastorage.org/r/w780/webt/2v/q_/kv/2vq_kviv6uebjj_m1svk5rafubi.png)
 527 | 
 528 | Сначала данные из операционных систем поступают в staging area. Staging area используется как промежуточное звено в процессе загрузки данных. Одна из основных функций Staging зоны это уменьшение нагрузки на операционные базы при выполнении запросов. Таблицы здесь полностью повторяют исходную структуру, но любые ограничения на вставку данных, вроде not null или проверки целостности внешних ключей, должны быть выключены с целью оставить возможность вставить даже поврежденные или неполные данные (особенно это актуально для excel-таблиц и прочих файлов). Дополнительно в stage таблицах содержатся хеши бизнес ключей и информация о времени загрузки и источнике данных.
 529 | 
 530 | После этого данные разбиваются на Хабы, Ссылки и Сателлиты и загружаются в Raw Data Vault. В процессе загрузки они никак не агрегируются и не пересчитываются.
 531 | 
 532 | Business Vault — опциональная вспомогательная надстройка над Raw Data Vault. Строится по тем же принципам, но содержит переработанные данные: агрегированные результаты, сконвертированные валюты и прочее. Разделение чисто логическое, физически Business Vault находится в одной базе с Raw Data Vault и предназначен в основном для упрощения формирования витрин.
 533 | 
 534 | Когда нужные таблицы созданы и заполнены, наступает очередь витрин данных (Data Marts). Каждая витрина это отдельная база данных или схема, предназначенная для решения задач различных пользователей или отделов. В ней может быть специально собранная «звезда» или коллекция денормализованных таблиц. Если возможно, таблицы внутри витрин лучше делать виртуальными, то есть вычисляемыми «на лету». Для этого обычно используются SQL представления (SQL views).
 535 | 
 536 | **Заполнение Data Vault**
 537 | 
 538 | Cначала загружаются Хабы, потом Ссылки и затем Сателлиты. Хабы можно загружать параллельно, так же как и Сателлиты и Ссылки, если конечно не используется связь link-to-link.
 539 | 
 540 | Есть вариант и вовсе выключить проверку целостности и загружать все данные одновременно. Как раз такой подход соответствует одному из основных постулатов DV — «Загружать все доступные данные все время (Load all of the data, all of the time)» и именно здесь играют решающую роль бизнес ключи. Суть в том, что возможные проблемы при загрузке данных должны быть минимизированы, а одна из наиболее распространенных проблем это нарушение целостности. Подход, конечно, спорный, но лично я им пользуюсь и нахожу действительно удобным: данные все равно проверяются, но после загрузки. Часто можно столкнуться с проблемой отсутствия записей в нескольких Хабах при загрузке Ссылок и последовательно разбираться, почему тот или иной Хаб не заполнен до конца, перезапуская процесс и изучая новую ошибку. Альтернативный вариант — вывести недостающие данные уже после загрузки и увидеть все проблемы за один раз. Бонусом получаем устойчивость к ошибкам и возможность не следить за порядком загрузки таблиц.
 541 | 
 542 | **Преимущества и недостатки**
 543 | 
 544 | [+] Гибкость и расширяемость.  
 545 | С Data Vault перестает быть проблемой как расширение структуры хранилища, так и добавление и сопоставление данных из новых источников. Максимально полное хранилище «сырых» данных и удобная структура их хранения позволяют нам сформировать витрину под любые требования бизнеса, а существующие решения на рынке СУБД хорошо справляются с огромными объемами информации и быстро выполняют даже очень сложные запросы, что дает возможность виртуализировать большинство витрин.  
 546 | [+] Agile-подход из коробки.  
 547 | Моделировать хранилище по методологии Data Vault довольно просто. Новые данные просто «подключаются» к существующей модели, не ломая и не модифицируя существующую структуру. При этом мы будем решать поставленную задачу максимально изолированно, загружая только необходимый минимум, и, вероятно, наша временнáя оценка для такой задачи станет точнее. Планирование спринтов будет проще, а результаты предсказуемы с первой же итерации.  
 548 | [–] Обилие JOIN'ов  
 549 | За счет большого количества операций join запросы могут быть медленнее, чем в традиционных хранилищах данных, где таблицы денормализованы.  
 550 | [–] Сложность.  
 551 | В описанной выше методологии есть множество важных деталей, разобраться в которых вряд ли получится за пару часов. К этому можно прибавить малое количество информации в интернете и почти полное отсутствие материалов на русском языке (надеюсь это исправить). Как следствие, при внедрении Data Vault возникают проблемы с обучением команды, появляется много вопросов относительно нюансов конкретного бизнеса. К счастью, существуют ресурсы, на которых можно задать эти вопросы. Большой недостаток сложности это обязательное требование к наличию витрин данных, так как сам по себе Data Vault плохо подходит для прямых запросов.  
 552 | [–] Избыточность.  
 553 | Довольно спорный недостаток, но я часто вижу вопросы об избыточности, поэтому прокомментирую этот момент со своей точки зрения.  
 554 | 
 555 | # Apache Kafka
 556 | <a id="Apache-Kafka"></a>
 557 | ([наверх](#sections))
 558 | 
 559 | Кафка - это распределённое, отказоусойчивое, горизонтально масштабируемое хранилище, основной структурой данных в котором является append-only лог, которое поддерживает потоковую обработку данных и имеет развитую экосистему коннектеров для интеграции с базами данных и другими хранилищами
 560 | 
 561 | Apache Kafka - в силу своей архитектуры Kafka может быть и базой данных, и системой очередей и платформой для потоковой обработки данных.  
 562 | С одной стороны кафка позваляет публиковать потоки данных, сообщения, метрики, логи или картинки и с другой стороны подписываться. При этом кафка умеет справляться практически с любыми объемами информации, отлично масштабируется горизонтально, хранит все данные на диске, обладает высокой отказоустойчивостью.
 563 | 
 564 | **Распределённое хранилище** - это система, которая как правило работает на нескольких машинах, каджая из этих машин в свою очередь является кусочком хранилища. Для пользователя это все представляется в виде единого целого.
 565 | 
 566 | **Горизонтальное масштабирование** - эта техника позволяющая обеспечивать работоспособность системы даже в случае увеличенной нагрузки. Путём добавляния машин.
 567 | 
 568 | **Потоковая обработка данных** - получение на входе некого непрерывно-пополняющегося набора данных, такая же непрерывная обработка этих данных и подача результата на выход. 
 569 | 
 570 | **Kafka vs Queue**
 571 | 
 572 | Системы очередей обычно состоят из 3х базовых компонентов:
 573 |   * Сревер 
 574 |   * Продюсер - отправляет сообщения в именнованную очередь
 575 |   * Консюмер - считывает сообщения (pull и push)
 576 | 
 577 | Жизненный цикл сообщений в системе очередей:
 578 |   * Продьюсер отправляет сообщение на сервер
 579 |   * Консьюмер фетчит сообщение и его уникальный идентификатор сервера
 580 |   * Сервер помечает сообшение
 581 |   * Консьюмер обрабатывает сообщение следую некой бизнес логике
 582 |   * Отправляет запрос обратно на сервер либо подтверждая успешную обработку сообщения, либо сигнализирую об ошибке
 583 |   * В случае успеха, сообщение удаляется с сервера навсегда
 584 |   * В случае неудаче сообщение отправляется другому консьюмеру
 585 | 
 586 | Отличие кафки от очередей - то как сообщения хранятся на сервере(брокере) и как отправляются консьюмерам. Сообщения в кафке не удаляются по мере обработки консьюмерами, данные в кафе хранятся сколько угодно. Одно и тоже сообщение может быть обработано несколько раз разными консьюмерами и в разных контекстах. 
 587 | 
 588 | **Структура данных**
 589 | 
 590 | Каждое сообщение состоит из:
 591 |   * Ключа (key)
 592 |   * Значения (Value)
 593 |   * Timestamp
 594 |   * Опциональный набор метаданных (Headers)
 595 | 
 596 | Партиция - распределённый отказоустойчивый лог 
 597 | 
 598 | Сообщения хранятся в именнованных топиках, каждый топик состоит мз одной и более партицей, распределёных между брокерами внутри одного кластера. Это важно для горизонтального масштабирования кластера, так как она позволяет клиентам писать и читать сообщения с нескольких брокеров одновременно.
 599 | Когда новое сообщение добавляется в топик, оно записывается в одну из партицей этого топика. Сообщения с одинаковыми ключами записываются в одну и туже партицию.
 600 | У каждой партиции есть лидер, или брокер, который работает с клиентами лидер принимает сообщения от продьюсеров и отдаёт консьюмерам.
 601 | 
 602 | # Greenplum
 603 | <a id="Greenplum"></a>
 604 | ([наверх](#sections))
 605 | 
 606 | В основе Greenplum две вещи:
 607 |   * база данных PostgreSQL;
 608 |   * архитектурная концепция MPP.
 609 | 
 610 | MPP — massively parallel processing, или массивно-параллельная обработка данных. Такая архитектура весьма сложно устроена под капотом, но ее можно свести к простому концептуальному описанию. Это умная автоматическая разбивка данных по разным серверам (шардинг) с умной автоматической системой выполнения запросов к этим данным. Всё вместе это позволяет хранить петабайты записей и выполнять запросы к ним за вполне разумный срок.
 611 | 
 612 | Разбивку большого количества данных по серверам базы данных (шардинг) можно сделать и руками, например, первый миллион записей хранится на первом сервере, а второй на втором. Если сразу всем клиентам системы понадобится прочитать записи с одного сервера — этот сервер может не выдержать. Масштабировать такую систему тоже очень сложно.  
 613 | Greenplum берет на себя все эти заботы и организует шардирование своими силами, заботясь обо всех нюансах. А еще Greenplum можно настраивать на различные стратегии выполнения запросов, ориентируясь на количество записей, количество процессоров и памяти на каждой машине.
 614 | 
 615 | Greenplum поддерживает реляционную модель данных, сохраняет неизменность данных, поэтому ее можно применять для данных, чувствительных к точности и структурности. Например, для финансовых операций. Greenplum — хороший выбор для банков, ритейла и других компаний, где проводят большое число транзакций и их нельзя потерять.
 616 | 
 617 | От систем типа ClickHouse Greenplum отличается сферой применения. Если Clickhouse больше подходит для статистики, то Greenplum намного ближе к полноценной СУБД с индексами и хитрыми запросами. Это позволяет быстрее обращаться к определенным записям. При этом Greenplum справляется с аналитическими нагрузками от бизнес-аналитики до машинного обучения. Сама система за хранение данных не отвечает, для этих целей она использует PostgreSQL.
 618 | 
 619 | Главное отличие между PostgreSQL и Greenplum заключается в следующем:  
 620 | 
 621 |   * архитектура – Greenplum реализует массивно-параллельную обработку без разделения ресурсов, а PostgreSQL – классическую клиент-серверную технологию. В Greenplum для повышения надежности к типовой топологии master-slave добавлен резервный главный сервер (Secondary master instance), включаемый вручную при отказе основного мастера.  
 622 |   * структура хранения данных. Greenplum – это одновременно хранилище данных и база транзакционных или операционных данных с распараллеливанием вычислительных процессов и хранения информации в нескольких экземплярах PostgreSQL на разных физических серверах с функцией колоночного хранения и сжатия.  
 623 |   * сценарии применения. Greenplum предназначен для одновременной обработки транзакционных событий обработки и отлично подходит для обширной OLAP-аналитики больших данных. PostgreSQL – хороший вариант для баз данных небольшого размера с OLTP-кейсами.  
 624 | 
 625 | # Распределённая файловая система HDFS
 626 | <a id="distributed-file-system-HDFS"></a>
 627 | * [Архитектура HDFS](#HDFS-architecture)  
 628 | * [Shell-команды](#Shell-commands)
 629 | * [Java API](#Java_API1)
 630 | 
 631 | ([наверх](#sections))
 632 | 
 633 | ## Архитектура HDFS
 634 | <a id="HDFS-architecture"></a>
 635 | 
 636 | HDFS (Hadoop Distributed File System) - это распределённая файловая система в hadoop. Как и любая другая файловая система она служит для хранения данных.
 637 | 
 638 | HDFS:
 639 | * Работает на кластере серверов
 640 | * Для пользователя как "Один большой диск"
 641 | * Работает поверх обычных файловых систем (ext3, ext4, XFS)  
 642 | * Не теряет данные если выходят из строя диски или сервера
 643 | 
 644 | HDFS подходит для:  
 645 | * Хранения больших данных
 646 |    - Терабайты, петабайты
 647 |    - Миллионы файлов
 648 |    - Файлы размером от 100 Мбэ
 649 | * Стриминга данных
 650 |    - Паттерн "write once / read many times"
 651 |    - Оптимизация под последовательное чтение
 652 | 
 653 | HDFS не подходит для:  
 654 | * Low-latency reads
 655 |    - Высокая пропускная способность вместо быстрого доступа к данным
 656 |    - HBase помогает решить эту задачу
 657 | * Большого количество небольших файлов
 658 |    - Лучше миллион больших файлов, чем миллиард маленьких
 659 | * Многопоточная запись
 660 |    - Один процесс записи на файл
 661 |    - данные дописываются в конец файла
 662 | 
 663 | __Демоны HDFS__  
 664 | ![Демоны HDFS](https://russianblogs.com/images/753/dc2fb07713850c486dd1e421bc6843d9.png)
 665 | 
 666 | **Namenode**  
 667 | Отвечает за:
 668 | * Файловое пространство
 669 | * Мета-информацию
 670 | * Расположение блоков файлов  
 671 | Запускается на 1й выделенной машине
 672 | 
 673 | **Datanode**  
 674 | Отвечает за:
 675 | * Хранение и передачу блоков данных
 676 | * Отправку сообщений о состоянии на Namenode
 677 | 
 678 | Запускается на каждой машине кластера
 679 | 
 680 | **Файлы и блоки**
 681 | 
 682 | * Файлы в HDFS состоят из блоков  
 683 |   блок - еденица хранения данных
 684 | * Управление через Namenode
 685 | * Хранится в Datanode
 686 | 
 687 | Реплицируются по машинам в процессе записи:  
 688 | 
 689 | * Один и тот же блок хранится на нескольких Datanode
 690 | * Фактор репликации по умлочанию равен 3
 691 | * Это нужно для fault-tolerance и упрощения доступа 
 692 | 
 693 | * Стандартный размер блоков 64 Мб или 128 Мб
 694 | * Основной мотив этого - снизить стоимость seek time по сравнению со скоростью передачи данных (transfer rate)
 695 | 
 696 | **Репликация блоков**
 697 | 
 698 | * Namenode определяет, где распологать блоки
 699 | * Баланс между надёжностью и производительностью
 700 |   - Попытка снизить нагрузку на сеть
 701 |   - Попытка улучшить надёжность 
 702 | 
 703 | Фактор репликации по умлочанию равен 3
 704 | 
 705 | - 1-я реплика на локальную машину
 706 | - 2-я реплика на другую машину из той же стойки
 707 | - 3-я реплика на другую машину из другой стойки
 708 | 
 709 | **Namenode Использование памяти**
 710 | 
 711 | Чем больше кластер, тем больше ОЗУ требуется
 712 | Больше размер блока -> меньше блоков
 713 | Меньше блоков -> больше файлов в FS
 714 | 
 715 | Если Namenode падает, то HDFS не работает
 716 | Namenode - это едина точка отказа
 717 | Она должна быть на отдельной надёжной машиной.
 718 | 
 719 | **Доступ к HDFS**
 720 | 
 721 | * Direct Access
 722 |   - Взаимодействует с HDFS  с помощью нативного клиента
 723 |   - Java, C++
 724 |   - Клиент запрашивает метаданные от NN
 725 |   - Клиент напрямую запрашивает данные от DN
 726 |   - Используется для MapReduce
 727 | * Через Proxy Server
 728 |   - Доступ к HDFS через Proxy Server - middle man
 729 |   - ответ в форматие JSON, XML
 730 |   - Серверы REST, Thrift и Avro - механизм сериализации
 731 | 
 732 | ### Shell-команды
 733 | <a id="Shell-commands"></a>
 734 | 
 735 | ([наверх](#sections))
 736 | 
 737 | Для работы с HDFS через командную строку
 738 | 
 739 | ```$hdfs dfs (значит, что будем работать непосредственно с фаловой системой) -<command> -<option><URL>```
 740 | ```$hdfs dfs -ls / (листинг корневой директории)```
 741 |   
 742 | **URI**   
 743 |   
 744 | hdfs://localhost:8020/user/home
 745 | 
 746 | Для того чтобы ссылка считалась URI необходимо наличие:
 747 | - либо scheme+authority+path,
 748 | - либо sheme+path,
 749 | - либо только path.
 750 |   
 751 | Вывод списка команд
 752 | ```$hdfs dfs - help```
 753 |   
 754 | Информация по командк
 755 | ```$hdfs dfs - help <command>```
 756 |   
 757 | __Основные команды в shell__
 758 |   
 759 | ```ls``` - листинг директории и статистика файлов
 760 | ```mkdir``` - создать директорию
 761 |   ```$hdfs dfs -mkdir /data/new_path```
 762 | ```cat``` - вывод источника в stdout
 763 |   - Весь файл: ```$hdfs dfs -cat /dir/file.txt```
 764 |   - Полезно вывод перенаправить через pipe в less, head, tail и т.д.
 765 |   - Получить первые 100 строк из файла: ```$hdfs dfs -cat /dir/file.tx | head -n 100```
 766 | 
 767 | text - аналог команды cut, который разархивирует архивы
 768 |   
 769 | ```tail``` - выводит последние сроки файла
 770 |   ```$hdfs dfs -cat /dir/file.tx | tail``` - плохо
 771 |   ```$hdfs dfs -tail /dir/file.tx``` - хорошо
 772 |   
 773 | ```cp``` - копировать файл из одного места в другое
 774 |   ```$hdfs dfs -cp /dir/file1 /otherDir/file2```
 775 | Подходит только для небольших файлов
 776 |   
 777 | ```distcp``` - копирует большие файлы, или много файлов
 778 |   ```$hdfs dfs -distcp /dir/file1 /otherDir/file2```
 779 |   
 780 | ```mv``` - перемещения файла
 781 |   ```$hdfs dfs -mv /dir/file1 /dir2```
 782 |   
 783 | ```put```(copyFromLocal) - копирование локального файла в HDFS
 784 |   ```$hdfs dfs -put loaclfile /dir/file```
 785 |   
 786 | ```get```(copyToLocal) - копирование файла bp HDFS в локальную FS 
 787 |   ```$hdfs dfs -get /dir/file loaclfile```
 788 |   
 789 | ```rm``` - удалить файл в корзину
 790 |   ```$hdfs dfs -rm /dir/file```
 791 |   
 792 | ```rm -r``` - рекурсивно удалить директорию
 793 |   ```$hdfs dfs -rm -r /dir```
 794 |   
 795 | ```du``` - размер файла или директории в байтах
 796 |   ```$hdfs dfs -du /dir```
 797 |   
 798 | ```du -h``` - размер в удобно читаемом формате
 799 |   ```$hdfs dfs -du -h /dir```
 800 |   
 801 | ```fsck``` - проверка некосистентности файловой системы. Показывает проблемы. Не устраняет проблем, только информация. 
 802 |   ```$hdfs fsck <path>```
 803 |   
 804 | ```dfsadmin``` - команда для администрирования HDFS
 805 |    ```$hdfs dfsadmin -<command>```
 806 |    ```$hdfs dfsadmin -report``` - отображает статистику по HDFS
 807 |    ```$hdfs dfsadmin -safemode``` - включение безопасного режима
 808 |   
 809 | ```balancer``` - балансирует блоки HDFS по серверам
 810 |  
 811 | ## Java API
 812 | <a id="Java_API1"></a>  
 813 | 
 814 | ([наверх](#sections))
 815 |   
 816 | Файловая система реализуется в Java Api с помощью абстрактного класса FileSystem
 817 |   org.apache.hadoop.fs.FileSystem
 818 |   Абстракный класс представляет абстрактную фаловую систему
 819 |   Это именно класс, а не интерфейс
 820 |   
 821 | Hadoop представляет несколько конкретных реализаций:
 822 |   * org.apache.hadoop.fs.LocalFileSystem
 823 |   Подходит для нативных FS, использующих локальные диски
 824 |   * org.apache.hadoop.hdfs.DistributedFileSystem
 825 |   Реализация распределённой фаловой системы HDFS
 826 |   * org.apache.hadoop.hdfs.HftpFileSystem
 827 |   Доступ к HDFS в read-only режиме через HTTP
 828 |   * org.apache.hadoop.fs.ftp.FTPFileSystem
 829 |   Файловая система поверх FTP-сервера
 830 |   
 831 | Объект Path представляет файл или директорию
 832 | Path - это URI в FS
 833 |   
 834 | **Объект Configuration**
 835 |   Объект Configuration хранит конфигурацию сервера и клиента  
 836 |   Использует простую парадигму key-value  
 837 |   
 838 | **Чтение данных из файла**  
 839 |   * Создать объект FileSystem  
 840 |   * Открыть InputStream, указывающий на path  
 841 |   * Скопировать данные по байтам используя IOUtils  
 842 |   * Закрыть InputStream  
 843 |   
 844 | **Запись данных в файл**
 845 |   * Создать объект FileSystem  
 846 |   * Открыть OutputStream
 847 |     - Указываем на Path из FileSystem  
 848 |     - Используем FSDataOutputStream
 849 |     - Автоматически создаются все директории в пути, если не существуют
 850 |   * Копируем данные по байтам использую IOUtils
 851 | 
 852 | Создание объекта path класса Path для файла /data/logs.txt, расположенного в HDFS (демон NameNode работает на сервере server0, порт 9000)
 853 | 
 854 | ```Path path = new Path("hdfs://server0:9000/data/logs.txt");```
 855 | 
 856 |   
 857 | # MapReduce
 858 | <a id="MapReduce"></a>
 859 |      
 860 | ([наверх](#sections))
 861 | 
 862 | ## Парадигма MapReduce 
 863 |   
 864 | MapReduce - модель распределённых вычислений для обработки больших объёмов данных
 865 | MapReduce - не алгоритм, мы можем говорить, что алгоритмы могут быть реализованы с помощью MapReduce
 866 | MapReduce используется, когда для вычислений не хватает памяти и возникает необходимость проведения паралельных вычислений
 867 | 
 868 | Map - обработка данных  
 869 | Reduce - свёртка данных
 870 |   
 871 | Схема MapReduce  
 872 | ![Схема MapReduce](https://image.slidesharecdn.com/mapreduce-190706072338/95/05-hadoop-mapreduce-mapreduce-2-638.jpg?cb=1562399572)
 873 |   
 874 | **Входные данные**
 875 |   * Входные данные должны быть разделяемы
 876 |   * Данные в каждом split должны быть независимы
 877 |   * Один воркер обрабатывает один сплит
 878 |   * Воркер запускается там, где лежит его сплит
 879 |   
 880 | **Передача данных между Map и Reduce**
 881 |   * Промежуточные данные пишутся на локальный диск, а не в HDFS
 882 |   * Для каждого редьюсера маппер создаёт свой файл с данными
 883 |   * Данные - это пара (Key, Value)
 884 |   * Данные с одним ключом попадают на один редьюсер
 885 |   * Редьюсеры начинают работать после завершения всех мапперов
 886 |   
 887 | ![Процесс передачи файлов в MapReduce](https://cdn.edureka.co/blog/wp-content/uploads/2016/11/MapReduce-Way-MapReduce-Tutorial-Edureka.png)  
 888 | 
 889 | **Результат MapReduce задачи**
 890 |   * Каждый редьюсер пишет в один файл
 891 |   * Число редьюсеров задаёт пользователь
 892 |   * Данные сохраняются в HDFS
 893 |   * Данные вида Key -> Value
 894 |   * Формат данных определяется пользователем
 895 | 
 896 | ## Фреймворк MapReduce 
 897 | <a id="MapReduce-framework"></a> 
 898 | 
 899 | Фреймворк MapReduce обеспечивает:
 900 |   * Подготовку данных
 901 |   * Запуск всех нужных воркеров
 902 |   * Взаимодействие между маппером и редьюсером
 903 |   * Обработку ошибок
 904 | 
 905 | _**Работа демонов в MapReduce**_
 906 | 
 907 | MapReduce в Hadoop-е основан на HDFS-е, это означает, что на нашем кластере есть машины, сервера, на которых запущены демоны datanode, непосредственно демоны файловой системы HDFS. Работают поверх локальной файловой системы линукс и обсепечивают взаимодействие с фаловой системой HDFS. Кроме того есть отдельный сервер на котором находится демон namenode, не хранит данные, но отвечает за хранение метаинформации (блоки каких файлов где хранятся). В MapReduce существует два типа демонов: 
 908 |   * jobtracker - это процесс который в целом отвечает за запуск задачи.  
 909 |   * tasktracker - запущен на каждой машине кластера. Отвечает за запуск конкретных воркеров на конкретном сервере.  
 910 | 
 911 | Обычно в кластере располагают tasktracker и datanode совместно, таким образом обеспечивается наилучшее взаимодействие между HDFS и MapReduce в Hadoop-е
 912 | 
 913 | **jobtracker**
 914 |   * Управляет запуском тасков и определяет, на каком tasktracker будет запущен воркер
 915 |   * Управляет процессом работы MapReduce задач (jobs)
 916 |   * Мониторит прогресс выполнения задач
 917 |   * Перезапускает зафейленные или медленные таски
 918 | 
 919 | **tasktracker**
 920 |   * Отвечает за работу всех worker на одном сервере
 921 |   * Получает от jobtracker информацияю о том какой worker на каких данных нужно запустить
 922 |   * Посылает в jobtracker статистику о прогруссе выполненения задачи
 923 |   * Сообщает в jobtracker об удачном завершении или падении воркера
 924 | 
 925 | **Система слотов**
 926 |   * Для каждого tasktracker определяется число слотов
 927 |   * Таск запускается на одном слоте
 928 |   * M маппером + R редьюсеров = N слотов
 929 |   * Для каждого слота определяется кол-во потребляемой ОЗУ
 930 | 
 931 | **Опциональные функции**
 932 |   * partition (k2, v2, |reducers|) -> № of reducer
 933 |     - распределяет ключи по редьюсерам
 934 |     - часто просто хеш от key: hash(k2) mod n
 935 |   * combine
 936 |     - Мини-reducers которые выполняются после завершения фазы map
 937 |     - Используется в качетсве оптимизации для снижения сетевого трафика на reduce
 938 |     - Не должен менять тип ключа и значения
 939 | 
 940 | ## Hadoop Streaming
 941 | <a id="Hadoop-Streaming"></a> 
 942 | 
 943 | ([наверх](#sections))
 944 | 
 945 | Hadoop Streaming:
 946 |   * Используется стандартный механизм ввода/вывода в Unix для взаимодействия программы и Hadoop
 947 |   * Разработка MR задачи почти на любом языке программирования
 948 |   * Обычно используется:
 949 |     - Для обработки текста
 950 |     - При отсутствии опыта программирования на Java
 951 |     - Для быстрого написания прототипа
 952 | 
 953 | **Streaming в MapReduce**
 954 |   * На вход функции ```map()``` данные подаются через стандартный ввод
 955 |   * В ```map()``` они обрабатываются построчно
 956 |   * Функция ```map()``` пишет пары ```key/value```, разделяемые через символ табуляции, в стандартный вывод
 957 |   * На вход функции ```reduce()``` данные подаются через стандартный ввод, отсортированный по ключам
 958 |   * Функция ```reduce()``` пишет пары ```key/value``` в стандартный вывод
 959 | 
 960 | **Запуск задачи через Streaming Framework**
 961 | 
 962 | ``` hadoop jar $HADOOP_HOME/hadoop/hadoop-streamin.jar \``` 
 963 | ``` -D mapred.job.name="Name of job" \``` Название задачи
 964 | ``` -files smthMap.py, smthReduce.py \``` Файлы, которые нужно донести
 965 | ``` -input inputfile.txt``` Входные данные
 966 | ``` -output /tmp/Name of job/ \``` Куда записывать
 967 | ``` -mapper smthMap.py \``` 
 968 | ``` -combiner smthReduce.py \``` 
 969 | ``` -reducer smthReduce.py``` 
 970 | 
 971 | # Pig и Hive
 972 | <a id="Pig-and-Hive"></a>
 973 | ([наверх](#sections))
 974 | 
 975 | При разработке MapReduce программ необходимо реализовывать одни и теже алгоритмы для разных наборов данных. С помощью эти программ можно запустить MapReduce программы для анализа данных.
 976 | 
 977 | ## Pig
 978 | <a id="Pig"></a>
 979 | ([наверх](#sections))
 980 | 
 981 | Pig - высокоуровневая платформа поверх Hadoop, разработан в Yahoo! в 2006 году
 982 |   - Язык программирования высокого уровня Pig Latin
 983 |   - Код программы преобразуется в MapReduce задачи
 984 | 
 985 | **Для чего нужен Pig?**
 986 |   * Для написания задач MapReduce требуются программисты
 987 |     - Которые должны уметь думать в стиле "map&reduce"
 988 |     - Скорее всего должны знать язык Java 
 989 |   * Pig предоставляет язык, который могут использовать:
 990 |     - Аналитики 
 991 |     - Data scientist-ы
 992 |     - Статистики
 993 | 
 994 | **Основные возможности Pig**
 995 |   * Join Datasets
 996 |   * Sort Datasets
 997 |   * Filter
 998 |   * Data Types
 999 |   * Group By
1000 |   * Пользовательские функции
1001 | 
1002 | **Компоненты Pig**
1003 |   * Pig Latin - набор команд, разработан для описания последовательности преобразования данных
1004 |   * Компидятор Pig - преобразует программы на языке Pig Latin в mapReduce задачи
1005 |   * Среда выполнения
1006 | 
1007 | **Режимы выполнения**
1008 |   * Local
1009 |     - Запускается в рамках одной JVM
1010 |     - Работает исключительно с локальной файловой системой
1011 |     - ```$pig -x local```
1012 |   * Hadoop(MapReduce)
1013 |     - Pig преобразует программу Pig Latin в задачи MapReduce и выполняет их на кластере
1014 |     - ```$pig -x mapreduce```
1015 | 
1016 | **Запуск Pig**
1017 |   * Скрипт
1018 |     - Выполняются команды из файла
1019 |     - ```$pig script.pig```
1020 |   * Grunt
1021 |     - Интерактивная оболочка для выполнения команд Pig
1022 |     - Можно запускать скрипты из Grunt командной run или exec
1023 |   * Embedded
1024 |     - Можно выполнять команды Pig, используя класс PigServer
1025 |     - Имеется программный доступ к Grunt через класс PigRunner
1026 | 
1027 | **Pig Latin**  
1028 | _Строительные блоки_  
1029 |   - Field (поле) - часть данных
1030 |   - Tuple (кортеж) - упорядоченный набор полей, заключённый в скобки "( )"
1031 |   - Bag (мешок) - коллекция кортежей, заключённная в скобки "{ }"
1032 | 
1033 | _Схожесть с реляционными БД_
1034 |   - Bag - это таблица БД
1035 |   - Tuple - это строка в таблице
1036 |   - Но: Bag не требует, чтобы все tuples содержали одно и тоже число полей
1037 | 
1038 | _Операции DUMP и STORE_
1039 |   - DUMP - выводит результат на экран
1040 |   - STORE - сохраняет результаты (обычно в файл)
1041 | 
1042 | Загрузка в файл
1043 | ```LOAD 'data' [USING function][AS schema];```
1044 | 
1045 | ## Hive
1046 | <a id="Hive"></a>
1047 | ([наверх](#sections))
1048 | 
1049 | Apache Hive – это SQL интерфейс доступа к данным для платформы Apache Hadoop. Hive позволяет выполнять запросы, агрегировать и анализировать данные используя SQL синтаксис. Для данных в файловой системе [HDFS](#HDFS-architecture) используется схема доступа на чтение, позволяющая обращаться с данными, как с обыкновенной таблицей или реляционной СУБД. Запросы HiveQL транслируются в Java-код заданий [MapReduce](#MapReduce).  
1050 | 
1051 | Запросы Hive создаются на языке запросов HiveQL, который основан на языке SQL, но не имеет полной поддержки стандарта SQL-92. Однако, этот язык позволяет программистам использовать их собственные запросы, когда неудобно или неэффективно использовать возможности HiveQL. HiveQL может быть расширен с помощью пользовательских скалярных функций (UDF), агрегаций (UDAF кодов), и табличных функций (UDTF).
1052 | 
1053 | HiveQL отличается от стандартного SQL, в частности :
1054 | 
1055 |   * разные способы определения операций join для максимальной производительности;
1056 |   * в HiveQL нет некоторых функций, операций и операторов SQL (UPDATE и DELETE statements, INSERT для отдельных строк);
1057 |   * HiveQL позволяет вставлять пользовательский код для ситуаций, которые не вписываются в типовой SQL, предоставляя соответствующие инструменты для обработки входа и выхода – определенные пользователем функции: User Defined Function (UDF), User Defined Aggregate Function (UDAF), User Defined Tabular Function (UDTF);
1058 |   * HiveQL не поддерживает типы данных даты и времени, т.к. они рассматриваются как строки.
1059 | 
1060 | **Особенности улья:**
1061 | 
1062 | * Масштабируемость: масштабируемость кластера hadoop
1063 |   * Масштабируемость: поддержка пользовательских функций
1064 |   * Отказоустойчивость: хорошая отказоустойчивость
1065 | 
1066 | **архитектура улья:**
1067 | 
1068 |   * Пользовательский интерфейс: напишите оператор sql и отправьте его в улей
1069 |   * Синтаксический анализатор: компилятор, скомпилируйте наш оператор sql в программу mapreduce
1070 |   * Оптимизатор, оптимизируйте оператор sql
1071 |   * Исполнитель: отправить задачу mapreduce, выполнить
1072 |   * База данных метаданных: метаданные куста содержат отношения сопоставления между таблицами и данными hdfs. По умолчанию используется derby, вместо этого обычно используется mysql.
1073 | 
1074 | Как в большинстве СУБД, в Hive есть несколько способов запуска SQL-запросов [5]:
1075 | 
1076 |   * интерфейс командной строки – Hive Shell (CLI, Command Line Interface);
1077 |   * подключение к БД через JDBC или ODBC с помощью драйвера Hive;
1078 |   * использование клиента, установленного на уровне пользователя (среднее звено классической трехуровневой архитектуры). Этот клиент общается с сервисами Hive, работающими на сервере. Такой подход можно применять в приложениях, написанных на разных языках (C++, Java, PHP, Python, Ruby), используя эти клиентские языки со встроенным SQL для доступа к базам данных. По сути, таким образом реализуется web-UI Хайв.
1079 | 
1080 | Hive включает в себя следующие обязательные компоненты:
1081 | 
1082 |   * HCatalog для управления таблицами и хранилищами Hadoop, который снабжает пользователей различными инструментами обработки больших данных, включая MapReduce и Apache Pig для более простого чтения и записи данных.
1083 |   * WebHCat предоставляет сервисы, которые можно использовать для запуска задач Hadoop MapReduce, Pig, заданий (jobs) или операций с метаданными Hive с помощью интерфейса HTTP в стиле REST.
1084 | 
1085 | 
1086 | ## NoSQL базы данных: HBase и Cassandra
1087 | <a id="HBase-and-Cassandra"></a>
1088 | * [Способы хранения данных](#Data-storage-methods)
1089 | * [NoSQL](#NoSQL)
1090 | * [Введение в HBase](#Introduction-to-HBase)
1091 | * [Архитектура HBase](#HBase-Architecture)
1092 | ([наверх](#sections))
1093 | 
1094 | ### Способы хранения данных
1095 | <a id="Data-storage-methods"></a>
1096 | ([наверх](#sections))
1097 | 
1098 | Как хранить данные? 
1099 | 
1100 | * **Память**
1101 | * **Файлы**
1102 | * **Базы**
1103 | 
1104 | Память: плюсы
1105 | 
1106 | * Широкий выбор структур данных
1107 | * Возможность создавать свои типы данных
1108 | * Быстрый доступ к данным: чтение, изменение, дополнение
1109 | 
1110 | Память: минусы
1111 | 
1112 | * Размер данных ограничен оперативной памятью
1113 | * Данные сущетсвуют пока жив процесс
1114 | * Нужно реализовывать механизмы одновременного доступа
1115 | * Низкая надёжность
1116 | 
1117 | Память: примеры
1118 | 
1119 | * Игра на Dendy
1120 | * Компиляторы
1121 | * Word, Excel
1122 | * IDE
1123 | 
1124 | Файлы: плюсы
1125 | 
1126 | * Существенно больший объём данных
1127 | * Свобода в формате и структуре данных
1128 | * Простые механизмы доступа к данным в файле
1129 | * Отсутствие третьей стороны при работе с данными
1130 | 
1131 | Файлы: минусы
1132 | 
1133 | * Сложно вносить изменения в файл
1134 | * Медленный доступ к данным
1135 | * Тяжело организовать совместный доступ к данным
1136 | * Отсутствие контроля целостности данных
1137 | * Сложные механизмы доступа к данным, расположенным в нескольких файлах
1138 | 
1139 | Файлы: примеры
1140 | 
1141 | * Игры на ПК
1142 | * Word, Excel
1143 | * Поисковый индекс
1144 | 
1145 | Реляционная Модель Данных (РМД)
1146 | 
1147 | * Структурный аспект
1148 | * Аспект целостности
1149 | * Аспект обработки
1150 | 
1151 | Реляционные Базы Данных: ACID 
1152 | Atomicity - Атомарность 
1153 | Consistensy - Согласованность 
1154 | Isolation - Изолированность 
1155 | Durability - Надёжность 
1156 | 
1157 | РБД: плюсы
1158 | 
1159 | * Универсальный доступ к данным (SQL)
1160 | * Контроль за целостностью (ACID)
1161 | * Одновременный доступ к данным
1162 | * Повышенная безопасность
1163 | 
1164 | РБД: минусы
1165 | 
1166 | * Тяжело хранить иерархические данные
1167 | * Проблемы с масштабируемостью
1168 | 
1169 | РБД: примеры
1170 | * Системы документооборота
1171 | * Интернет магазины
1172 | * Социальные сети
1173 | 
1174 | ### NoSQL
1175 | <a id="NoSQL"></a>
1176 | ([наверх](#sections))
1177 | 
1178 | **Основные черты NoSQL** 
1179 | 
1180 | * Применение различных типов хранилищ 
1181 | * Нефиксированная схема БД
1182 | * Использование многопроцессорности
1183 | * Линейная масштабируемость
1184 | * Сокращение времени разработки
1185 | 
1186 | Базовые события в становления NoSQL
1187 | 
1188 | * Big Table(Google)
1189 | * Dynamo(Amazon)
1190 | * CAP Theorem
1191 | 
1192 | Основные свойства системы
1193 | 
1194 | * Consistensy - непротиворечивость данных
1195 | * Availability - доступность данных
1196 | * Partitionability -разделяемость данных на изолированные части
1197 | 
1198 | CAP Theorem 
1199 | Можно иметь только два из трёх свойств в любой shared-data системе
1200 | 
1201 | Consistensy Models
1202 | 
1203 | * Строгая
1204 | * Последовательная
1205 | * Причинная
1206 | * Процессорная
1207 | * Слабая
1208 | * Консистентность в конечном счёте
1209 | * Консистентность по выходу
1210 | * Консистентность по входу
1211 | 
1212 | BASE вместо ACID
1213 | 
1214 | * Basically Available - базовая доступность
1215 | * Soft State - гибкое состояние
1216 | * Eventually Consistent - согласованность в конечном счёте
1217 | 
1218 | **Типы NoSQL**
1219 | 
1220 | * Key/Value (модель данных: хеш-таблица)
1221 |     - Amazon S3
1222 |     - Voldemort
1223 | * Column-based (модель данных: разряженная матрица)
1224 |     - HBase
1225 |     - Cassandra
1226 | * Document-based (модель данных: дерево)
1227 |     - MongoDB
1228 |     - OrientDB
1229 | * Graph-based (модель данных: граф)
1230 |     - Allegro
1231 |     - InfiniteGraph
1232 | 
1233 | ### Введение в HBase
1234 | <a id="Introduction-to-HBase"></a>
1235 | ([наверх](#sections))
1236 | 
1237 | **Особенности HBase**
1238 | 
1239 | * Распределённая база данных
1240 |     - Работает на кластере серверов
1241 |     - Легко горизонтально масштабируется
1242 | * NoSQL база данных
1243 |     - Не предоставляет SQL-доступ
1244 |     - Не предоставляет реляционной модели
1245 | * Column-Oriented хранилище данных
1246 |     - нет фиксированной структуры колонок
1247 |     - произвольное число колонок
1248 | * Спроектирована для поддержки больших таблиц
1249 |     - Миллиарды строк и миллионы колонок
1250 | * Поддержка произвольных операций чтения/записи
1251 | * Основана на идеях Google BigTable
1252 | * BigTable поверх GFS => HBase поверх HDFS
1253 | * Масштабируемость с помощью шардирования
1254 | * Автоматический fail-over
1255 | * Простой Java API
1256 | * Интеграция с MapReduce
1257 | 
1258 | **Когда нужно использовать HBase**
1259 | 
1260 | * Большие объёмы данных
1261 | * Паттерн доступа к данным:
1262 |     - Выборка по заданному ключу
1263 |     - Последовательный скан в диапазоне ключей
1264 | * Свободная схема данных
1265 |     - Строки могут существенно отличаться по своей структуре
1266 |     - В схеме может быть множество колонок и большинство из них будет равно null
1267 | 
1268 | **Когда НЕ нужно использовать HBase**
1269 | 
1270 | * Традиционный доступ к данным в стиле РБД
1271 |     - Приложения с транзакциями
1272 |     - Реляционная аналитика ('group by', 'join')
1273 | * Плохо подходит для доступа к данным на основе текстовых запросов (LIKE %text%)
1274 | 
1275 | **HBase Column Families**
1276 | 
1277 | Column Family описывает общие свойства колонок: 
1278 | 
1279 | * Сжатие
1280 | * Количество версий данных
1281 | * Время жизни (Time To Live)
1282 | * Операция хранения только в памяти (In-memory)
1283 | * Хранится в отдельном файле (HFile/StoreFile)
1284 | * Конфигурция CF статична
1285 |     - Задаётся в процессе создания таблицы
1286 |     - Количество CF ограничено небольшим числом
1287 | * Колонки наоборот НЕ статичны
1288 |     - Создаются в runtime
1289 |     - Могут быть сотни тысяч для одной CF
1290 | 
1291 | **HBase Timestamps**
1292 | 
1293 | * Ячейки имеют несколько версий данных
1294 |     - Настраивается в конфигурации ColumnFamily
1295 |     - По умолчанию равно 3
1296 | * Данные имеют timestamp
1297 |     - Задаётся неявно при записи
1298 |     - Явно указывается клиентом
1299 | * Версии хранятся в убывающем порядке ts
1300 |     - Последнее значение читается первым
1301 | 
1302 | 
1303 | ## Архитектура HBase
1304 | <a id="HBase-Architecture"></a>
1305 | ([наверх](#sections))
1306 | 
1307 | **Масштабируемость в HBase**
1308 |   
1309 | * Таблица делится на регионы
1310 | * Регион - это группа строк, которые хранятся вместе 
1311 |     - Еденица шардинга
1312 |     - Динамически делится пополам, если становится большим
1313 | * RegionServer - демон, который управляет один или несколькими регионами
1314 |     - Регион принадлежит только одному RS
1315 | * MasterServer (HMaster) - демон, который управляет всеми RS
1316 | 
1317 | **HBase Regions**
1318 | 
1319 | Регион - это диапазон ключей: (Start Key; Stop Key)
1320 | * Start Key включается в регион
1321 | * Stop Key не включается
1322 | * По умолчанию есть только один регион
1323 | * Моэно предварительно задать количество регионов
1324 | * Припревышении лимита, регион разбивается на 2 части
1325 | 
1326 | **HBase Regions Split**
1327 | 
1328 | * Регионы более сбалансированы по размеру
1329 | * Быстрое восстановление, если регион повредился
1330 | * Баланс нагрузки на RegionServer
1331 | * Split - это быстрая операция
1332 | 
1333 | ## Spark
1334 | <a id="Spark"></a>
1335 | ([наверх](#sections))
1336 |      
1337 | ### Основные понятия Spark
1338 | <a id="Basic-concepts-of-Spark"></a>
1339 | 
1340 | Так же как и MapReduce, Spark предназначен для анализа больших объёвом данных. Также с одной стороны является фреймворком, с другой стороны является неким подходом. Тоесть некоторой парадигмой в которой могут быть реализованы алгоритмы для обработки больших объёмов данных. 
1341 | 
1342 | **Преимущества Spark**
1343 | 
1344 |   * Следующая ступень в обработке BigData:
1345 |     - Интерактивные задачи
1346 |     - Интерактивная аналитика
1347 |   * Может работать с разными типами данных (текст, графы, базы данных)
1348 |   * Может обрабатывать данные по частям (batch) и в потоке (streaming)
1349 |   * Имеет 80 высокоуровневых функций для обработки данных (кроме map и reduce)
1350 | 
1351 | 
1352 | ### Операторы Spark
1353 | <a id="Spark-Operators"></a>
1354 | 
1355 | ([наверх](#sections))
1356 | 
1357 | Apache Spark - это высокопроизводительный фреймворк для обработки больших данных, который использует параллелизм в памяти для ускорения вычислений. Он предоставляет набор инструментов для работы с данными, включая мощный API для распределенной обработки данных.
1358 | 
1359 | В Spark операторы используются для выполнения различных операций над данными, таких как фильтрация, преобразование, агрегирование и соединение. Операторы Spark можно разделить на три основные категории:
1360 | 
1361 | 1. Трансформации (Transformations): Трансформации используются для преобразования данных из одного формата в другой, например, для фильтрации, сортировки, объединения или группировки данных. Трансформации являются ленивыми, что означает, что они не выполняются немедленно, а только когда выполняется действие (Action).
1362 | 
1363 | 2. Действия (Actions): Действия используются для выполнения операций над данными и вывода результатов. Действия запускают вычисления и могут приводить к перераспределению данных или сохранению результатов в файлы или базы данных. Некоторые из наиболее распространенных действий в Spark включают count, collect, reduce, save и foreach.
1364 | 
1365 | 3. Передача функций (Function Passing): Spark поддерживает передачу функций в качестве аргументов для выполнения операций. Это позволяет определять пользовательские функции для преобразования или агрегирования данных, а также использовать встроенные функции для выполнения операций над данными.
1366 | 
1367 | Среди наиболее распространенных операторов Spark можно выделить следующие:
1368 | 
1369 | * `filter()`: Фильтрует элементы в RDD (Resilient Distributed Datasets), возвращая только те, которые соответствуют определенному условию.
1370 | * `map()`: Применяет функцию к каждому элементу в RDD, возвращая новый RDD с результатами.
1371 | * `flatMap()`: Аналогично map, но каждый элемент может быть преобразован в 0 или более элементов в новом RDD.
1372 | * `reduce()`: Выполняет агрегацию данных путем применения функции к каждой паре элементов в RDD и возвращения результата.
1373 | * `groupByKey()`: Группирует элементы в RDD по ключу, возвращая пары (ключ, последовательность значений).
1374 | * `sortByKey()`: Сортирует элементы в RDD по ключу.
1375 | * `union()`: Объединяет два RDD в один RDD.
1376 | * `join()`: Выполняет соединение двух RDD на основе ключевого поля.
1377 | * `distinct()`: Удаляет дублирующиеся элементы из RDD, возвращая новый RDD с уникальными элементами.
1378 | * `sample()`: Возвращает случайную выборку элементов из RDD с заданной вероятностью.
1379 | * `take()`: Возвращает первые n элементов из RDD.
1380 | * `count()`: Возвращает количество элементов в RDD.
1381 | * `collect()`: Собирает все элементы из RDD и возвращает их в виде массива на драйвер-узел.
1382 | * `foreach()`: Применяет функцию к каждому элементу в RDD, выполняя заданное действие.
1383 | * `cache()`: Кэширует RDD в памяти, чтобы ускорить повторное использование.
1384 | 
1385 | Кроме того, Spark предоставляет набор операторов для работы с файлами и базами данных, такие как:
1386 | 
1387 | * `textFile()`: Загружает текстовый файл в RDD.
1388 | * `wholeTextFiles()`: Загружает несколько текстовых файлов в RDD как пары (имя файла, содержимое файла).
1389 | * `sequenceFile()`: Загружает файлы в формате Sequence, используемые в Hadoop, в RDD.
1390 | * `saveAsTextFile()`: Сохраняет RDD в текстовый файл.
1391 | * `saveAsSequenceFile()`: Сохраняет RDD в формат Sequence, используемый в Hadoop.
1392 | * `saveAsObjectFile()`: Сохраняет RDD в сериализованном формате в файл.
1393 | 
1394 | В целом, операторы Spark позволяют удобно и эффективно обрабатывать данные в распределенной среде, осуществлять преобразования, агрегацию и анализ данных. Благодаря мощным инструментам и поддержке большого количества источников данных, Spark стал одним из самых популярных фреймворков для работы с большими данными.
1395 | 
1396 | ## Чем отличается PostgreSQL от ClickHouse?
1397 | <a id="PostgreSQL-vs-ClickHouse"></a>
1398 | ([наверх](#sections))
1399 | 
1400 | ## Зачем в ClickHouse на движке MergeTree прописывается ORDER BY?
1401 | <a id="Why-ORDER-BY-is-required-in-MergeTree-of-ClickHouse"></a>
1402 | ([наверх](#sections))
1403 | 
1404 | ## Как работает запрос на джойн таблиц в ClickHouse, если выполнять по ключу, который отсортирован и не отсортирован?
1405 | <a id="How-does-ClickHouse-handle-joins-on-sorted-and-unsorted-keys"></a>
1406 | ([наверх](#sections))
1407 | 
1408 | ## Какие существуют архитектуры DWH?
1409 | <a id="DWH-architectures"></a>
1410 | ([наверх](#sections))
1411 | 
1412 | ## В чём преимущество Data Vault, если у нас происходят частые изменения на источнике?
1413 | <a id="Advantages-of-Data-Vault-with-frequent-source-changes"></a>
1414 | ([наверх](#sections))
1415 | 
1416 | ## ETL и ELT: разница, преимущества и недостатки
1417 | <a id="ETL-vs-ELT"></a>
1418 | ([наверх](#sections))
1419 | 
1420 | ## Что выбрать, если меняется структура данных на источнике?
1421 | <a id="What-to-choose-if-data-structure-changes-at-source"></a>
1422 | ([наверх](#sections))
1423 | 
1424 | ## Apache Flink
1425 | <a id="Apache-Flink"></a>
1426 | ([наверх](#sections))
1427 | 
1428 | ### Чем Apache Flink отличается от Apache Spark?
1429 | <a id="Flink-vs-Spark"></a>
1430 | ([наверх](#sections))
1431 | 
1432 | ### Какие преимущества реального времени предлагает Flink по сравнению с пакетной обработкой?
1433 | <a id="Real-time-advantages-of-Flink-over-batch-processing"></a>
1434 | ([наверх](#sections))
1435 | 
1436 | ## Обработка потоков данных
1437 | <a id="Stream-Processing"></a>
1438 | ([наверх](#sections))
1439 | 
1440 | ### Что такое обработка потоков данных и какие задачи она решает?
1441 | <a id="What-is-stream-processing-and-what-problems-does-it-solve"></a>
1442 | ([наверх](#sections))
1443 | 
1444 | ### Какие паттерны обработки потоков данных вы знаете?
1445 | <a id="Stream-processing-patterns"></a>
1446 | ([наверх](#sections))
1447 | 
1448 | ## Lambda и Kappa архитектуры
1449 | <a id="Lambda-and-Kappa-Architectures"></a>
1450 | ([наверх](#sections))
1451 | 
1452 | ### В чем разница между Lambda и Kappa архитектурами?
1453 | <a id="Difference-between-Lambda-and-Kappa-Architectures"></a>
1454 | ([наверх](#sections))
1455 | 
1456 | ### Приведите примеры использования Lambda и Kappa архитектур
1457 | <a id="Examples-of-Lambda-and-Kappa-Architectures"></a>
1458 | ([наверх](#sections))
1459 | 
1460 | 
1461 | 


--------------------------------------------------------------------------------
/CODE_OF_CONDUCT.md:
--------------------------------------------------------------------------------
  1 | # Contributor Covenant Code of Conduct
  2 | 
  3 | ## Our Pledge
  4 | 
  5 | We as members, contributors, and leaders pledge to make participation in our
  6 | community a harassment-free experience for everyone, regardless of age, body
  7 | size, visible or invisible disability, ethnicity, sex characteristics, gender
  8 | identity and expression, level of experience, education, socio-economic status,
  9 | nationality, personal appearance, race, religion, or sexual identity
 10 | and orientation.
 11 | 
 12 | We pledge to act and interact in ways that contribute to an open, welcoming,
 13 | diverse, inclusive, and healthy community.
 14 | 
 15 | ## Our Standards
 16 | 
 17 | Examples of behavior that contributes to a positive environment for our
 18 | community include:
 19 | 
 20 | * Demonstrating empathy and kindness toward other people
 21 | * Being respectful of differing opinions, viewpoints, and experiences
 22 | * Giving and gracefully accepting constructive feedback
 23 | * Accepting responsibility and apologizing to those affected by our mistakes,
 24 |   and learning from the experience
 25 | * Focusing on what is best not just for us as individuals, but for the
 26 |   overall community
 27 | 
 28 | Examples of unacceptable behavior include:
 29 | 
 30 | * The use of sexualized language or imagery, and sexual attention or
 31 |   advances of any kind
 32 | * Trolling, insulting or derogatory comments, and personal or political attacks
 33 | * Public or private harassment
 34 | * Publishing others' private information, such as a physical or email
 35 |   address, without their explicit permission
 36 | * Other conduct which could reasonably be considered inappropriate in a
 37 |   professional setting
 38 | 
 39 | ## Enforcement Responsibilities
 40 | 
 41 | Community leaders are responsible for clarifying and enforcing our standards of
 42 | acceptable behavior and will take appropriate and fair corrective action in
 43 | response to any behavior that they deem inappropriate, threatening, offensive,
 44 | or harmful.
 45 | 
 46 | Community leaders have the right and responsibility to remove, edit, or reject
 47 | comments, commits, code, wiki edits, issues, and other contributions that are
 48 | not aligned to this Code of Conduct, and will communicate reasons for moderation
 49 | decisions when appropriate.
 50 | 
 51 | ## Scope
 52 | 
 53 | This Code of Conduct applies within all community spaces, and also applies when
 54 | an individual is officially representing the community in public spaces.
 55 | Examples of representing our community include using an official e-mail address,
 56 | posting via an official social media account, or acting as an appointed
 57 | representative at an online or offline event.
 58 | 
 59 | ## Enforcement
 60 | 
 61 | Instances of abusive, harassing, or otherwise unacceptable behavior may be
 62 | reported to the community leaders responsible for enforcement at
 63 | .
 64 | All complaints will be reviewed and investigated promptly and fairly.
 65 | 
 66 | All community leaders are obligated to respect the privacy and security of the
 67 | reporter of any incident.
 68 | 
 69 | ## Enforcement Guidelines
 70 | 
 71 | Community leaders will follow these Community Impact Guidelines in determining
 72 | the consequences for any action they deem in violation of this Code of Conduct:
 73 | 
 74 | ### 1. Correction
 75 | 
 76 | **Community Impact**: Use of inappropriate language or other behavior deemed
 77 | unprofessional or unwelcome in the community.
 78 | 
 79 | **Consequence**: A private, written warning from community leaders, providing
 80 | clarity around the nature of the violation and an explanation of why the
 81 | behavior was inappropriate. A public apology may be requested.
 82 | 
 83 | ### 2. Warning
 84 | 
 85 | **Community Impact**: A violation through a single incident or series
 86 | of actions.
 87 | 
 88 | **Consequence**: A warning with consequences for continued behavior. No
 89 | interaction with the people involved, including unsolicited interaction with
 90 | those enforcing the Code of Conduct, for a specified period of time. This
 91 | includes avoiding interactions in community spaces as well as external channels
 92 | like social media. Violating these terms may lead to a temporary or
 93 | permanent ban.
 94 | 
 95 | ### 3. Temporary Ban
 96 | 
 97 | **Community Impact**: A serious violation of community standards, including
 98 | sustained inappropriate behavior.
 99 | 
100 | **Consequence**: A temporary ban from any sort of interaction or public
101 | communication with the community for a specified period of time. No public or
102 | private interaction with the people involved, including unsolicited interaction
103 | with those enforcing the Code of Conduct, is allowed during this period.
104 | Violating these terms may lead to a permanent ban.
105 | 
106 | ### 4. Permanent Ban
107 | 
108 | **Community Impact**: Demonstrating a pattern of violation of community
109 | standards, including sustained inappropriate behavior,  harassment of an
110 | individual, or aggression toward or disparagement of classes of individuals.
111 | 
112 | **Consequence**: A permanent ban from any sort of public interaction within
113 | the community.
114 | 
115 | ## Attribution
116 | 
117 | This Code of Conduct is adapted from the [Contributor Covenant][homepage],
118 | version 2.0, available at
119 | https://www.contributor-covenant.org/version/2/0/code_of_conduct.html.
120 | 
121 | Community Impact Guidelines were inspired by [Mozilla's code of conduct
122 | enforcement ladder](https://github.com/mozilla/diversity).
123 | 
124 | [homepage]: https://www.contributor-covenant.org
125 | 
126 | For answers to common questions about this code of conduct, see the FAQ at
127 | https://www.contributor-covenant.org/faq. Translations are available at
128 | https://www.contributor-covenant.org/translations.
129 | 


--------------------------------------------------------------------------------
/README.md:
--------------------------------------------------------------------------------
 1 | # myknowledge
 2 | 
 3 | Здесь я собрал все вопросы (а главное ответы на них), которые мне задавали на огромном количестве собеседований, начиная с DA, проходя через DS и DE и заканчивая SD.
 4 | 
 5 | Вопросы и информация по:
 6 | 
 7 | * [python](https://github.com/kirilldikalin/myknowledge/blob/main/Python.md)
 8 | * [sql](https://github.com/kirilldikalin/myknowledge/blob/main/SQL.md)
 9 | * [bigdata](https://github.com/kirilldikalin/myknowledge/blob/main/BigData.md)
10 | * [System Design](https://github.com/kirilldikalin/myknowledge/blob/main/SystemDesign.md)
11 | 
12 | ENG
13 | 
14 | Here I have collected all the questions (and most importantly, the answers to them) that I was asked during a huge number of interviews, starting with DA, going through DS and finally ending with DE
15 | 


--------------------------------------------------------------------------------
/SQL.md:
--------------------------------------------------------------------------------
  1 | # SQL
  2 | 
  3 | ## Содержание:
  4 | <a id="sections"></a>
  5 | 
  6 | * [Что такое СУБД?](#What-is-a-DBMS)
  7 | * [Какие типы СУБД в соответствии с моделями данных существуют?](#types-of-DBMS)
  8 | * [Что такое первичный ключ?](#primary-key)
  9 | * [Что такое внешний ключ?](#external-key)
 10 | * [Ограничения в SQL](#limitations-in-SQL)
 11 | * [Что такое Self JOIN?](#self-join)
 12 | * [Подстановочные знаки](#wildcards)
 13 | * [Что делают псевдонимы Aliases?](#aliases)
 14 | * [Разница между командами DELETE и TRUNCATE](#difference-between-DELETE-and-TRUNCATE)
 15 | * [Разница между WHERE и HAVING](#difference-between-WHERE-and-HAVING)
 16 | * [Основные команды SQL](#basic-sql-commands)
 17 | * [Математические функции в SQL](#math-functions)
 18 | * [Оконные функции в SQL](#window-functions)
 19 | * [Отличия реляционных и нереляционных баз данных](#differences-between-relational-and-non-relational-databases)
 20 | 
 21 | # Что такое СУБД?
 22 | <a id="What-is-a-DBMS"></a>
 23 | 
 24 | Чтобы правильно обрабатывать различные запросы (поиск, изменение, удаление и т.д) в базу данных, нужно специальное программное обеспечение, такое ПО получило название системы управления базами данных (СУБД).
 25 | 
 26 | СУБД — это общий термин, относящийся ко всем видам абсолютно разных инструментов, от компьютерных программ до встроенных библиотек. Эти приложения управляют или помогают управлять наборами данных. Так как эти данные могут быть разного формата и размера, были созданы разные виды СУБД.
 27 | 
 28 | СУБД основаны на моделях баз данных — определённых структурах для обработки данных. Каждая СУБД создана для работы с одной из них с учётом особенностей операций над информацией.
 29 | 
 30 | Хотя решений, реализующих различные модели баз данных, очень много, периодически некоторые из них становятся очень популярными и используются на протяжении многих лет. Сейчас самой популярной моделью является реляционная система управления базами данных (РСУБД).
 31 | 
 32 | # Какие типы СУБД в соответствии с моделями данных существуют?
 33 | <a id="types-of-DBMS"></a>
 34 | ([наверх](#sections))
 35 | 
 36 | * Реляционные, которые поддерживают установку связей между таблицами с помощью первичных и внешних ключей. Пример — MySQL.
 37 | * Flat File — базы данных с двумерными файлами, в которых содержатся записи одного типа и отсутствует связь с другими файлами, как в реляционных. Пример — Excel.
 38 | * Иерархические подразумевают наличие записей, связанных друг с другом по принципу отношений один-к-одному или один-ко-многим. А вот для отношений многие-ко-многим следует использовать реляционную модель. Пример — Adabas.
 39 | * Сетевые похожи на иерархические, но в этом случае «ребёнок» может иметь несколько «родителей» и наоборот. Примеры — IDS и IDMS.
 40 | * Объектно-ориентированные СУБД работают с базами данных, которые состоят из объектов, используемых в ООП. Объекты группируются в классы и называются экземплярами, а классы в свою очередь взаимодействуют через методы. Пример — Versant.
 41 | * Объектно-реляционные обладают преимуществами реляционной и объектно-ориентированной моделей. Пример — IBM Db2.
 42 | * Многомерная модель является разновидностью реляционной и использует многомерные структуры. Часто представляется в виде кубов данных. Пример — Oracle Essbase.
 43 | * Гибридные состоят из двух и более типов баз данных. Используются в том случае, если одного типа недостаточно для обработки всех запросов. Пример — Altibase HDВ.
 44 | 
 45 | # Что такое первичный ключ?
 46 | <a id="primary-key"></a>
 47 | ([наверх](#sections))
 48 | 
 49 | Первичный ключ или `PRIMARY KEY` предназначен для однозначной идентификации каждой записи в таблице и является строго уникальным (`UNIQUE`): две записи таблицы не могут иметь одинаковые значения первичного ключа. Нулевые значения (`NULL`) в `PRIMARY KEY` не допускаются. Если в качестве `PRIMARY KEY` используется несколько полей, их называют составным ключом.  
 50 | Первичный ключ, используется в качестве основного ключа и может быть использован для связи с дочерней таблицей, содержащей внешний ключ.
 51 | 
 52 | Пример:
 53 | ```sql
 54 | CREATE TABLE USERS (
 55 |   id INT NOT NULL,
 56 |   name VARCHAR (20) NOT NULL,
 57 |   PRIMARY KEY (id)
 58 | );
 59 | ```
 60 | Здесь в качестве первичного ключа используется поле `id`.
 61 | 
 62 | # Что такое внешний ключ?
 63 | <a id="external-key"></a>
 64 | ([наверх](#sections))
 65 | 
 66 | Внешний ключ или `FOREIGN KEY` также является атрибутом ограничения и обеспечивает связь двух таблиц. По сути, это поле или несколько полей, которые ссылаются на `PRIMARY KEY` в родительской таблице.
 67 | 
 68 | Пример использования:
 69 | ```sql
 70 | CREATE TABLE order (
 71 |   order_id INT NOT NULL,
 72 |   user_id INT,
 73 |   PRIMARY KEY (order_id),
 74 |   FOREIGN KEY (user_id) REFERENCES users(id)
 75 | );
 76 | ```
 77 | В данном случае внешний ключ, привязанный к полю `user_id` в таблице `order`, ссылается на первичный ключ `id` в таблице `users`, и именно по этим полям происходит связывание двух таблиц.
 78 | 
 79 | ## Ограничения в SQL
 80 | <a id="limitations-in-SQL"></a>
 81 | ([наверх](#sections))
 82 | 
 83 | SQL-ограничения (constraints) указываются при создании или изменении таблицы. Это правила для ограничения типа данных, которые могут храниться в таблице. Действие с данными не будет выполнено, если нарушаются установленные ограничения.
 84 | 
 85 | * `UNIQUE` — гарантирует уникальность значений в столбце;
 86 | * `NOT NULL` — значение не может быть `NULL`;
 87 | * `INDEX` — создаёт индексы в таблице для быстрого поиска/запросов;
 88 | * `CHECK` — значения столбца должны соответствовать заданным условиям;
 89 | * `DEFAULT` — предоставляет столбцу значения по умолчанию.
 90 | 
 91 | # Что такое Self JOIN?
 92 | <a id="self-join"></a>
 93 | ([наверх](#sections))
 94 | 
 95 | Это выражение используется для того, чтобы таблица объединилась сама с собой, словно это две разные таблицы. Чтобы такое реализовать, одна из таких «таблиц» временно переименовывается.
 96 | 
 97 | Следующий SQL-запрос объединяет клиентов из одного города:
 98 | 
 99 | ```sql
100 | SELECT A.CustomerName AS CustomerName1, B.CustomerName AS CustomerName2, A.City
101 | FROM Customers A, Customers B
102 | WHERE A.CustomerID <> B.CustomerID
103 | AND A.City = B.City
104 | ORDER BY A.City;
105 | ```
106 | 
107 | # Подстановочные знаки
108 | <a id="wildcards"></a>
109 | ([наверх](#sections))
110 | 
111 | Это специальные символы, которые нужны для замены каких-либо знаков в запросе. Они используются вместе с оператором `LIKE`, с помощью которого можно отфильтровать запрашиваемые данные.
112 | 
113 | % — заменить ноль или более символов;
114 | _ — заменить один символ.
115 | Примеры:
116 | ```sql
117 | SELECT * FROM user WHERE name LIKE '%test%';
118 | ```
119 | Данный запрос позволяет найти данные всех пользователей, имена которых содержат в себе «test».
120 | ```sql
121 | SELECT * FROM user WHERE name LIKE 't_est';
122 | ```
123 | В этом случае имена искомых пользователей начинаются на «t», после содержат какой-либо символ и «est» в конце.
124 | 
125 | # Что делают псевдонимы Aliases?
126 | <a id="aliases"></a>
127 | ([наверх](#sections))
128 | 
129 | SQL-псевдонимы нужны для того, чтобы дать временное имя таблице или столбцу. Это нужно, когда в запросе есть таблицы или столбцы с неоднозначными именами. В этом случае для удобства в составлении запроса используются псевдонимы. SQL-псевдоним существует только на время запроса.
130 | 
131 | Пример:
132 | ```sql
133 | SELECT very_long_column_name AS alias_name
134 | FROM table;
135 | ```
136 | # Разница между командами `DELETE` и `TRUNCATE`
137 | <a id="difference-between-DELETE-and-TRUNCATE"></a>
138 | ([наверх](#sections))
139 | 
140 | Команда `DELETE` — это DML-операция, которая удаляет записи из таблицы, соответствующие заданному условию:
141 | 
142 | `DELETE FROM table_name WHERE condition;`
143 | При этом создаются логи удаления, то есть операцию можно отменить.
144 | 
145 | А вот команда `TRUNCATE` — это DDL-операция, которая полностью пересоздаёт таблицу, и отменить такое удаление невозможно:
146 | 
147 | `TRUNCATE TABLE table_name;`
148 | 
149 | DML (Data Manipulation Language) - язык манипулирования данными. Язык DML позволяет осуществлять манипуляции с данными таблиц, т.е. с ее строками. Он позволяет делать выборку данных из таблиц, добавлять новые данные в таблицы, а так же обновлять и удалять существующие данные.  
150 | 
151 | DDL (Data Definition Language) - язык описания данных. Язык DDL служит для создания и модификации структуры БД, т.е. для создания/изменения/удаления таблиц и связей.
152 | 
153 | # Разница между `WHERE` и `HAVING`
154 | <a id="difference-between-WHERE-and-HAVING"></a>
155 | ([наверх](#sections))
156 | 
157 | В сущности, `HAVING` очень похож на `WHERE` - это тоже фильтр. Вы можете написать в `HAVING name = ‘Anna’`, как и в `WHERE`, и ошибки не будет. 
158 | 
159 | ```sql
160 | SELECT username, COUNT(*)
161 | FROM table
162 | WHERE username = ‘Anna’
163 | GROUP BY username
164 | HAVING COUNT(*)>1
165 | ```
166 | 
167 | В `HAVING` и только в нём можно писать условия по агрегатным функциям (`SUM`, `COUNT`, `MAX`, `MIN` и т. д.). То есть если вы хотите сделать что-то вроде `COUNT(*) > 10`, то это возможно сделать только в `HAVING`. 
168 | 
169 | Почему бы не оставить только `HAVING`? Всё кроется в том, как SQL Server выполняет запрос, в каком порядке происходит его разбор и работа с данными. `WHERE` выполняется до формирования групп `GROUP BY`. Это нужно для того, чтобы можно было оперировать как можно меньшим количеством данных и сэкономить ресурсы сервера и время пользователя. 
170 | 
171 | Следующим этапом формируются группы, которые указаны в `GROUP BY`. После того как сформированы группы, можно накладывать условия на результаты агрегатных функций. И тут как раз наступает очередь `HAVING`: выполняются условия, которые вы задали. 
172 | 
173 | Главное отличие `HAVING` от `WHERE` в том, что в `HAVING` можно наложить условия на результаты группировки, потому что порядок исполнения запроса устроен таким образом, что на этапе, когда выполняется `WHERE`, ещё нет групп, а `HAVING` выполняется уже после формирования групп. 
174 | 
175 | ## Основные команды SQL
176 | <a id="basic-sql-commands"></a>
177 | ([наверх](#sections))
178 | 
179 | * `SHOW DATABASES`  
180 | 
181 |   SQL-команда, которая отвечает за просмотр доступных баз данных.
182 |   
183 | * `CREATE DATABASE`  
184 |   
185 |   Команда для создания новой базы данных.
186 |   
187 | * `USE`  
188 | 
189 |   С помощью этой SQL-команды `USE <database_name>` выбирается база данных, необходимая для дальнейшей работы с ней.
190 |   
191 | * `SOURCE`  
192 | 
193 |   `SOURCE <file.sql>` позволит выполнить сразу несколько SQL-команд, содержащихся в файле с расширением .sql.
194 |   
195 | * `DROP DATABASE`  
196 |   
197 |   Стандартная SQL-команда для удаления целой базы данных.
198 |   
199 | * `DROP TABLE`  
200 | 
201 |   Так можно удалить всю таблицу целиком.  
202 |   
203 | * `DELETE`  
204 | 
205 |   SQL-команда `DELETE FROM <table_name>` используется для удаления данных из таблицы.
206 |   
207 | * `SHOW TABLES`  
208 | 
209 |   С помощью этой команды можно увидеть все таблицы, которые доступны в базе данных.
210 |   
211 | * `DESCRIBE`  
212 |   
213 |   С помощью `DESCRIBE <table_name>` можно просмотреть различные сведения (тип значений, является ключом или нет) о столбцах таблицы.
214 |   
215 | * `CREATE TABLE`
216 |   SQL-команда для создания новой таблицы:
217 | 
218 |   ```sql
219 |   CREATE TABLE <table_name1> (
220 |     <col_name1><col_type1>,
221 |     <col_name2><col_type2>,
222 |     <col_name3><col_type3>
223 |     PRIMARY KEY(<col_name1>),
224 |     FOREIGN KEY(<col_name2>) REFERENCES <table_name2>(<col_name2>)
225 |   );
226 |   ```
227 | 
228 | Ограничения целостности при использовании `CREATE TABLE`  
229 | Может понадобиться создать ограничения для определённых столбцов в таблице. При создании таблицы можно задать следующие ограничения:
230 | 
231 | * ячейка таблицы не может иметь значение `NULL`;
232 | * первичный ключ — `PRIMARY KEY(col_name1, col_name2, …)`;
233 | * внешний ключ — `FOREIGN KEY(col_namex1, …, col_namexn) REFERENCES table_name(col_namex1, …, col_namexn)`.  
234 | 
235 | Можно задать больше одного первичного ключа. В этом случае получится составной первичный ключ.
236 | 
237 | Пример
238 | Создайте таблицу «instructor»:
239 | 
240 | ```sql
241 |   CREATE TABLE instructor (
242 |     ID CHAR(5),
243 |     name VARCHAR(20) NOT NULL,
244 |     dept_name VARCHAR(20),
245 |     salary NUMERIC(8,2),
246 |     PRIMARY KEY (ID),
247 |     FOREIGN KEY (dept_name) REFERENCES department(dept_name)
248 |   );
249 | ```
250 | 
251 | * `UNION`  
252 | 
253 |   Он используется для объединения полученных данных из двух или более запросов, которые должны иметь одинаковое количество столбцов с одинаковыми типами данных и расположенных в   том же порядке.  
254 | 
255 |   Пример использования:
256 |   ```sql
257 |   SELECT column(s) FROM first_table
258 |   UNION
259 |   SELECT column(s) FROM second_table;
260 |   ```
261 |   
262 | * `INSERT`  
263 | 
264 |   Команда `INSERT INTO <table_name>` в SQL отвечает за добавление данных в таблицу:
265 |   ```sql
266 |   INSERT INTO <table_name> (<col_name1>, <col_name2>, <col_name3>, …)
267 |     VALUES (<value1>, <value2>, <value3>, …); 
268 |   ```
269 |   При добавлении данных в каждый столбец таблицы не требуется указывать названия столбцов.
270 |   ```sql
271 |   INSERT INTO <table_name>
272 |     VALUES (<value1>, <value2>, <value3>, …);
273 |   ```
274 |   
275 | * `UPDATE`  
276 | 
277 |   SQL-команда для обновления данных таблицы:
278 |   ```sql
279 |   UPDATE <table_name>
280 |     SET <col_name1> = <value1>, <col_name2> = <value2>, ...
281 |     WHERE <condition>;
282 |   ```
283 |   
284 | * `SELECT`  
285 |   
286 |   `SELECT` используется для получения данных из выбранной таблицы:
287 |   ```sql
288 |   SELECT <col_name1>, <col_name2>, …
289 |     FROM <table_name>; 
290 |   ```
291 |   Следующей командой можно вывести все данные из таблицы:
292 |   ```sql
293 |   SELECT * FROM <table_name>;
294 |   ```
295 |   
296 | * `SELECT DISTINCT`
297 |  
298 |   В столбцах таблицы могут содержаться повторяющиеся данные. `SELECT DISTINCT` используется для получения только неповторяющихся данных.
299 |   ```sql
300 |   SELECT DISTINCT <col_name1>, <col_name2>, …
301 |     FROM <table_name>; 
302 |   ```
303 | 
304 | * `WHERE`  
305 |   
306 |   Можно использовать ключевое слово `WHERE` в `SELECT` для указания условий в запросе:
307 | 
308 |   ```sql
309 |   SELECT <col_name1>, <col_name2>, …
310 |     FROM <table_name>
311 |     WHERE <condition>; 
312 |   ```
313 |   В запросе можно задавать следующие условия:
314 | 
315 |   сравнение текста;  
316 |   сравнение численных значений;  
317 |   логические операции AND (и), OR (или) и NOT (отрицание).  
318 |   Пример:
319 |   ```sql
320 |   SELECT * FROM table WHERE author='Достоевский';
321 |   SELECT * FROM table WHERE price>3000;
322 |   SELECT * FROM table WHERE amount=10; 
323 |   ```
324 |   
325 | * `GROUP BY`  
326 |   
327 |   Оператор `GROUP BY` часто используется с агрегатными функциями, такими как `COUNT`, `MAX`, `MIN`, `SUM` и `AVG`, для группировки выходных значений.
328 |   ```sql
329 |   SELECT <col_name1>, <col_name2>, …
330 |     FROM <table_name>
331 |     GROUP BY <col_namex>; 
332 |   ```
333 |   Пример
334 |   Выведем количество курсов для каждого факультета:
335 |   ```sql
336 |   SELECT COUNT(course_id), dept_name
337 |     FROM course
338 |     GROUP BY dept_name; 
339 |   ```
340 |   
341 | * `HAVING`  
342 |   
343 |   Ключевое слово `HAVING` было добавлено в SQL по той причине, что `WHERE` не может использоваться для работы с агрегатными функциями.
344 |   ```sql
345 |   SELECT <col_name1>, <col_name2>, ...
346 |     FROM <table_name>
347 |     GROUP BY <column_namex>
348 |     HAVING <condition> 
349 |   ```
350 |   Пример
351 |   Выведем список факультетов, у которых более одного курса:
352 |   ```sql
353 |   SELECT COUNT(course_id), dept_name
354 |     FROM course
355 |     GROUP BY dept_name
356 |     HAVING COUNT(course_id)>1; 
357 |   ```
358 |   
359 | * `ORDER BY`  
360 |   
361 |   `ORDER BY` используется для сортировки результатов запроса по убыванию или возрастанию. `ORDER BY` отсортирует по возрастанию, если не будет указан способ сортировки `ASC` или `DESC`.
362 |   ```sql
363 |   SELECT <col_name1>, <col_name2>, …
364 |     FROM <table_name>
365 |     ORDER BY <col_name1>, <col_name2>, … ASC|DESC;
366 |   ```
367 |   Пример
368 |   Выведем список курсов по возрастанию и убыванию количества кредитов:
369 |   ```sql
370 |   SELECT * FROM course ORDER BY credits;
371 |   SELECT * FROM course ORDER BY credits DESC;
372 |   ```
373 |   
374 | * `BETWEEN`  
375 | 
376 |   `BETWEEN` используется для выбора значений данных из определённого промежутка. Могут быть использованы числовые и текстовые значения, а также даты.
377 |   ```sql
378 |   SELECT <col_name1>, <col_name2>, …
379 |     FROM <table_name>
380 |     WHERE <col_namex> BETWEEN <value1> AND <value2>;
381 |   ```
382 |   Пример
383 |   Выведем список инструкторов, чья зарплата больше 50 000, но меньше 100 000:
384 |   ```sql
385 |   SELECT * FROM instructor
386 |     WHERE salary BETWEEN 50000 AND 100000; 
387 |   ```
388 | 
389 | * `LIKE`  
390 | 
391 |   Оператор `LIKE` используется в `WHERE`, чтобы задать шаблон поиска похожего значения.
392 | 
393 |   Есть два свободных оператора, которые используются в `LIKE`:
394 | 
395 |   `%` (ни одного, один или несколько символов);  
396 |   `_` (один символ).
397 |   ```sql
398 |   SELECT <col_name1>, <col_name2>, …
399 |     FROM <table_name>
400 |     WHERE <col_namex> LIKE <pattern>; 
401 |   ```
402 |   Пример
403 |   Выведем список курсов, в имени которых содержится «to», и список курсов, название которых начинается с «CS-»:
404 |   ```sql
405 |   SELECT * FROM course WHERE title LIKE ‘%to%’;
406 |   SELECT * FROM course WHERE course_id LIKE 'CS-___';
407 |   ```
408 | 
409 | * `IN`  
410 |   
411 |   С помощью `IN` можно указать несколько значений для оператора `WHERE`:
412 |   ```sql
413 |   SELECT <col_name1>, <col_name2>, …
414 |     FROM <table_name>
415 |     WHERE <col_namen> IN (<value1>, <value2>, …);
416 |   ```
417 |   Пример
418 |   Выведем список студентов с направлений Comp. Sci., Physics и Elec. Eng.:
419 |   ```sql
420 |   SELECT * FROM student
421 |     WHERE dept_name IN (‘Comp. Sci.’, ‘Physics’, ‘Elec. Eng.’);
422 |   ```
423 |   
424 | * `JOIN`  
425 | 
426 |   `JOIN` используется для связи двух или более таблиц с помощью общих атрибутов внутри них.
427 |   Чтобы объединить две таблицы в одну, следует использовать оператор `JOIN`. Соединение таблиц может быть внутренним (`INNER`) или внешним (`OUTER`), причём внешнее соединение может быть левым (`LEFT`), правым (`RIGHT`) или полным (`FULL`).
428 | 
429 |   * `INNER JOIN` — получение записей с одинаковыми значениями в обеих таблицах, т.е. получение пересечения таблиц.
430 |   * `FULL OUTER JOIN` — объединяет записи из обеих таблиц (если условие объединения равно true) и дополняет их всеми записями из обеих таблиц, которые не имеют совпадений. Для записей, которые не имеют совпадений из другой таблицы, недостающее поле будет иметь значение NULL.
431 |   * `LEFT JOIN` — возвращает все записи, удовлетворяющие условию объединения, плюс все оставшиеся записи из внешней (левой) таблицы, которые не удовлетворяют условию объединения.
432 |   * `RIGHT JOIN` — работает точно так же, как и левое объединение, только в качестве внешней таблицы будет использоваться правая.
433 | 
434 |     ```sql
435 |     SELECT <col_name1>, <col_name2>, …
436 |     FROM <table_name1>
437 |     JOIN <table_name2>
438 |     ON <table_name1.col_namex> = <table2.col_namex>;
439 |     ```
440 |   Следующий запрос выбирает все заказы с информацией о клиенте:
441 | 
442 |     ```sql
443 |     SELECT Orders.OrderID, Customers.CustomerName
444 |     FROM Orders
445 |     INNER JOIN Customers ON Orders.CustomerID = Customers.CustomerID;
446 |     ```
447 |   
448 | * `VIEW`  
449 |   
450 |   `VIEW` — это виртуальная таблица SQL, созданная в результате выполнения выражения. Она содержит строки и столбцы и очень похожа на обычную SQL-таблицу. VIEW всегда показывает самую свежую информацию из базы данных.
451 | 
452 |   Создание
453 |   ```sql
454 |   CREATE VIEW <view_name> AS
455 |     SELECT <col_name1>, <col_name2>, …
456 |     FROM <table_name>
457 |     WHERE <condition>;
458 |   ```
459 |   Удаление
460 |   ```sql
461 |   DROP VIEW <view_name>;
462 |   ```
463 | 
464 | ## Математические функции в SQL
465 | <a id="math-functions"></a>
466 | ([наверх](#sections))
467 | 
468 | |**Функция**|	**Описание**	|**Пример**|
469 | |:------------------------------|:--------------------------|:--------------------------|
470 | | `CEILING(x)` |	возвращает наименьшее целое число, большее или равное x(округляет до целого числа в большую сторону)|`	CEILING(4.2)=5 CEILING(-5.8)=-5`|
471 | | `ROUND(x, k)` |	округляет значение x до k знаков после запятой, если k не указано – x округляется до целого	|`ROUND(4.361)=4 ROUND(5.86592,1)=5.9`|
472 | | `FLOOR(x)` |	возвращает наибольшее целое число, меньшее или равное x (округляет до  целого числа в меньшую сторону)	|`FLOOR(4.2)=4 FLOOR(-5.8)=-6`|
473 | | `POWER(x, y)` |	возведение x в степень y	|`POWER(3,4)=81.0`|
474 | | `SQRT(x)` |	квадратный корень из x	|`SQRT(4)=2.0 SQRT(2)=1.41...`|
475 | | `DEGREES(x)` |	конвертирует значение x из радиан в градусы	|`DEGREES(3) = 171.8...`|
476 | | `RADIANS(x)` |	конвертирует значение x из градусов в радианы	|`RADIANS(180)=3.14...`|
477 | | `ABS(x)` |	модуль числа x	|`ABS(-1) = 1 ABS(1) = 1`|
478 | | `PI()` |	pi = 3.1415926...	 ||
479 | | `COUNT(col_name)` | возвращает количество строк||
480 | | `SUM(col_name)` | возвращает сумму значений в данном столбце||
481 | | `AVG(col_name)` | возвращает среднее значение данного столбца||
482 | | `MIN(col_name)` | возвращает наименьшее значение данного столбца||
483 | | `MAX(col_name)` | возвращает наибольшее значение данного столбца||
484 | 
485 | ## Оконные функции в SQL
486 | <a id="window-functions"></a>
487 | ([наверх](#sections))
488 | 
489 | Оконная функция выполняет вычисления для набора строк, некоторым образом связанных с текущей строкой. Можно сравнить её с агрегатной функцией, но, в отличие от обычной агрегатной функции, при использовании оконной функции несколько строк не группируются в одну, а продолжают существовать отдельно. Внутри же, оконная функция, как и агрегатная, может обращаться не только к текущей строке результата запроса.
490 | 
491 | Вот пример, показывающий, как сравнить зарплату каждого сотрудника со средней зарплатой его отдела:
492 | ```sql
493 | SELECT depname, empno, salary, avg(salary) OVER (PARTITION BY depname)
494 |   FROM empsalary;
495 | ```
496 | 
497 | ```
498 |   depname  | empno | salary |          avg          
499 | -----------+-------+--------+-----------------------
500 |  develop   |    11 |   5200 | 5020.0000000000000000
501 |  develop   |     7 |   4200 | 5020.0000000000000000
502 |  develop   |     9 |   4500 | 5020.0000000000000000
503 |  develop   |     8 |   6000 | 5020.0000000000000000
504 |  develop   |    10 |   5200 | 5020.0000000000000000
505 |  personnel |     5 |   3500 | 3700.0000000000000000
506 |  personnel |     2 |   3900 | 3700.0000000000000000
507 |  sales     |     3 |   4800 | 4866.6666666666666667
508 |  sales     |     1 |   5000 | 4866.6666666666666667
509 |  sales     |     4 |   4800 | 4866.6666666666666667
510 | (10 rows)
511 | ```
512 | 
513 | Первые три столбца извлекаются непосредственно из таблицы empsalary, при этом для каждой строки таблицы есть строка результата. В четвёртом столбце оказалось среднее значение, вычисленное по всем строкам, имеющим то же значение depname, что и текущая строка. (Фактически среднее вычисляет та же функция avg, которую мы знаем как агрегатную, но предложение `OVER` превращает её в оконную, так что она обрабатывает лишь заданный набор строк.)
514 | 
515 | Вызов оконной функции всегда содержит предложение `OVER`, следующее за названием и аргументами оконной функции. Это синтаксически отличает её от обычной или агрегатной функции. Предложение `OVER` определяет, как именно нужно разделить строки запроса для обработки оконной функцией. Предложение `PARTITION BY`, дополняющее `OVER`, указывает, что строки нужно разделить по группам или разделам, объединяя одинаковые значения выражений `PARTITION BY`. Оконная функция вычисляется по строкам, попадающим в один раздел с текущей строкой.
516 | 
517 | Вы можете также определять порядок, в котором строки будут обрабатываться оконными функциями, используя `ORDER BY` в `OVER`. (Порядок `ORDER BY` для окна может даже не совпадать с порядком, в котором выводятся строки.) Например:
518 | 
519 | ```sql
520 | SELECT depname, empno, salary,
521 |        rank() OVER (PARTITION BY depname ORDER BY salary DESC)
522 | FROM empsalary;
523 | ```
524 | ```
525 |   depname  | empno | salary | rank 
526 | -----------+-------+--------+------
527 |  develop   |     8 |   6000 |    1
528 |  develop   |    10 |   5200 |    2
529 |  develop   |    11 |   5200 |    2
530 |  develop   |     9 |   4500 |    4
531 |  develop   |     7 |   4200 |    5
532 |  personnel |     2 |   3900 |    1
533 |  personnel |     5 |   3500 |    2
534 |  sales     |     1 |   5000 |    1
535 |  sales     |     4 |   4800 |    2
536 |  sales     |     3 |   4800 |    2
537 | (10 rows)
538 | ```
539 | Как показано здесь, функция rank выдаёт порядковый номер в разделе текущей строки для каждого уникального значения, по которому выполняет сортировку предложение ORDER BY. У функции rank нет параметров, так как её поведение полностью определяется предложением `OVER`.
540 | 
541 | Строки, обрабатываемые оконной функцией, представляют собой «виртуальные таблицы», созданные из предложения FROM и затем прошедшие через фильтрацию и группировку `WHERE` и `GROUP BY` и, возможно, условие `HAVING`. Например, строка, отфильтрованная из-за нарушения условия `WHERE`, не будет видна для оконных функций. Запрос может содержать несколько оконных функций, разделяющих данные по-разному с помощью разных предложений `OVER`, но все они будут обрабатывать один и тот же набор строк этой виртуальной таблицы.
542 | 
543 | Мы уже видели, что `ORDER BY` можно опустить, если порядок строк не важен. Также возможно опустить `PARTITION BY`, в этом случае будет только один раздел, содержащий все строки.
544 | 
545 | Есть ещё одно важное понятие, связанное с оконными функциями: для каждой строки существует набор строк в её разделе, называемый рамкой окна. По умолчанию, с указанием ORDER BY рамка состоит из всех строк от начала раздела до текущей строки и строк, равных текущей по значению выражения `ORDER BY`. Без `ORDER BY` рамка по умолчанию состоит из всех строк раздела. Посмотрите на пример использования `sum`:
546 | 
547 | ```sql
548 | SELECT salary, sum(salary) OVER () FROM empsalary;
549 | ```
550 | ```
551 |  salary |  sum  
552 | --------+-------
553 |    5200 | 47100
554 |    5000 | 47100
555 |    3500 | 47100
556 |    4800 | 47100
557 |    3900 | 47100
558 |    4200 | 47100
559 |    4500 | 47100
560 |    4800 | 47100
561 |    6000 | 47100
562 |    5200 | 47100
563 | (10 rows)
564 | ```
565 | 
566 | Так как в этом примере нет указания `ORDER BY` в предложении `OVER`, рамка окна содержит все строки раздела, а он, в свою очередь, без предложения `PARTITION BY` включает все строки таблицы; другими словами, сумма вычисляется по всей таблице и мы получаем один результат для каждой строки результата. Но если мы добавим `ORDER BY`, мы получим совсем другие результаты:
567 | 
568 | ```sql
569 | SELECT salary, sum(salary) OVER (ORDER BY salary) FROM empsalary;
570 | ```
571 | ```
572 |  salary |  sum  
573 | --------+-------
574 |    3500 |  3500
575 |    3900 |  7400
576 |    4200 | 11600
577 |    4500 | 16100
578 |    4800 | 25700
579 |    4800 | 25700
580 |    5000 | 30700
581 |    5200 | 41100
582 |    5200 | 41100
583 |    6000 | 47100
584 | (10 rows)
585 | ```
586 | Здесь в сумме накапливаются зарплаты от первой (самой низкой) до текущей, включая повторяющиеся текущие значения (обратите внимание на результат в строках с одинаковой зарплатой).
587 | 
588 | Оконные функции разрешается использовать в запросе только в списке `SELECT` и предложении `ORDER BY`. Во всех остальных предложениях, включая `GROUP BY`, `HAVING` и `WHERE`, они запрещены. Это объясняется тем, что логически они выполняются после обычных агрегатных функций, а значит агрегатную функцию можно вызвать из оконной, но не наоборот.
589 | 
590 | Если вам нужно отфильтровать или сгруппировать строки после вычисления оконных функций, вы можете использовать вложенный запрос. Например:
591 | ```sql
592 | SELECT depname, empno, salary, enroll_date
593 | FROM
594 |   (SELECT depname, empno, salary, enroll_date,
595 |     rank() OVER (PARTITION BY depname ORDER BY salary DESC, empno) AS pos
596 |    FROM empsalary
597 |   ) AS ss
598 | WHERE pos < 3;
599 | ```
600 | Данный запрос покажет только те строки внутреннего запроса, у которых rank (порядковый номер) меньше 3.
601 | 
602 | Когда в запросе вычисляются несколько оконных функций для одинаково определённых окон, конечно можно написать для каждой из них отдельное предложение `OVER`, но при этом оно будет дублироваться, что неизбежно будет провоцировать ошибки. Поэтому лучше определение окна выделить в предложение `WINDOW`, а затем ссылаться на него в `OVER`. Например:
603 | 
604 | ```sql
605 | SELECT sum(salary) OVER w, avg(salary) OVER w
606 |   FROM empsalary
607 |   WINDOW w AS (PARTITION BY depname ORDER BY salary DESC);
608 | ```
609 | 
610 | # Отличия реляционных и нереляционных баз данных
611 | <a id="differences-between-relational-and-non-relational-databases"></a>
612 | ([наверх](#sections))
613 | 
614 | **Понятие реляционных и нереляционных баз данных**  
615 | 
616 | Термин «реляционный» пришел из алгебры (теория множеств). В формате БД это значит, что данные реляционных баз хранятся в виде таблиц и строк. Нереляционные БД размещают информацию в коллекциях документов JSON.
617 | 
618 | Реляционные БД используют язык SQL (структурированных запросов). Структура таких баз данных позволяет связывать информацию из разных таблиц с помощью внешних ключей (или индексов), которые используются для уникальной идентификации любого атомарного фрагмента данных в этой таблице. Другие таблицы могут ссылаться на этот внешний ключ, чтобы создать связь между частями данных и частью, на которую указывает внешний ключ.
619 | 
620 | Зачем нужны нереляционные БД? Их главное преимущество — высокий уровень безопасности и возможность обойти аппаратные ограничения (с помощью Sharding).
621 | 
622 | **РАЗЛИЧИЯ SQL И NOSQL**
623 | 
624 | _Язык_
625 | 
626 | SQL используют универсальный язык структурированных запросов для определения и обработки данных. Это накладывает определенные ограничения: прежде чем начать обработку, данные надо разместить внутри таблиц и описать.
627 | 
628 | NoSQL таких ограничений не имеет. Динамические схемы для неструктурированных данных позволяют:
629 | 
630 |   * ориентировать информацию на столбцы или документы;
631 |   * основывать ее на графике;
632 |   * организовывать в виде хранилища KeyValue;
633 |   * создавать документы без предварительного определения их структуры, использовать разный синтаксис;
634 |   * добавлять поля непосредственно в процессе обработки.
635 | 
636 | _Структура_
637 | 
638 | SQL основаны на таблицах, а NoSQL — на документах, парах ключ-значение, графовых БД, хранилищах с широкими столбцами.
639 | 
640 | _Масштабируемость_
641 | 
642 | В большинстве случаев базы данных SQL можно масштабировать по вертикали. Что это значит? Можно увеличить нагрузку на один сервер, увеличив таким образом ЦП, ОЗУ или объем накопителя.
643 | 
644 | В отличие от SQL базы данных NoSQL масштабируются по горизонтали. Это означает, что больший трафик обрабатывается путем разделения или добавления большего количества серверов. Это делает NoSQL удобнее при работе с большими или меняющимися наборами данных.
645 | 
646 | **В каких случаях используют SQL, а в каких NoSQL**  
647 | 
648 | SQL подойдет, если нужна обработка большого количества сложных запросов, или рутинного анализа данных. Выбирайте реляционную БД, если нужна надежная обработка транзакций и ссылочная целостность.
649 | 
650 | Если объем данных большой, лучше использовать NoSQL. Отсутствие явных структурированных механизмов ускорит процесс обработки Big Data. А еще это безопаснее — такие БД сложнее взломать.
651 | 
652 | Выбирайте NoSQL, если:
653 | 
654 |  * необходимо хранить массивы в объектах JSON;
655 |  * записи хранятся в коллекции с разными полями или атрибутами;
656 |  * необходимо горизонтальное масштабирование.
657 | 
658 | **Популярные бд**  
659 | Для работы с реляционными БД лучше всего подойдут:
660 | 
661 |  * MySQL;
662 |  * Oracle;
663 |  * Microsoft SQL Server.
664 | 
665 | _MySQL_
666 | 
667 | Бесплатный продукт с открытым исходным кодом от Oracle. Отличается стабильностью и хорошим тестированием обновлений до их внедрения. MySQL можно доработать под свои нужды или поискать готовые исправления в обширной библиотеке профильного сообщества.
668 | 
669 | MySQL работает с любыми ОС: Linux, Windows, Mac, BSD и Solaris. Дружит с Node.js, Ruby, C#, C++, Java, Perl, Python и PHP.
670 | 
671 | Базу данных MySQL можно реплицировать на несколько узлов, что уменьшает рабочую нагрузку при увеличении доступности приложения.
672 | 
673 | _Oracle_
674 | 
675 | Oracle Database часто используют крупные корпорации. Коммерческий вариант БД часто и грамотно обновляется, есть круглосуточная техническая поддержка.
676 | 
677 | Oracle применяет свой собственный диалект SQL (PL/SQL). Это дает возможность работать со встроенными функциями, процедурами и переменными. Так же, как и MySQL, работает с любыми операционными системами. Если проекту необходимо использовать реляционные БД для работы с Big Data, то Oracle станет хорошей альтернативой NoSQL благодаря особой организации СУБД — группировке объектов по схемам, которые являются подмножеством объектов.
678 | 
679 | Еще одно важное преимущество Oracle — возможность восстановления предыдущей версии БД. Помимо этого, есть индексация растровых изображений, секционирование, индексацию на основе функций и по обратному ключу, оптимизация приоритетных запросов.
680 | 
681 | _Microsoft SQL Server_
682 | 
683 | Microsoft SQL Server — это отличный вариант для малого и среднего бизнеса. Диалект T-SQL обрабатывает процедуры, встроенные функции и переменные. Есть важное ограничение: Microsoft SQL Server будет работать только с Linux или Windows. Простой интерфейс ускорит процесс миграции БД, если до этого вы пользовались другой системой.
684 | 
685 | Нереляционные бд  
686 | Самыми удобными системами для обработки нереляционных баз данных являются: 
687 | * MongoDB, 
688 | * Apache Cassandra 
689 | * Google Cloud BigTable
690 | 
691 | _MongoDB_
692 | 
693 | MongoDB — это качественный бесплатный продукт, который чаще всего используют при работе с NoSQL. Решение позволяет менять схемы данных в процессе работы, масштабироваться по горизонтали. Интерфейс очень простой — в нем легко разберется любой сотрудник компании, не обязательно быть IT-профессионалом.
694 | 
695 | Почему мы поставили Mongo на первое место в списке лидеров обработки нереляционных баз данных? Все дело в новой функции от разработчиков. Теперь в решении есть глобальная облачная БД, что дает возможность развернуть управляемую MongoDB через AWS, Azure, GCP.
696 | 
697 | _Apache Cassandra_
698 | 
699 | Apache Cassandra — это продукт с открытым исходным кодом, а значит, достаточно гибкий, адаптируемый практически для любых задач. Идентичность узлов упрощает масштабирование для наращивания архитектуры БД.
700 | 
701 | Apache Cassandra подойдет для масштабных проектов. Продукт обеспечивает высокую скорость чтения и записи. Даже если часть решения использует SQL, можно применить подобные SQL операторы: DDL, DML, SELECT. Для более высокого уровня безопасности есть резервное копирование и восстановление.
702 | 
703 | Apache Cassandra — это один из немногих инструментов обработки баз данных, который гарантирует безотказность работы (подробнее читайте в своем SLA).
704 | 
705 | _Google Cloud BigTable_
706 | 
707 | Неплохой продукт от Google, который гарантирует задержку обработки не более 10 мс. BigTable уделяют безотказности много внимания. Например, благодаря функции репликации базы данных более долговечны, доступны и устойчивы при зональных сбоях. Это отличный вариант для работы с Big Data в режиме реального времени (машинное зрение, AI) — можно изолировать рабочую нагрузку для приоритетной аналитики.
708 | <br/>


--------------------------------------------------------------------------------
/SystemDesign.md:
--------------------------------------------------------------------------------
  1 | # System Design
  2 | <a id="sections"></a>
  3 | 
  4 | * [Компоненты структуры сервера](#server-structure-components)
  5 | * [Типы серверов и их цели](#server-types-and-purposes)
  6 | * [Влияние архитектуры сервера на капасити и производительность](#impact-of-server-architecture-on-capacity-and-performance)
  7 | * [Технологии хранения данных для оптимизации капасити и доступности](#data-storage-technologies-for-capacity-and-availability-optimization)
  8 | * [RAID](#RAID)
  9 | * [Методы повышения надежности и капасити серверов](#methods-for-improving-reliability-and-capacity-of-servers)
 10 | * [Масштабирование серверных кластеров](#scaling-server-clusters-for-capacity-increase)
 11 | * [Сетевые технологии для оптимизации капасити и производительности](#network-technologies-for-capacity-and-performance-optimization)
 12 | * [Техники охлаждения в серверных центрах](#cooling-techniques-in-server-facilities-for-optimal-operation-and-capacity)
 13 | * [Методы управления энергопотреблением в целях оптимизации капасити и экономии ресурсов](#energy-management-methods-for-capacity-optimization-and-resource-saving)
 14 | * [Влияние физической конфигурации на капасити и производительность сервера](#impact-of-physical-configuration-on-server-capacity-and-performance)
 15 | * [Оценка текущей капасити и прогнозирование роста](#Capacity-Assessment-and-Forecasting)
 16 |   * [Как вы оцените текущую загрузку серверов в <название компании>?](#How-Do-You-Assess-Current-Server-Load)
 17 |   * [Какие методы и инструменты вы используете для прогнозирования роста загрузки и потребностей в ресурсах?](#Methods-and-Tools-for-Forecasting-Load-Growth)
 18 |   * [Какие факторы вы учитываете при прогнозировании капасити?](#Factors-Considered-in-Capacity-Forecasting)
 19 | * [Оптимизация использования ресурсов](#Resource-Utilization-Optimization)
 20 |   * [Какие стратегии вы предложите для оптимизации использования ресурсов?](#Strategies-for-Resource-Optimization)
 21 |   * [Как вы будете реагировать на неэффективное использование ресурсов?](#Responding-to-Inefficient-Resource-Use)
 22 |   * [Какие методы вы используете для определения узких мест и повышения эффективности использования капасити?](#Methods-for-Identifying-Bottlenecks-and-Improving-Capacity-Utilization)
 23 | * [Управление проектами Capacity](#Capacity-Project-Management)
 24 |   * [Как вы будете управлять портфелем проектов Capacity?](#Managing-the-Capacity-Project-Portfolio)
 25 |   * [Какие ключевые метрики и инструменты вы будете использовать для отслеживания прогресса проектов?](#Key-Metrics-and-Tools-for-Tracking-Project-Progress)
 26 |   * [Как вы будете управлять рисками, связанными с проектами Capacity?](#Managing-Risks-Associated-with-Capacity-Projects)
 27 | * [Проектирование процессов](#Process-Design)
 28 |   * [С чего вы начнёте оптимизацию процессов Capacity Management?](#Starting-Point-for-Capacity-Management-Process-Optimization)
 29 |   * [Как вы будете измерять успех вашей стратегии и процессов Capacity Management?](#Measuring-the-Success-of-Your-Capacity-Management-Strategy-and-Processes)
 30 | * [Аналитика и данные](#Analytics-and-Data)
 31 |   * [Как вы будете использовать SQL или Python для анализа данных в области Capacity Management?](#Using-SQL-or-Python-for-Data-Analysis-in-Capacity-Management)
 32 |   * [Какие типы аналитических отчетов и метрик вы будете разрабатывать для мониторинга капасити?](#Types-of-Analytical-Reports-and-Metrics-for-Capacity-Monitoring)
 33 |   * [Как вы будете обеспечивать достоверность данных, используемых для принятия решений в области Capacity Management?](#Ensuring-Data-Integrity-for-Decision-Making-in-Capacity-Management)
 34 | * [Технические знания](#Technical-Knowledge)
 35 |   * [Какие основные компоненты составляют серверную инфраструктуру в дата-центрах?](#Key-Components-of-Server-Infrastructure-in-Data-Centers)
 36 |   * [Какие основные технологии используются для масштабирования кластеров и расширения капасити?](#Core-Technologies-for-Scaling-Clusters-and-Expanding-Capacity)
 37 |   * [Как вы оцените пропускную способность сети и примените эту информацию к управлению капасити?](#Evaluating-Network-Capacity-and-Applying-This-Information-to-Capacity-Management)
 38 | * [Балансировщик нагрузки](#Load-Balancer)
 39 |   * [Зачем между приложением и вебсерверами нужен балансировщик нагрузки в контексте систем дизайна?](#Why-is-a-Load-Balancer-Needed-Between-Application-and-Web-Servers-in-System-Design-Context)
 40 | 
 41 | ## Компоненты структуры сервера
 42 | <a id="server-structure-components"></a>
 43 | ([наверх](#sections))
 44 | 
 45 | Капасити (от англ. "capacity") в контексте серверов обычно относится к их вычислительным ресурсам и способности обрабатывать определенный объем данных и запросов. Рассмотрим подробно, какие компоненты обычно входят в структуру сервера, поскольку именно от этих компонентов во многом зависит капасити сервера.
 46 | 
 47 | ### 1. Процессор (CPU)
 48 | 
 49 | - **Описание.** Является мозгом сервера, выполняет инструкции программ и обрабатывает данные.
 50 | - **Важные характеристики.** Частота (ГГц), количество ядер и потоков, кэш-память, тепловыделение (TDP), поддержка виртуализации.
 51 | - **Влияние на капасити.** Более мощный процессор с большим количеством ядер и высокой частотой может обрабатывать больше задач одновременно, увеличивая капасити сервера.
 52 | 
 53 | ### 2. Оперативная память (RAM)
 54 | 
 55 | - **Описание.** Используется для временного хранения данных и инструкций, активно используемых процессором.
 56 | - **Важные характеристики.** Объем (ГБ), тип (например, DDR4), скорость (МГц), тайминги.
 57 | - **Влияние на капасити.** Больший объем и более высокая скорость памяти позволяют обрабатывать больше операций и запускать больше приложений одновременно, что напрямую влияет на производительность сервера.
 58 | 
 59 | ### 3. Хранилище данных (SSD/HDD)
 60 | 
 61 | - **Описание.** Используются для долговременного хранения данных.
 62 | - **Важные характеристики.** Тип накопителя (SSD для высокой скорости, HDD для большого объема), интерфейс (SATA, SAS, NVMe), скорость чтения/записи, объем хранения.
 63 | - **Влияние на капасити.** Высокоскоростные SSD ускоряют загрузку программ и доступ к данным, что положительно сказывается на общей производительности сервера.
 64 | 
 65 | ### 4. Система охлаждения
 66 | 
 67 | - **Описание.** Обеспечивает поддержание оптимальной рабочей температуры компонентов сервера.
 68 | - **Важные характеристики.** Тип охлаждения (воздушное, жидкостное), эффективность, уровень шума.
 69 | - **Влияние на капасити.** Надежная система охлаждения позволяет компонентам работать на максимальной производительности без перегрева, что важно для поддержания высокой капасити.
 70 | 
 71 | ### 5. Материнская плата
 72 | 
 73 | - **Описание.** Является основой для всех компонентов сервера, обеспечивает их взаимосвязь.
 74 | - **Важные характеристики.** Поддерживаемый тип и количество процессоров, слоты для оперативной памяти, типы и количество слотов расширения, интерфейсы для подключения накопителей.
 75 | - **Влияние на капасити.** Определяет максимально возможную конфигурацию сервера, его возможности по расширению и модернизации.
 76 | 
 77 | ### 6. Блок питания
 78 | 
 79 | - **Описание.** Обеспечивает электроэнергией все компоненты сервера.
 80 | - **Важные характеристики.** Мощность (Вт), эффективность (процентное соотношение входной и выходной мощности), количество и типы разъемов.
 81 | - **Влияние на капасити.** Должен обеспечивать достаточную мощность для стабильной работы всех компонентов сервера. Недостаточная мощность может привести к сбоям и остановке работы.
 82 | 
 83 | ### 7. Сетевой адаптер
 84 | 
 85 | - **Описание.** Обеспечивает подключение сервера к сети.
 86 | - **Важные характеристики.** Скорость подключения (1 Гбит/с, 10 Гбит/с и выше), тип подключения (медь, оптика), поддержка протоколов и стандартов.
 87 | - **Влияние на капасити.** Высокоскоростное подключение к сети позволяет быстро обмениваться данными с другими серверами и клиентами, что критически важно для обслуживания большого числа запросов.
 88 | 
 89 | Эти компоненты формируют основу сервера и его способность выполнять вычислительные задачи. От их характеристик зависит общая производительность и капасити сервера. При проектировании серверной инфраструктуры важно учитывать соотношение между потребностями в вычислительных ресурсах и стоимостью оборудования, чтобы обеспечить наиболее эффективное использование ресурсов.
 90 | 
 91 | ## Типы серверов и их цели
 92 | <a id="server-types-and-purposes"></a>
 93 | ([наверх](#sections))
 94 | 
 95 | Существует несколько типов серверов, каждый из которых предназначен для определенных целей и задач. Вот некоторые из наиболее распространенных типов серверов и их основные назначения:
 96 | 
 97 | 1. **Веб-серверы.** Эти серверы используются для хостинга и обслуживания веб-сайтов. Они обрабатывают HTTP-запросы от клиентских браузеров, отправляя запрошенные веб-страницы и ресурсы. Примеры веб-серверов включают Apache, Nginx, Microsoft IIS и LiteSpeed.
 98 | 
 99 | 2. **Файловые серверы.** Эти серверы предназначены для хранения и управления файлами и данными. Они позволяют пользователям сохранять, получать и обмениваться файлами через сеть. Примеры файловых серверов включают Windows File Server, NFS (Network File System) и Samba.
100 | 
101 | 3. **Базы данных серверы.** Эти серверы предназначены для хранения и обработки данных, обеспечивая доступ к базам данных для множества пользователей. Они используются для управления и обработки информации, такой как данные клиентов, транзакции и многое другое. Примеры баз данных серверов включают MySQL, PostgreSQL, Microsoft SQL Server и Oracle Database.
102 | 
103 | 4. **Почтовые серверы.** Эти серверы обрабатывают и доставляют электронную почту. Они принимают, обрабатывают и хранят письма, а также обеспечивают протоколы для доступа к электронной почте, такие как POP3, IMAP и SMTP. Примеры почтовых серверов включают Microsoft Exchange Server, Postfix и Sendmail.
104 | 
105 | 5. **Приложительные серверы.** Эти серверы предназначены для выполнения приложений и программного обеспечения для множества пользователей. Они обеспечивают среду выполнения для приложений, обрабатывая запросы и управляя ресурсами. Примеры включают серверы приложений Java EE (например, Apache Tomcat, JBoss), серверы приложений .NET (например, Microsoft IIS с ASP.NET), а также серверы приложений Python, Ruby и других языков программирования.
106 | 
107 | 6. **DNS-серверы.** Эти серверы отвечают за преобразование доменных имен в IP-адреса и наоборот. Они обеспечивают распределение запросов на доменное имя между различными серверами и поддоменами. Примеры DNS-серверов включают BIND (Berkeley Internet Name Domain), Microsoft DNS и Google Cloud DNS.
108 | 
109 | 7. **Хостинговые серверы.** Эти серверы предоставляют услуги хостинга для веб-сайтов и приложений. Они могут включать в себя функции веб-сервера, базы данных, почты и другие сервисы, предоставляя полноценное окружение для хостинга сайтов. Эти серверы могут быть общими (shared hosting), виртуальными (VPS) или выделенными (dedicated hosting).
110 | 
111 | Каждый из этих типов серверов имеет свои уникальные характеристики и настройки, которые определяются в соответствии с требованиями и целями организации или проекта.
112 | 
113 | ## Влияние архитектуры сервера на капасити и производительность
114 | <a id="impact-of-server-architecture-on-capacity-and-performance"></a>
115 | ([наверх](#sections))
116 | 
117 | Архитектура сервера играет ключевую роль в определении его капасити и производительности. Капасити сервера — это способность обрабатывать определенный объем задач или запросов в единицу времени, не теряя в качестве обслуживания. Эта способность зависит от многих факторов, включая аппаратное обеспечение, программное обеспечение и конфигурацию системы. Вот как различные аспекты архитектуры сервера влияют на его капасити и производительность:
118 | 
119 | ### 1. Центральный процессор (CPU)
120 | 
121 | - **Мощность и количество ядер.** Более мощные процессоры с большим количеством ядер могут обрабатывать больше инструкций за единицу времени, что напрямую влияет на производительность и капасити сервера. Многозадачность и параллелизм улучшаются за счет использования многоядерных процессоров.
122 | - **Архитектура CPU.** Архитектура, такая как x86-64 или ARM, определяет, как процессор обрабатывает инструкции, что влияет на его эффективность и скорость обработки данных.
123 | 
124 | ### 2. Оперативная память (RAM)
125 | 
126 | - **Объем и скорость.** Больший объем оперативной памяти позволяет серверу хранить больше данных в непосредственном доступе, уменьшая необходимость обращения к более медленным накопителям. Высокоскоростная RAM ускоряет доступ к данным и обработку, тем самым повышая производительность.
127 | - **Тип памяти.** Современные стандарты, такие как DDR4 и DDR5, предлагают улучшения в скорости передачи данных и энергоэффективности по сравнению с предыдущими поколениями.
128 | 
129 | ### 3. Системы хранения данных
130 | 
131 | - **Типы накопителей.** SSD (твердотельные накопители) предлагают значительно более высокую скорость чтения/записи по сравнению с традиционными HDD (жесткими дисками), что напрямую влияет на скорость загрузки приложений и доступа к данным.
132 | - **Интерфейсы подключения.** Использование интерфейсов высокой пропускной способности, таких как NVMe, дополнительно ускоряет работу с данными на SSD, улучшая общую производительность системы.
133 | 
134 | ### 4. Сетевая инфраструктура
135 | 
136 | - **Пропускная способность и задержка.** Высокоскоростные сетевые интерфейсы (например, 10 GbE или выше) уменьшают время передачи данных между сервером и сетью, что особенно важно для высоконагруженных приложений и сервисов, требующих быстрого обмена данными.
137 | - **Технологии виртуализации сети.** Современные технологии, такие как SDN (Software-Defined Networking), позволяют более эффективно управлять сетевыми ресурсами, оптимизируя трафик и уменьшая задержки.
138 | 
139 | ### 5. Архитектура системы и программное обеспечение
140 | 
141 | - **Оптимизация программного обеспечения.** ПО, оптимизированное под конкретную архитектуру сервера, может значительно улучшить его производительность, например, за счет эффективного распределения задач между ядрами процессора.
142 | - **Виртуализация и контейнеризация.** Технологии, такие как Docker и Kubernetes, а также платформы виртуализации (например, VMware или Hyper-V), позволяют более эффективно использовать ресурсы сервера, улучшая его капасити за счет изоляции и управления нагрузками на уровне программного обеспечения.
143 | 
144 | ### Заключение
145 | 
146 | Архитектура сервера оказывает комплексное влияние на его капасити и производительность. Баланс между мощностью аппаратного обеспечения и оптимизацией программного обеспечения определяет, насколько эффективно сервер может обрабатывать запросы и выполнять задачи. Правильный выбор компонентов и технологий, а также их настройка под конкретные требования приложений, является ключом к максимизации производительности и капасити сервера.
147 | 
148 | ## Технологии хранения данных для оптимизации капасити и доступности
149 | <a id="data-storage-technologies-for-capacity-and-availability-optimization"></a>
150 | ([наверх](#sections))
151 | 
152 | Для оптимизации емкости (capacity) и доступности данных на серверах используются различные технологии хранения данных. Вот некоторые из них:
153 | 
154 | 1. **RAID (Redundant Array of Independent Disks).**
155 |    - RAID технология объединяет несколько физических дисков в единое логическое устройство для повышения надежности и/или производительности хранения данных.
156 |    - Различные уровни RAID (например, RAID 0, RAID 1, RAID 5, RAID 6) предлагают разные комбинации отказоустойчивости, производительности и емкости.
157 | 
158 | 2. **Хранилища сетевого присоединения (Network Attached Storage, NAS).**
159 |    - NAS представляет собой специализированное устройство для хранения данных, которое подключается к сети и предоставляет хранилище для множества клиентов.
160 |    - NAS обычно обладает высокой емкостью и обеспечивает удобный доступ к данным для различных устройств в сети.
161 | 
162 | 3. **Хранилища подключенных к сети (Storage Area Network, SAN).**
163 |    - SAN - это сеть, объединяющая хранилища данных и серверы с целью предоставления распределенного блока хранения.
164 |    - SAN позволяет эффективно масштабировать хранилище и обеспечивает высокую доступность и производительность.
165 | 
166 | 4. **Облачные хранилища данных.**
167 |    - Облачные хранилища (как публичные, так и частные) предлагают распределенное хранение данных через интернет.
168 |    - Они обычно обладают высокой емкостью, масштабируемостью и гибкостью, обеспечивая доступность данных из любой точки сети.
169 | 
170 | 5. **Дедупликация данных.**
171 |    - Технология дедупликации позволяет уменьшить объем хранимых данных путем удаления дублирующей информации.
172 |    - Это позволяет оптимизировать использование хранилища и уменьшить потребность в дополнительной емкости.
173 | 
174 | 6. **Компрессия данных.**
175 |    - Компрессия данных уменьшает объем хранимых данных путем сжатия информации.
176 |    - Это позволяет сэкономить место на диске и увеличить емкость хранилища.
177 | 
178 | 7. **Технологии тонкого (thin) и толстого (thick) выделения дискового пространства.**
179 |    - Тонкое выделение позволяет выделять меньший объем физического дискового пространства на начальном этапе, увеличивая его по мере необходимости.
180 |    - Толстое выделение резервирует всю заранее указанную емкость сразу, что может привести к неэффективному использованию пространства.
181 | 
182 | Эти технологии позволяют оптимизировать емкость и доступность данных на серверах в соответствии с требованиями конкретной системы хранения.
183 | 
184 | ## RAID
185 | <a id="RAID"></a>
186 | ([наверх](#sections))
187 | 
188 | RAID (Redundant Array of Independent Disks) – это технология, которая объединяет несколько физических дисков в единое логическое устройство для увеличения надежности, производительности и/или емкости хранения данных. Различные уровни RAID предлагают разные комбинации этих характеристик, обеспечивая оптимальное решение в зависимости от требований конкретного применения. Вот подробный обзор основных уровней RAID:
189 | 
190 | 1. **RAID 0 (Stripe).**
191 |    - RAID 0 разделяет данные на части (блоки) и записывает их на разные диски в наборе.
192 |    - Позволяет повысить производительность, так как операции чтения и записи могут выполняться параллельно на нескольких дисках.
193 |    - Не обеспечивает отказоустойчивости, потому что отказ одного диска приводит к потере всех данных в массиве.
194 | 
195 | 2. **RAID 1 (Mirroring).**
196 |    - RAID 1 создает точную копию данных на двух или более дисках.
197 |    - Обеспечивает высокую отказоустойчивость, так как данные сохраняются даже при отказе одного диска.
198 |    - Жертвует половиной доступной емкости на дублирование данных.
199 | 
200 | 3. **RAID 5.**
201 |    - RAID 5 использует метод распределения данных и паритетный блок для обеспечения отказоустойчивости и повышения производительности.
202 |    - Данные разбиваются на блоки и записываются на несколько дисков, а паритетные блоки вычисляются и распределяются по всем дискам.
203 |    - При отказе одного диска данные можно восстановить из паритетной информации и данных на оставшихся дисках.
204 |    - RAID 5 обеспечивает более высокую емкость по сравнению с RAID 1 за счет использования только одного диска для паритета.
205 | 
206 | 4. **RAID 6.**
207 |    - RAID 6 похож на RAID 5, но вместо одного паритетного блока использует два независимых блока паритета.
208 |    - Обеспечивает еще более высокую отказоустойчивость, так как может выдержать отказ двух дисков.
209 |    - Требует больше вычислительных ресурсов для вычисления и записи паритетных блоков, что может снизить производительность.
210 | 
211 | 5. **RAID 10 (1+0).**
212 |    - RAID 10 объединяет в себе преимущества RAID 1 и RAID 0.
213 |    - Данные зеркалируются на паре дисков, а затем блоки данных страйпуются по этим парам.
214 |    - Обеспечивает высокую производительность и отказоустойчивость, но требует удвоенной емкости по сравнению с простым RAID 0.
215 | 
216 | Каждый уровень RAID имеет свои преимущества и недостатки, и выбор конкретного уровня зависит от требований к надежности, производительности и емкости хранения данных.
217 | 
218 | ## Масштабирование серверных кластеров
219 | <a id="scaling-server-clusters-for-capacity-increase"></a>
220 | ([наверх](#sections))
221 | 
222 | Масштабирование серверных кластеров для увеличения капасити — это комплексный процесс, который включает в себя несколько ключевых этапов и рассматривает различные аспекты, от аппаратного обеспечения до программного обеспечения и архитектуры. Под капасити понимаются ресурсы, необходимые для обработки текущей нагрузки, такие как вычислительная мощность, объем памяти, сетевая пропускная способность и место для хранения данных. Вот как можно подробно расписать процесс масштабирования:
223 | 
224 | ### 1. Анализ текущего состояния
225 | 
226 | - **Оценка нагрузки.** Измерение текущей нагрузки и прогнозирование будущих требований. Это включает анализ пиковых и средних значений нагрузки, а также учет возможного роста или сезонных колебаний.
227 | - **Аудит ресурсов.** Определение текущего использования ресурсов, включая процессоры, память, хранилище и сеть.
228 | - **Идентификация узких мест.** Выявление компонентов системы, ограничивающих производительность, например, медленное хранилище или недостаточная сетевая пропускная способность.
229 | 
230 | ### 2. Планирование масштабирования
231 | 
232 | - **Выбор стратегии масштабирования.** Горизонтальное (добавление единиц однотипного оборудования) против вертикального (увеличение мощности существующего оборудования) масштабирования. Горизонтальное масштабирование чаще всего предпочтительнее из-за лучшей отказоустойчивости и масштабируемости.
233 | - **Разработка архитектуры.** Создание или оптимизация архитектуры для поддержки масштабируемости, включая балансировку нагрузки, кластеризацию и репликацию данных.
234 | - **Планирование ресурсов.** Определение необходимых ресурсов, включая аппаратное обеспечение и программное обеспечение, а также логистику их распределения.
235 | 
236 | ### 3. Реализация масштабирования
237 | 
238 | - **Приобретение и установка оборудования.** Покупка необходимого аппаратного обеспечения и его физическая установка в дата-центре.
239 | - **Настройка и тестирование.** Конфигурирование нового оборудования, установка необходимого программного обеспечения, тестирование производительности и отказоустойчивости.
240 | - **Оптимизация программного обеспечения.** Внесение изменений в программное обеспечение для эффективного использования новых ресурсов, включая оптимизацию баз данных, кэширование и балансировку нагрузки.
241 | 
242 | ### 4. Мониторинг и оптимизация
243 | 
244 | - **Мониторинг производительности.** Постоянное наблюдение за показателями производительности и использования ресурсов для выявления потенциальных проблем.
245 | - **Анализ данных мониторинга.** Анализ собранных данных для идентификации трендов, узких мест и потребностей в дополнительном масштабировании.
246 | - **Оптимизация.** Внедрение изменений для улучшения производительности и эффективности, включая настройку конфигураций и алгоритмов распределения нагрузки.
247 | 
248 | ### 5. Управление изменениями и документирование
249 | 
250 | - **Управление изменениями.** Внедрение процесса управления изменениями для обеспечения бесперебойной работы системы в процессе масштабирования.
251 | - **Документирование.** Создание документации по новой инфраструктуре, включая схемы, конфигурации и процедуры восстановления после сбоев.
252 | 
253 | ### 6. Подготовка к будущему масштабированию
254 | 
255 | - **Разработка стратегии масштабируемости.** Планирование дальнейших шагов масштабирования в соответствии с прогнозируемым ростом и развитием технологий.
256 | - **Обучение персонала.** Повышение квалификации команды для работы с масштабированной инфраструктурой.
257 | 
258 | ## Сетевые технологии для оптимизации капасити и производительности
259 | <a id="network-technologies-for-capacity-and-performance-optimization"></a>
260 | ([наверх](#sections))
261 | 
262 | Оптимизация капасити и производительности серверов часто осуществляется с использованием различных сетевых технологий. Вот некоторые из них:
263 | 
264 | 1. **Load Balancing (Балансировка нагрузки).**
265 |    - **Hardware Load Balancers (аппаратные балансировщики нагрузки).** Эти устройства распределяют сетевой трафик между несколькими серверами для обеспечения равномерного распределения нагрузки и предотвращения перегрузок.
266 |    - **Software Load Balancers (программные балансировщики нагрузки).** Решения на основе программного обеспечения, которые выполняют ту же функцию, что и аппаратные балансировщики, но работают на обычных серверах.
267 | 
268 | 2. **Content Delivery Networks (CDN) (Сети доставки контента).**
269 |    - CDN предоставляют кэширование контента на серверах, размещенных ближе к конечным пользователям. Это уменьшает нагрузку на центральные серверы и ускоряет доставку контента.
270 | 
271 | 3. **Caching (Кэширование).**
272 |    - Системы кэширования временно хранят копии данных, уменьшая необходимость сервера каждый раз обращаться к базе данных или другим источникам данных. Это значительно увеличивает скорость ответа сервера и снижает нагрузку.
273 | 
274 | 4. **Network Accelerators (Сетевые ускорители).**
275 |    - Эти устройства оптимизируют сетевую передачу данных, используя техники, такие как сжатие данных, управление потоком и предварительное получение данных, чтобы улучшить производительность сети и снизить задержки.
276 | 
277 | 5. **Quality of Service (QoS) (Качество обслуживания).**
278 |    - QoS технологии позволяют определять приоритеты для различных типов сетевого трафика. Это позволяет оптимизировать использование пропускной способности сети и гарантировать достаточные ресурсы для критически важных приложений.
279 | 
280 | 6. **Multiprotocol Label Switching (MPLS) (Многопротокольная меткосменная коммутация).**
281 |    - MPLS позволяет оптимизировать маршрутизацию трафика в сети, улучшая производительность и предоставляя гарантированную пропускную способность для приложений с высокими требованиями к качеству обслуживания.
282 | 
283 | 7. **Software-defined Networking (SDN) (Сети, управляемые программным обеспечением).**
284 |    - SDN позволяет централизованно управлять сетью и динамически настраивать её параметры в соответствии с текущей нагрузкой и требованиями приложений, что способствует оптимизации капасити и производительности.
285 | 
286 | 8. **Virtualization (Виртуализация).**
287 |    - Технологии виртуализации позволяют эффективно использовать вычислительные ресурсы серверов путем создания виртуальных экземпляров операционных систем и приложений. Это упрощает масштабирование приложений и повышает гибкость инфраструктуры.
288 | 
289 | ## Техники охлаждения в серверных центрах
290 | <a id="cooling-techniques-in-server-facilities-for-optimal-operation-and-capacity"></a>
291 | ([наверх](#sections))
292 | 
293 | В серверных центрах применяются различные техники охлаждения для поддержания оптимальной работы оборудования и обеспечения достаточной капасити. Ниже перечислены некоторые из основных методов охлаждения, которые могут использоваться:
294 | 
295 | 1. **Воздушное охлаждение.** Это один из наиболее распространенных способов охлаждения серверных центров. Воздушные кондиционеры или вентиляторы распределяют прохладный воздух по рабочим зонам, чтобы охлаждать оборудование. Системы вентиляции могут быть настроены для оптимального распределения потока воздуха в соответствии с тепловым распределением в помещении.
296 | 
297 | 2. **Жидкостное охлаждение.** Этот метод охлаждения использует жидкость, например, воду или специальные охладители, чтобы отводить тепло от серверов. Жидкость циркулирует через специальные системы трубопроводов, которые проходят мимо оборудования, забирая тепло, а затем выводится в систему охлаждения.
298 | 
299 | 3. **Иммерсионное охлаждение.** Этот относительно новый метод включает погружение серверов в специальные емкости с охладительной жидкостью, которая полностью окружает оборудование. Это позволяет эффективно отводить тепло, так как жидкость непосредственно контактирует с нагревающимися компонентами серверов.
300 | 
301 | 4. **Тепловые насосы.** Этот метод использует тепловые насосы для переноса тепла изнутри серверного центра наружу. Тепловые насосы работают на принципе теплового обмена и могут быть эффективными при правильной настройке.
302 | 
303 | 5. **Адиабатическое охлаждение.** Этот метод использует процесс испарения воды для охлаждения воздуха в серверном помещении. Вода испаряется в воздух, что приводит к снижению его температуры. Этот процесс может быть эффективным в регионах с низкой влажностью.
304 | 
305 | 6. **Теплоотводящие материалы и конструкции.** Кроме технических систем охлаждения, также важно использовать теплоотводящие материалы и конструкции, чтобы уменьшить тепловую нагрузку на серверный центр. Это может включать в себя улучшенные системы утепления, специальные материалы для стоек и корпусов серверов и оптимизированные конструкции для улучшения циркуляции воздуха.
306 | 
307 | # Оценка текущей капасити и прогнозирование роста
308 | <a id="Capacity-Assessment-and-Forecasting"></a>
309 | 
310 | * [Как вы оцените текущую загрузку серверов в <название компании>?](#How-Do-You-Assess-Current-Server-Load)
311 | * [Какие методы и инструменты вы используете для прогнозирования роста загрузки и потребностей в ресурсах?](#Methods-and-Tools-for-Forecasting-Load-Growth)
312 | * [Какие факторы вы учитываете при прогнозировании капасити?](#Factors-Considered-in-Capacity-Forecasting)
313 | 
314 | ([наверх](#sections))
315 | 
316 | ## Как вы оцените текущую загрузку серверов в <название компании>?
317 | <a id="How-Do-You-Assess-Current-Server-Load"></a>
318 | ([наверх](#sections))
319 | 
320 | Оценка текущей загрузки серверов в рамках капасити менеджмента — это комплексная задача, требующая анализа ряда показателей. Она включает в себя мониторинг, анализ производительности и планирование ресурсов. Определим ключевые показатели, которые необходимо учитывать:
321 | 
322 | 1. **Процентное использование ЦПУ (CPU Utilization)**:
323 | 
324 | ![alt text](sd-im/CPUUtilization.png)
325 | 
326 | 2. **Использование оперативной памяти (RAM Utilization)**:
327 | 
328 | ![alt text](sd-im/RAMUtilization.png)
329 | 
330 | 3. **Использование дискового пространства (Disk Space Utilization)**:
331 | 
332 | ![alt text](sd-im/DiskSpaceUtilization.png)
333 |    
334 | 4. **Использование сети (Network Utilization)**:
335 | 
336 | ![alt text](sd-im/NetworkUtilization.png)
337 | 
338 | 5. **Количество одновременных сессий или соединений**.
339 | 
340 | 6. **Среднее время отклика системы и задержек**.
341 | 
342 | Для более глубокого анализа могут понадобиться дополнительные метрики, такие как количество операций ввода/вывода в секунду (IOPS) для оценки производительности хранилища, а также различные специфические для приложений показатели.
343 | 
344 | ### Как провести оценку
345 | 
346 | 1. **Сбор данных.** Используем инструменты мониторинга и аналитики, такие как Prometheus, Nagios, Zabbix или другие системы для сбора вышеупомянутых метрик в реальном времени.
347 | 
348 | 2. **Анализ нагрузки.** Проанализируем полученные данные, чтобы понять, как нагрузка распределяется в течение рабочего дня или недели. Важно определить пиковые и спадные периоды использования.
349 | 
350 | 3. **Прогнозирование.** На основе исторических данных о загрузке серверов можно прогнозировать будущие требования к ресурсам. Такой подход поможет вовремя планировать масштабирование системы.
351 | 
352 | 4. **Оптимизация.** Используем полученные данные для оптимизации ресурсов. Например, если обнаружим, что определенные серверы перегружены, в то время как другие недогружены, можно попытаться перераспределить нагрузку более эффективно.
353 | 
354 | 5. **Планирование ресурсов.** Оцените, нужно ли увеличивать или уменьшать количество серверов в вашей инфраструктуре, основываясь на текущих и прогнозируемых нагрузках.
355 | 
356 | ## Какие методы и инструменты вы используете для прогнозирования роста загрузки и потребностей в ресурсах?
357 | <a id="Methods-and-Tools-for-Forecasting-Load-Growth"></a>
358 | ([наверх](#sections))
359 | 
360 | Некоторые из наиболее широко используемых методов и инструментов:
361 | 
362 | ### Методы прогнозирования:
363 | 
364 | 1. **Метод экстраполяции.** Этот метод основывается на анализе исторических данных о загрузке и ресурсах. Он предполагает, что будущие показатели будут следовать тем же тенденциям, что и прошлые. Экстраполяция может включать в себя использование методов регрессионного анализа, временных рядов и других статистических методов.
365 | 
366 | 2. **Метод сценариев.** Этот метод предполагает создание различных сценариев для прогнозирования. Например, можно создать сценарии на основе ожидаемого роста клиентской базы, внедрения новых функций или изменений в алгоритмах обработки данных.
367 | 
368 | 3. **Метод экспертной оценки.** Использование опыта и знаний экспертов в области, чтобы прогнозировать будущие потребности в ресурсах. Этот метод может быть особенно полезен при прогнозировании новых технологических трендов или изменений в бизнес-модели компании.
369 | 
370 | ### Инструменты для прогнозирования:
371 | 
372 | 1. **Системы мониторинга и аналитики.** Используйте специализированные инструменты мониторинга, такие как Prometheus, Nagios, Zabbix, Grafana и другие, для сбора, анализа и визуализации данных о производительности системы.
373 | 
374 | 2. **Программное обеспечение для анализа данных.** Используйте инструменты анализа данных, такие как Python с библиотеками pandas, NumPy и scikit-learn, для проведения статистического анализа и построения прогнозных моделей.
375 | 
376 | 3. **Системы управления облачными ресурсами.** Для организаций, использующих облачные ресурсы, такие как Amazon Web Services (AWS), Microsoft Azure или Google Cloud Platform, существуют специализированные инструменты и службы, позволяющие автоматизировать масштабирование инфраструктуры в соответствии с прогнозами нагрузки.
377 | 
378 | 4. **Моделирование и симуляция.** Используйте программные инструменты для моделирования и симуляции, которые позволяют создавать виртуальные модели системы и тестировать различные сценарии нагрузки.
379 | 
380 | 5. **Интегрированные платформы капасити менеджмента.** Существуют специализированные интегрированные платформы для управления капасити, которые объединяют в себе различные инструменты и методы прогнозирования, облегчая процесс принятия решений по управлению ресурсами.
381 | 
382 | ## Какие факторы вы учитываете при прогнозировании капасити?
383 | <a id="Factors-Considered-in-Capacity-Forecasting"></a>
384 | ([наверх](#sections))
385 | 
386 | При прогнозировании капасити, то есть определении необходимого уровня ресурсов для поддержки бизнес-процессов и ожидаемой нагрузки, необходимо учитывать ряд различных факторов. Ниже представлены основные из них:
387 | 
388 | 1. **Исторические данные.** Анализ прошлой загрузки и использования ресурсов позволяет выявить сезонные колебания, тренды роста, а также определить типичные паттерны поведения системы.
389 | 
390 | 2. **Бизнес-требования** Необходимо понять текущие и будущие бизнес-потребности компании, включая планы по расширению бизнеса, запуску новых продуктов или услуг, а также изменения в бизнес-модели.
391 | 
392 | 3. **Требования пользователей.** Изучение поведения пользователей и их ожиданий от системы помогает оценить ожидаемую нагрузку и выявить ключевые моменты пиковой активности.
393 | 
394 | 4. **Технологические изменения.** Планирование обновлений систем, внедрение новых технологий, а также изменения в архитектуре приложений могут существенно повлиять на потребность в ресурсах.
395 | 
396 | 5. **Прогнозирование роста бизнеса.** Проекция роста клиентской базы, объема транзакций, объема данных и других параметров, связанных с бизнесом, помогает определить ожидаемый рост нагрузки на систему.
397 | 
398 | 6. **Сезонные колебания.** В зависимости от типа бизнеса могут существовать сезонные колебания в активности, которые необходимо учитывать при прогнозировании капасити.
399 | 
400 | 7. **Требования к производительности и отказоустойчивости.** Некоторые приложения могут иметь особенно высокие требования к производительности и отказоустойчивости, что также нужно учитывать при расчете капасити.
401 | 
402 | 8. **Запасы и гибкость.** Важно учитывать не только текущие потребности, но и предусмотреть запасные мощности для покрытия неожиданных скачков нагрузки и обеспечения гибкости системы.
403 | 
404 | 9. **Законодательные требования и стандарты безопасности.** Соблюдение законодательства и стандартов безопасности может потребовать дополнительных ресурсов для хранения и обработки данных.
405 | 
406 | 10. **Сроки обновлений и масштабирования.** Планирование сроков обновлений и масштабирования системы важно для обеспечения бесперебойной работы и избежания простоев.
407 | 
408 | 
409 | ## Как вы оцените текущую загрузку серверов в <название компании>?
410 | <a id="How-Do-You-Assess-Current-Server-Load"></a>
411 | ([наверх](#sections))
412 | 
413 | ## Как вы оцените текущую загрузку серверов в <название компании>?
414 | <a id="How-Do-You-Assess-Current-Server-Load"></a>
415 | ([наверх](#sections))
416 | 
417 | ## Как вы оцените текущую загрузку серверов в <название компании>?
418 | <a id="How-Do-You-Assess-Current-Server-Load"></a>
419 | ([наверх](#sections))
420 | 
421 | ## Как вы оцените текущую загрузку серверов в <название компании>?
422 | <a id="How-Do-You-Assess-Current-Server-Load"></a>
423 | ([наверх](#sections))
424 | 
425 | ## Как вы оцените текущую загрузку серверов в <название компании>?
426 | <a id="How-Do-You-Assess-Current-Server-Load"></a>
427 | ([наверх](#sections))
428 | 


--------------------------------------------------------------------------------
/sd-im/CPUUtilization.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/kirilldikalin/myknowledge/923b1b7ef720bcb57d7108e69ba016f5cc338fa0/sd-im/CPUUtilization.png


--------------------------------------------------------------------------------
/sd-im/DiskSpaceUtilization.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/kirilldikalin/myknowledge/923b1b7ef720bcb57d7108e69ba016f5cc338fa0/sd-im/DiskSpaceUtilization.png


--------------------------------------------------------------------------------
/sd-im/NetworkUtilization.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/kirilldikalin/myknowledge/923b1b7ef720bcb57d7108e69ba016f5cc338fa0/sd-im/NetworkUtilization.png


--------------------------------------------------------------------------------
/sd-im/RAMUtilization.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/kirilldikalin/myknowledge/923b1b7ef720bcb57d7108e69ba016f5cc338fa0/sd-im/RAMUtilization.png


--------------------------------------------------------------------------------