Hadoop

Об инструменте

Что такое Hadoop

Hadoop — это не одна программа, а целая экосистема технологий, созданная для решения проблем, с которыми не справляются традиционные базы данных, когда объёмы информации достигают петабайт. Основой для Hadoop послужили статьи Google о файловой системе GFS и вычислительной модели MapReduce. Платформа спроектирована для работы на больших кластерах серверов и сама управляет отказоустойчивостью: если один сервер выйдет из строя, данные будут восстановлены с другого узла, а задача — перезапущена.

Плюсы Hadoop:

Масштабируемость: линейное расширение — достаточно добавить новые серверы в кластер, чтобы увеличить объём хранилища и вычислительную мощность.
Экономическая эффективность: работает на стандартном, недорогом оборудовании, а не на дорогих супер-компьютерах или мэйнфреймах.
Отказоустойчивость: данные реплицируются несколько раз. При выходе узла из строя система автоматически переключается на копию, хранящуюся на другом сервере.
Гибкость: может хранить и обрабатывать любые типы данных — текст, изображения, видео, логи, JSON, не требуя предварительного определения схемы.
Экосистема: огромный набор взаимодополняющих инструментов (Hive, Spark, HBase) закрывает практически любые потребности анализа данных.
Бесплатность и открытость: распространяется под лицензией Apache 2.0, что позволяет использовать его в коммерческих проектах без отчислений.
Зрелость и сообщество: существует с 2006 года, тысячи компаний используют Hadoop в production, огромное количество документации и примеров.
Поддержка облачных провайдеров: доступен как управляемый сервис в Amazon EMR, Google Dataproc, Azure HDInsight.

Минусы Hadoop:

Преимущества использования:

Хранение и обработка петабайт данных: единственное практическое решение для задач, где объёмы данных измеряются петабайтами и более.
Экономия на оборудовании: использование стандартных серверов вместо специализированных высокопроизводительных машин.
Единое хранилище для всех типов данных: можно хранить в одной системе логи, JSON, изображения, видео и структурированные таблицы.
Историческая аналитика и ETL: идеален для построения корпоративных хранилищ данных (Data Lake) и пакетной обработки.
Масштабирование без остановки: можно добавлять новые узлы в кластер без прерывания работы системы.
Совместимость с облаками: возможность развернуть Hadoop как управляемый сервис у крупных провайдеров, избавляя от необходимости администрирования.

Основные компоненты Hadoop

HDFS (Hadoop Distributed File System) — распределённая файловая система, которая разбивает файлы на блоки (обычно по 128 МБ) и хранит их копии на разных серверах кластера.
MapReduce — программная модель для параллельной обработки данных, состоящая из этапов "Map" (разбиение и предварительные вычисления) и "Reduce" (агрегация результатов).
YARN (Yet Another Resource Negotiator) — диспетчер ресурсов кластера, управляющий выделением памяти и процессорного времени для запуска задач.

Hadoop — это фундамент целой эры Больших Данных. Хотя его чистый MapReduce теряет популярность под натиском Spark, экосистема Hadoop (особенно HDFS и YARN) остаётся золотым стандартом для построения корпоративных Data Lake. Если вы работаете с объёмами данных, превышающими десятки терабайт, или вам нужно хранить смесь из логов, JSON и видеофайлов — Hadoop предоставит для этого промышленную, отказоустойчивую и масштабируемую основу.