HDFS

HDFS (Hadoop Distributed File System) — распределенная файловая система от компании Hadoop. Данная система предназначена для хранения больших файлов, распределенных на блоки между узлами кластера. HDFS-кластер состоит из NameNоde-сервера (центральный узел имен, хранящий метаданные файловой системы и метаинформацию о распределении блоков) и DataNode-серверов (хранение блоков файлов), они и хранят все данные. NameNode-сервер управляет пространством имен файловой системы и пользовательским доступом к данным. Для разгрузки NameNode-сервера, передача данных осуществляется только между клиентом и DataNode-сервером.

Все блоки системы HDFS (за исключением последнего блока файла) имеют одинаковый размер, каждый блок может размещаться на нескольких узлах. Число узлов, на которых должен быть размещен каждый блок, определяются в настройках файла.

Репликация обеспечивает устойчивость распределенной системы к отказам отдельных узлов. Файлы в данной системе могут быть записаны единожды, а запись может вести только один процесс.

Файлы имеют иерархическую организацию: корневой каталог, вложение каталогов, в одном каталоге располагаются и файлы, и прочие каталоги.

Узел имен отвечает за обработку операций открытия и закрытия уровня файлов и каталогов. Узлы данных отрабатывают операции по записи/чтению данных. Узел имен и узлы данных снабжаются веб-серверами, отображающими текущий статус узлов и позволяющими просматривать содержимое файловой системы. Административные функции доступны из интерфейса командной строки.

#