Главная страница Новости кинофильмов Игровые новости Новости спорта Новости технологий

HDFS и Hive Storage — сравнение форматов файлов и методов сжатия

Новости

Несколько дней назад мы провели тест, чтобы сравнить различные форматы файлов Hive и методы сжатия. Некоторые из этих форматов файлов являются собственными для HDFS и применимы ко всем пользователям Hadoop. Набор тестов состоит из аналогичных запросов Hive, которые создают таблицу, в конечном итоге устанавливают тип сжатия и загружают тот же набор данных в новую таблицу. Среди всех запросов мы протестировали форматы “файл последовательности”, “текстовый файл” и “RCFILE”, а также кодеки сжатия “default”, “bz”, “gz”, “LZO” и “Snappy”.

4 апреля 2012: Ответ на комментарий Хучева относительно LZ4.

Настройка

Среда представляет собой кластер Hadoop объемом 20 узлов и 120 терабайт, работающий под управлением Cloudera. CDH3U3. Исходный набор данных представляет собой папку 1.33 Go с 80 сжатыми и нерасщепляемыми файлами “bz2” внутри. Данные внутри отформатированы в формате CSV и содержат в общей сложности около 125 000 000 строк.

Ниже приведен пример запроса Hive, импортирующего данные с использованием “RCFILE” из формата HBase со сжатием “LZO”:

_BOS_ Подготовьте ТАБЛИЦУ СОЗДАНИЯ rc_lzo (клиентский BIGINT, ctime INT, mtime INT, строка кода, value_1 INT, value_2 INT ). СОХРАНЯЕТСЯ КАК RCFILE; — При сжатии УСТАНОВИТЕ hive.exec.compress.output=true; УСТАНОВИТЕ mapred.output.compression.codec=com.hadoop.compression.lzo.LzoCodec; — ИМПОРТИРУЙТЕ, ВСТАВЬТЕ, ПЕРЕЗАПИШИТЕ ТАБЛИЦУ rc_lzo, ВЫБЕРИТЕ * ИЗ ( ВЫБЕРИТЕ клиент, округлите(ctime/1000), округлите(mtime/1000), код, значение_1, значение_2 ИЗ промежуточного этапа ) T;

Результаты

В таблице ниже приведены результаты, которые мы получили. Столбцы запроса описывают тип теста. Название запроса начинается с формата файла, за которым следует кодек сжатия. Сообщалось о типах сжатия “блок” и “запись” для формата “файл последовательности” и кодека сжатия “по умолчанию”.

Семейство запросов “serdesf” использует пользовательский SerDe, который при необходимости кодирует каждый столбец в меньшем размере. В нашем случае код может быть сохранен в виде 1 символа (1 байта), значение_2 может быть представлено как разница между ним и значением_1 (2 байта). В целом, строка хранится в виде 16 байт по сравнению с 65 байтами изначально.

Запрос “bss” использует сериализацию BinarySortableSerDe, которая представляет собой пользовательский набор данных Hive, который мы связали с форматом “файл последовательности”.

на “b64” семья запросов использует пакет base64 в настоящее время в проекте куст ВНО.

<таблица class="мин-ж-полный границу-отдельная граница-интервал-0"> <ТР> запрос<й class="липкий топ-0 з-10 границы-границы б-серо-500 БГ-шифер-200 БГ-непрозрачность-85 РУ-3.5 ПЛ-4 пр-3 текст-слева текст-см шрифт-полужирный текст-серо-900 фона-размытие фона-фильтр см модель:PL-6 для LG:ПЛ-8">Время<й class="липкий топ-0 з-10 границы-границы б-серо-500 БГ-шифер-200 БГ-непрозрачность-85 РУ-3.5 ПЛ-4 пр-3 текст-слева текст-см шрифт-полужирный текст-серо-900 фона-размытие фона-фильтр см модель:PL-6 ЛГ:ПЛ-8">размер <элемента tbody class="[&_tr:п-й ребенок(нечетные)]:БГ-белый [&_tr:п-й ребенок(даже)]:БГ-шифер-50"> <тр> <тд class="пробел-без переноса границы-границы б-серо-200 РУ-2, МН-4 пр-3 текст-см шрифта-Средний текст-серо-900 см модель:PL-6 для LG:ПЛ-8">СФ<тд class="пробел-без переноса границы-границы б-серо-200 РУ-2, МН-4 пр-3 текст-см шрифта-Средний текст-серо-900 см модель:PL-6 для LG:ПЛ-8">2мин 3С<тд class="пробел-без переноса границы-границы б-серо-200 РУ-2, МН-4 пр-3 текст-см шрифта-Средний текст-серо-900 см модель:PL-6 для LG:ПЛ-8">7.91 перейти <тр> <тд class="пробел-без переноса границы-границы б-серо-200 РУ-2, МН-4 пр-3 текст-см шрифта-Средний текст-серо-900 см модель:PL-6 для LG:ПЛ-8">sf_string<тд class="пробел-без переноса границы-границы б-серо-200 РУ-2, МН-4 пр-3 текст-см шрифта-Средний текст-серо-900 см модель:PL-6 для LG:ПЛ-8">2мин 22С<тд class="пробел-без переноса границы-границы б-серо-200 РУ-2, МН-4 пр-3 текст-см шрифта-Средний текст-серо-900 см модель:PL-6 для LG:ПЛ-8">8.72 перейти <тр> <тд class="пробел-без переноса границы-границы б-серо-200 РУ-2, МН-4 пр-3 текст-см шрифта-Средний текст-серо-900 см модель:PL-6 для LG:ПЛ-8">sf_df_block<тд class="пробел-без переноса границы-границы б-серо-200 РУ-2, МН-4 пр-3 текст-см шрифта-Средний текст-серо-900 см модель:PL-6 для LG:ПЛ-8">2мин 17С<тд class="пробел-без переноса границы-границы б-серо-200 РУ-2, МН-4 пр-3 текст-см шрифта-Средний текст-серо-900 см модель:PL-6 для LG:ПЛ-8">8.72 перейти <тр> <тд class="пробел-без переноса границы-границы б-серо-200 РУ-2, МН-4 пр-3 текст-см шрифта-Средний текст-серо-900 см модель:PL-6 для LG:ПЛ-8">sf_df_record<тд class="пробел-без переноса границы-границы б-серо-200 РУ-2, МН-4 пр-3 текст-см шрифта-Средний текст-серо-900 см модель:PL-6 для LG:ПЛ-8">2мин 12сек<тд class="пробел-без переноса границы-границы б-серо-200 РУ-2, МН-4 пр-3 текст-см шрифта-Средний текст-серо-900 см модель:PL-6 для LG:ПЛ-8">7.32 перейти <тр> <тд class="пробел-без переноса границы-границы б-серо-200 РУ-2, МН-4 пр-3 текст-см шрифта-Средний текст-серо-900 см модель:PL-6 для LG:ПЛ-8">sf_bz<тд class="пробел-без переноса границы-границы б-серо-200 РУ-2, МН-4 пр-3 текст-см шрифта-Средний текст-серо-900 см модель:PL-6 для LG:ПЛ-8">2ч 43mn 24С<тд class="пробел-без переноса границы-границы б-серо-200 РУ-2, МН-4 пр-3 текст-см шрифта-Средний текст-серо-900 см модель:PL-6 для LG:ПЛ-8">9.9 перейти <тр> <тд class="пробел-без переноса границы-границы б-серо-200 РУ-2, МН-4 пр-3 текст-см шрифта-Средний текст-серо-900 см модель:PL-6 для LG:ПЛ-8">sf_gz<тд class="пробел-без переноса границы-границы б-серо-200 РУ-2, МН-4 пр-3 текст-см шрифта-Средний текст-серо-900 см модель:PL-6 для LG:ПЛ-8">2мин 29С<тд class="пробел-без переноса границы-границы б-серо-200 РУ-2, МН-4 пр-3 текст-см шрифта-Средний текст-серо-900 см модель:PL-6 для LG:ПЛ-8">8.72 перейти <тр> <тд class="пробел-без переноса границы-границы б-серо-200 РУ-2, МН-4 пр-3 текст-см шрифта-Средний текст-серо-900 см модель:PL-6 для LG:ПЛ-8">sf_lzo<тд class="пробел-без переноса границы-границы б-серо-200 РУ-2, МН-4 пр-3 текст-см шрифта-Средний текст-серо-900 см модель:PL-6 для LG:ПЛ-8">2мин 36С<тд class="пробел-без переноса границы-границы б-серо-200 РУ-2, МН-4 пр-3 текст-см шрифта-Средний текст-серо-900 см модель:PL-6 для LG:ПЛ-8">8.80 перейти <тр> <тд class="пробел-без переноса границы-границы б-серо-200 РУ-2, МН-4 пр-3 текст-см шрифта-Средний текст-серо-900 см модель:PL-6 для LG:ПЛ-8">sf_snappy<тд class="пробел-без переноса границы-границы б-серо-200 РУ-2, МН-4 пр-3 текст-см шрифта-Средний текст-серо-900 см модель:PL-6 для LG:ПЛ-8">3млн 55 сек<тд class="пробел-без переноса границы-границы б-серо-200 РУ-2, МН-4 пр-3 текст-см шрифта-Средний текст-серо-900 см модель:PL-6 для LG:ПЛ-8">8.23 перейти <тр> <тд class="пробел-без переноса границы-границы б-серо-200 РУ-2, МН-4 пр-3 текст-см шрифта-Средний текст-серо-900 см модель:PL-6 для LG:ПЛ-8">ТФ<тд class="пробел-без переноса границы-границы б-серо-200 РУ-2, МН-4 пр-3 текст-см шрифта-Средний текст-серо-900 см модель:PL-6 для LG:ПЛ-8">1мн 45 об/мин<тд class="пробел-без переноса границы-границы б-серо-200 РУ-2, МН-4 пр-3 текст-см шрифта-Средний текст-серо-900 см модель:PL-6 для LG:ПЛ-8">6.44 перейти <тр> <тд class="пробел-без переноса границы-границы б-серо-200 РУ-2, МН-4 пр-3 текст-см шрифта-Средний текст-серо-900 см модель:PL-6 для LG:ПЛ-8">tf_bz<тд class="пробел-без переноса границы-границы б-серо-200 РУ-2, МН-4 пр-3 текст-см шрифта-Средний текст-серо-900 см модель:PL-6 для LG:ПЛ-8">2мин 14С<тд class="пробел-без переноса границы-границы б-серо-200 РУ-2, МН-4 пр-3 текст-см шрифта-Средний текст-серо-900 см модель:PL-6 для LG:ПЛ-8">1.12 перейти <тр> <тд class="пробел-без переноса границы-границы б-серо-200 РУ-2, МН-4 пр-3 текст-см шрифта-Средний текст-серо-900 см модель:PL-6 для LG:ПЛ-8">tf_df<тд class="пробел-без переноса границы-границы б-серо-200 РУ-2, МН-4 пр-3 текст-см шрифта-Средний текст-серо-900 см модель:PL-6 для LG:ПЛ-8">2мин 16С<тд class="пробел-без переноса границы-границы б-серо-200 РУ-2, МН-4 пр-3 текст-см шрифта-Средний текст-серо-900 см модель:PL-6 для LG:ПЛ-8">1.12 перейти <тр> <тд class="пробел-без переноса границы-границы б-серо-200 РУ-2, МН-4 пр-3 текст-см шрифта-Средний текст-серо-900 см модель:PL-6 для LG:ПЛ-8">tf_gz<тд class="пробел-без переноса границы-границы б-серо-200 РУ-2, МН-4 пр-3 текст-см шрифта-Средний текст-серо-900 см модель:PL-6 для LG:ПЛ-8">48С<тд class="пробел-без переноса границы-границы б-серо-200 РУ-2, МН-4 пр-3 текст-см шрифта-Средний текст-серо-900 см модель:PL-6 для LG:ПЛ-8">1.34 перейти <тр> <тд class="пробел-без переноса границы-границы б-серо-200 РУ-2, МН-4 пр-3 текст-см шрифта-Средний текст-серо-900 см модель:PL-6 для LG:ПЛ-8">tf_lzo<тд class="пробел-без переноса границы-границы б-серо-200 РУ-2, МН-4 пр-3 текст-см шрифта-Средний текст-серо-900 см модель:PL-6 для LG:ПЛ-8">1мн 28С<тд class="пробел-без переноса границы-границы б-серо-200 РУ-2, МН-4 пр-3 текст-см шрифта-Средний текст-серо-900 см модель:PL-6 для LG:ПЛ-8">2.41 перейти <тр> <тд class="пробел-без переноса границы-границы б-серо-200 РУ-2, МН-4 пр-3 текст-см шрифта-Средний текст-серо-900 см модель:PL-6 для LG:ПЛ-8">tf_snappy<тд class="пробел-без переноса границы-границы б-серо-200 РУ-2, МН-4 пр-3 текст-см шрифта-Средний текст-серо-900 см:ЛП-6ЛГ:ПЛ-8">1мн 2С<тд class="пробел-без переноса границы-границы б-серо-200 РУ-2, МН-4 пр-3 текст-см шрифта-Средний текст-серо-900 см модель:PL-6 для LG:ПЛ-8">2.55 перейти <тр> <тд class="пробел-без переноса границы-границы б-серо-200 РУ-2, МН-4 пр-3 текст-см шрифта-Средний текст-серо-900 см модель:PL-6 для LG:ПЛ-8">вертолет<тд class="пробел-без переноса границы-границы б-серо-200 РУ-2, МН-4 пр-3 текст-см шрифта-Средний текст-серо-900 см модель:PL-6 для LG:ПЛ-8">1мн 30-х годов<тд class="пробел-без переноса границы-границы б-серо-200 РУ-2, МН-4 пр-3 текст-см шрифта-Средний текст-серо-900 см модель:PL-6 для LG:ПЛ-8">5.78 перейти <тр> <тд class="пробел-без переноса границы-границы б-серо-200 РУ-2, МН-4 пр-3 текст-см шрифта-Средний текст-серо-900 см модель:PL-6 для LG:ПЛ-8">rc_df<тд class="пробел-без переноса границы-границы б-серо-200 РУ-2, МН-4 пр-3 текст-см шрифта-Средний текст-серо-900 см модель:PL-6 для LG:ПЛ-8">5мин 15С<тд class="пробел-без переноса границы-границы б-серо-200 РУ-2, МН-4 пр-3 текст-см шрифта-Средний текст-серо-900 см модель:PL-6 для LG:ПЛ-8">917.68 МО <тр> <тд class="пробел-без переноса границы-границы б-серо-200 РУ-2, МН-4 пр-3 текст-см шрифта-Средний текст-серо-900 см модель:PL-6 для LG:ПЛ-8">rc_gz<тд class="пробел-без переноса границы-границы б-серо-200 РУ-2, МН-4 пр-3 текст-см шрифта-Средний текст-серо-900 см модель:PL-6 для LG:ПЛ-8">4млн 36С<тд class="пробел-без переноса границы-границы б-серо-200 РУ-2, МН-4 пр-3 текст-см шрифта-Средний текст-серо-900 см модель:PL-6 для LG:ПЛ-8">917.80 МО <тр> <тд class="пробел-без переноса границы-границы б-серо-200 РУ-2, МН-4 пр-3 текст-см шрифта-Средний текст-серо-900 см модель:PL-6 для LG:ПЛ-8">rc_snappy<тд class="пробел-без переноса границы-границы б-серо-200 РУ-2, МН-4 пр-3 текст-см шрифта-Средний текст-серо-900 см модель:PL-6 для LG:ПЛ-8">52С<тд class="пробел-без переноса границы-границы б-серо-200 РУ-2, МН-4 пр-3 текст-см шрифта-Средний текст-серо-900 см модель:PL-6 для LG:ПЛ-8">1.85 перейти <тр> <тд class="пробел-без переноса границы-границы б-серо-200 РУ-2, МН-4 пр-3 текст-см шрифта-Средний текст-серо-900 см модель:PL-6 для LG:ПЛ-8">rc_lzo<тд class="пробел-без переноса границы-границы б-серо-200 РУ-2, МН-4 пр-3 текст-см шрифта-Средний текст-серо-900 см модель:PL-6 для LG:ПЛ-8">38С<тд class="пробел-без переноса границы-границы б-серо-200 РУ-2, МН-4 пр-3 текст-см шрифта-Средний текст-серо-900 см модель:PL-6 для LG:ПЛ-8">1.67 перейти <тр> <тд class="пробел-без переноса границы-границы б-серо-200 РУ-2, МН-4 пр-3 текст-см шрифта-Средний текст-серо-900 см модель:PL-6 для LG:ПЛ-8">serdesf<тд class="пробел-без переноса границы-границы б-серо-200 РУ-2, МН-4 пр-3 текст-см шрифта-Средний текст-серо-900 см модель:PL-6 для LG:ПЛ-8">59с<тд class="пробел-без переноса границы-границы б-серо-200 РУ-2, МН-4 пр-3 текст-см шрифта-Средний текст-серо-900 см модель:PL-6 для LG:ПЛ-8">3.63 перейти <тр> <тд class="пробел-без переноса границы-границы б-серо-200 РУ-2, МН-4 пр-3 текст-см шрифта-Средний текст-серо-900 см модель:PL-6 для LG:ПЛ-8">serdesf_df<тд class="пробел-без переноса границы-границы б-серо-200 РУ-2, МН-4 пр-3 текст-см шрифта-Средний текст-серо-900 см модель:PL-6 для LG:ПЛ-8">1мн 27С<тд class="пробел-без переноса границы-границы б-серо-200 РУ-2, МН-4 пр-3 текст-см шрифта-Средний текст-серо-900 см модель:PL-6 для LG:ПЛ-8">4.61 перейти <тр> <тд class="пробел-без переноса границы-границы б-серо-200 РУ-2, МН-4 пр-3 текст-см шрифта-Средний текст-серо-900 см модель:PL-6 для LG:ПЛ-8">serdesf_bz<тд class="пробел-без переноса границы-границы б-серо-200 РУ-2, МН-4 пр-3 текст-см шрифта-Средний текст-серо-900 см модель:PL-6 для LG:ПЛ-8">3ч 6млн 9С<тд class="пробел-без переноса границы-границы б-серо-200 РУ-2, МН-4 пр-3 текст-см шрифта-Средний текст-серо-900 см модель:PL-6 для LG:ПЛ-8">9.63 перейти <тр> <тд class="пробел-без переноса границы-границы б-серо-200 РУ-2, МН-4 пр-3 текст-см шрифта-Средний текст-серо-900 см модель:PL-6 для LG:ПЛ-8">serdesf_gz<тд class="пробел-без переноса границы-границы б-серо-200 РУ-2, МН-4 пр-3 текст-см шрифта-Средний текст-серо-900 см модель:PL-6 для LG:ПЛ-8">1мн 51С<тд class="пробел-без переноса границы-границы б-серо-200 РУ-2, МН-4 пр-3 текст-см шрифта-Средний текст-серо-900 см модель:PL-6 для LG:ПЛ-8">6.02 перейти <тр> <тд class="пробел-без переноса границы-границы б-серо-200 РУ-2, МН-4 пр-3 текст-см шрифта-Средний текст-серо-900 см модель:PL-6 для LG:ПЛ-8">serdesf_snappy<тд class="пробел-без переноса границы-границы б-серо-200 РУ-2, МН-4 пр-3 текст-см шрифта-Средний текст-серо-900 см модель:PL-6 для LG:ПЛ-8">1мн 35С<тд class="пробел-без переноса границы-границы б-серо-200 РУ-2, МН-4 пр-3 текст-см шрифта-Средний текст-серо-900 см модель:PL-6 для LG:ПЛ-8">4.80 перейти <тр> <тд class="пробел-без переноса границы-границы б-серо-200 РУ-2, МН-4 пр-3 текст-см шрифта-Средний текст-серо-900 см модель:PL-6 для LG:ПЛ-8">БСС<тд class="пробел-без переноса границы-границы б-серо-200 РУ-2, МН-4 пр-3 текст-см шрифта-Средний текст-серо-900 см модель:PL-6 для LG:ПЛ-8">1мн 25С<тд class="пробел-без переноса границы-границы б-серо-200 РУ-2, МН-4 пр-3 текст-см шрифта-Средний текст-серо-900 см модель:PL-6 для LG:ПЛ-8">5.73 перейти <тр> <тд class="пробел-без переноса границы-границы б-серо-200 РУ-2, МН-4 пр-3 текст-см шрифта-Средний текст-серо-900 см модель:PL-6 для LG:ПЛ-8">b64<тд class="пробел-без переноса границы-границы б-серо-200 РУ-2, МН-4 пр-3 текст-см шрифта-Средний текст-серо-900 см модель:PL-6 для LG:ПЛ-8">2мин 5С<тд class="пробел-без переноса границы-границы б-серо-200 РУ-2, МН-4 пр-3 текст-см шрифта-Средний текст-серо-900 см модель:PL-6 для LG:ПЛ-8">9.17 перейти <тр> <тд class="пробел-без переноса границы-границы б-серо-200 РУ-2, МН-4 пр-3 текст-см шрифта-Средний текст-серо-900 см модель:PL-6 для LG:ПЛ-8">b64_bz<тд class="пробел-без переноса границы-границы б-серо-200 РУ-2, МН-4 пр-3 текст-см шрифта-Средний текст-серо-900 см модель:PL-6 для LG:ПЛ-8">21млн 15С<тд class="пробел-без переноса границы-границы б-серо-200 РУ-2, МН-4 пр-3 текст-см шрифта-Средний текст-серо-900 см модель:PL-6 для LG:ПЛ-8">1.14 перейти <тр> <тд class="пробел-без переноса границы-границы б-серо-200 РУ-2, МН-4 пр-3 текст-см шрифта-Средний текст-серо-900 см модель:PL-6 для LG:ПЛ-8">b64_df<тд class="пробел-без переноса границы-границы б-серо-200 РУ-2, МН-4 пр-3 текст-см шрифта-Средний текст-серо-900 см модель:PL-6 для LG:ПЛ-8">21млн 25С<тд class="пробел-без переноса границы-границы б-серо-200 РУ-2, МН-4 пр-3 текст-см шрифта-Средний текст-серо-900 см модель:PL-6 для LG:ПЛ-8">1.14 перейти <тр> <тд class="пробел-без переноса границы-границы б-серо-200 РУ-2, МН-4 пр-3 текст-см шрифта-Средний текст-серо-900 см модель:PL-6 для LG:ПЛ-8">b64_gz<тд class="пробел-без переноса границы-границы б-серо-200 РУ-2, МН-4 пр-3 текст-см шрифта-Средний текст-серо-900 см модель:PL-6 для LG:ПЛ-8">53С<тд class="пробел-без переноса границы-границы б-серо-200 РУ-2, МН-4 пр-3 текст-см шрифта-Средний текст-серо-900 см модель:PL-6 для LG:ПЛ-8">1.62 перейти <тр> <тд class="пробел-без переноса границы-границы б-серо-200 РУ-2, МН-4 пр-3 текст-см шрифта-Средний текст-серо-900 см модель:PL-6 для LG:ПЛ-8">b64_snappy<тд class="пробел-без переноса границы-границы б-серо-200 РУ-2, МН-4 пр-3 текст-см шрифта-Средний текст-серо-900 см модель:PL-6 для LG:ПЛ-8">59с<тд class="пробел-без переноса границы-границы б-серо-200 РУ-2, МН-4 пр-3 текст-см шрифта-Средний текст-серо-900 см модель:PL-6 ЛГ:ПЛ-8">2.89 перейти

Заметки

мы хотели бы запустить тесты по большим набором входных данных с более распространенным форматом а кластер время является дефицитным ресурсом на данный момент. В результате размеры файлов, вероятно, являются репрезентативными, но результаты по скорости следует интерпретировать с осторожностью.

Скорость зависит только от времени импорта (при использовании нестандартных файлов в качестве входных данных), а не от того, насколько быстро эти форматы сопоставляются с заданиями map/reduce.

В рамках теста мы также протестировали блочный тип сжатия на других типах кодеков но они не возымели никакого эффекта, поэтому мы пришли к выводу, что тип блока применяется только к кодеку по умолчанию в файлах последовательности.

Мы попытались запустить тест serdesf в аналогичном режиме, но используя формат RCFILE вместо файла последовательности, но результаты идентичны запросам семейства rc.

Интерпретация

Запрос “tf” действует как ссылка, поскольку он хранит наши данные в несжатом формате CSV. Немного неудобно видеть, что все запросы “файл последовательности” генерируют файл большего размера. Это не то, чего мы ожидали, но, возможно, это связано с тем, что мы часто используем тип integer.

С точки зрения размера файла, формат “RCFILE” со сжатием “по умолчанию” и “gz” дает наилучшие результаты. Сервер “base64”, использующий “файл последовательности” со сжатием “bz” и “по умолчанию”, не так уж далек от этого. Однако результаты “base64” достаточно медленные, чтобы их можно было обойти.

С точки зрения скорости, форматы “RCFILE” с “lzo” и “snappy” работают очень быстро, сохраняя при этом высокую степень сжатия.

О LZ4

Мы не тестировали LZ4. Исходя из нашего понимания HADOOP-7657, поддержка LZ4 предназначена для Hadoop версий 0.23.1, 0.24.0 и не перенесена в нашу запущенную Cloudera CDH3U3. Если вам интересно узнать о LZ4, вот интересная статья, в которой сравниваются LZ4 и Snappy. Также стоит отметить тест самых быстрых компрессоров в памяти.


Другие новости: