Варианты подключения и интеграции Hadoop с Oracle

Я перечислю различные инструменты и библиотеки, доступные американским разработчикам для интеграции Oracle и Hadoop. Описанный ниже Oracle SQL Connector для HDFS более подробно описан в следующей статье.Подводя итог, можно сказать, что у нас есть Sqoop, изначально разработанный Cloudera, а теперь являющийся частью Apache, плагин Sqoop от MapQuest и Oracle Big Data connectors в виде семейства из четырех отдельных продуктов: Oracle Loader для Hadoop (OLH), Oracle SQL Connector для HDFS, Oracle R Connector для Hadoop и Oracle Data Integrator Application Adapter для Hadoop.

Sqoop

Apache Sqoop описывает себя как инструмент, предназначенный для эффективной передачи больших объемов данных между Apache Hadoop и структурированными хранилищами данных, такими как реляционные хранилища данных. базы данных. В этом смысле это ни в коем случае не ограничивается Oracle.

Я лично активно использовал Sqoop для импорта полных баз данных из Oracle. Вот мой опыт. В целом, это работает отлично, но мне не пришлось импортировать базы данных большего размера, чем за 1 раз, что относительно незначительно с точки зрения нагрузочного тестирования. Сопоставление между Oracle и Hive работает нормально, но с некоторыми сбоями. Тип необработанных данных не обрабатывается. Чтобы обойти это ограничение, вы можете использовать columnsoption для фильтрации этих столбцов, вы можете использовать map-column-hive для принудительного приведения к строковому типу или вы можете использовать свой собственный оператор SQL import для фильтрации или преобразования необработанных столбцов. Я также помню, что у меня возникли некоторые проблемы с заполнением столбцов пробелом, но я не могу вспомнить, в какой именно ситуации. Также обратите внимание, что по сравнению с вариантами импорта, предлагаемыми Sqoop, возможности экспорта более ограничены и не интегрированы с Hive.

Плагин Quest Sqoop

Quest, редактор знаменитого семейства продуктов Toad, предоставляет плагин для Apache Sqoop, который позволяет передавать данные в двух направлениях между Oracle и Hadoop. Он предназначен для того, чтобы конкурировать с собственной реализацией Oracle, представленной в Sqoop, и рекламировать себя как более чем в пять раз более быструю. Это бесплатный подключаемый модуль с открытым исходным кодом для SQOOP, лицензируемый по лицензии Apache 2.0. Более подробная информация в этом блоге.

Oracle Big Data connectors

Oracle Big Data connectors — это набор из 4 продуктов. С помощью Oracle SQL Connector пользователь пишет запросы Oracle SQL, которые выполняются для внешней таблицы, ссылающейся на файлы, хранящиеся в формате HDFS. С помощью Oracle Data Integrator пользователь использует графические инструменты, которые генерируют HiveQL, которые, в свою очередь, генерируют собственные программы для уменьшения размера карты.

Oracle Loader for Hadoop (OLH)

Использует обработку MapReduce для форматирования и эффективной загрузки данных в базу данных Oracle для анализа. Соединитель автоматически создает внешнюю таблицу Oracle Database с поддержкой OSCH, которая ссылается на файлы, хранящиеся в HDFS. Полный доступ к SQL позволяет пользователям объединять данные в HDFS с данными, хранящимися в Oracle Database, применять аналитические функции, загружать данные в таблицы и многое другое.

Опция загрузки в режиме реального времени:
Узлы-редукторы подключаются к базе данных для загрузки, используя JDBC или параметры загрузки по прямому пути
Опция загрузки в автономном режиме:
Узлы-редукторы записывают двоичные файлы Oracle Data Pump или текстовые файлы с разделителями для загрузки в базу данных.
Балансировка нагрузки:
“Идеальный баланс” равномерно распределяет работу между всеми редукторами.
Форматы ввода:
Поддерживает несколько форматов ввода: текстовые файлы с разделителями, регулярные выражения, Oracle NoSQL Базы данных, Avro, таблицы Hive или пользовательские входные данные.

Oracle Loader для Hadoop — это приложение MapReduce, которое вызывается как утилита командной строки. Он принимает общие параметры командной строки, которые поддерживаются интерфейсом инструмента. Драйвер OLH использует Sqoop для выполнения операций, которые Oracle Loader для Hadoop не поддерживает.

Существует два режима загрузки данных в базу данных Oracle из кластера Hadoop:

Режим оперативной базы данных:
Данные загружаются в база данных, использующая либо выходной формат JDBC, либо выходной формат OCI Direct Path. Формат вывода OCI Direct Path обеспечивает высокопроизводительную загрузку целевой таблицы по прямому пути. Формат вывода JDBC выполняет загрузку по обычному пути.

Автономный режим работы с базой данных:
Узлы-редукторы создают выходные файлы в двоичном или текстовом формате. Выходной формат Data Pump создает файлы двоичного формата, готовые к загрузке в базу данных Oracle с использованием внешней таблицы и драйвера доступа ORACLE_DATAPUMP. Выходной формат текста с разделителями создает текстовые файлы в формате записей с разделителями. (Обычно это называется форматом значений, разделенных запятой (CSV), когда разделителем является запятая.) Эти текстовые файлы готовы к загрузке в базу данных Oracle с помощью внешней таблицы и драйвера доступа ORACLE_LOADER. Файлы также могут быть загружены с помощью утилиты SQL*Loader.

Oracle SQL Connector для HDFS

Позволяет Oracle Database беспрепятственно получать доступ к данным из распределенной файловой системы Hadoop (HDFS), обеспечивая обработку SQL.

Прямой доступ к SQL:
Запрос таблиц и файлов Hive в HDFS непосредственно из базы данных Oracle.
Параллельный запрос:
Быстрый и эффективный параллельный запрос данных в HDFS.
Автоматический Создание таблиц:
Легко генерируйте внешние таблицы Oracle для доступа к данным в формате HDFS.

Как уже говорилось ранее, дополнительная информация доступна в другом сообщении в блоге.

Oracle R Connector для Hadoop

Предоставляет пользователям R высокопроизводительный собственный доступ к распределенной файловой системе Hadoop (HDFS) и платформе программирования MapReduce. Он использует Sqoop для доступа к базе данных Oracle.

Интерактивный R-доступ к HDFS:
Манипулируйте и исследуйте данные в HDFS с помощью функций R; Используя простые R-функции, перемещайте данные между HDFS и R, базой данных Oracle и локальной файловой системой пользователя

Адаптер приложений Oracle Data Integrator для Hadoop

Он упрощает интеграцию данных между Oracle Data Integrator (ODI) и Hadoop с помощью простого в использовании интерфейса. ODI генерирует оптимизированный HiveQL, который, в свою очередь, генерирует собственные программы Map Reduce, которые выполняются в кластере Hadoop.

Оптимизирован для повышения производительности разработчиков:
Знакомый графический пользовательский интерфейс ODI; Сквозная координация заданий Hadoop; Упрощение заданий, создаваемых и организуемых ODI.
Встроенная интеграция с Hadoop:
Встроенная интеграция с Hadoop с использованием Hive; Возможность представления метаданных Hive в ODI; Преобразования и фильтрация выполняются непосредственно в Hadoop; Преобразования написаны на SQL-подобном языке HiveQL
Оптимизированы для повышения производительности: Оптимизированы модули знаний Hadoop ODI; Высокая производительность загрузки базы данных Oracle с помощью ODI с Oracle Loader для Hadoop; Возможность настройки и запуска Oracle Loader для Hadoop и Oracle SQL Connector для HDFS.

Другие новости:

Apple Vision Pro – Мой честный обзор

Prophter XL от Elgato огромен, тяжел и является именно тем, что нужно профессионалам

Лучшие инструменты мониторинга веб-сайтов для анализа производительности в режиме реального времени

Как загрузить электронную почту из сетевых решений на компьютер?

Вот все, что было исправлено в октябрьском патче Pixel