Apache Sqoop
Sqoop je command-line nástroj pro efektivní obousměrné přenosy dat mezi Hadoopem a strukturovanými datovými úložišti jako jsou relační databáze. Název Sqoop vznikl kombinací názvů SQL and Hadoop. Sqoop se stal populárním Apache projektem v březnu 2012.
Sqoop dovoluje provádět v offline módu některé úlohy (např. ETL zpracování) z EDW do Hadoopu díky efektivnímu zpracování a nízkým nárokům na systémové zdroje. Sqoop může být také použit pro export dat z Hadoopu do externí strukturované databáze. Sqoop pracuje s relačními databázemi jako Oracle, Microsoft SQL Server, Teradata, Oracle, MySQL, Postgres a HSQLDB.
Podporuje inkrementální plnění jedné tabulky nebo free-form SQL dotazy, případně uložené joby spouštěné opakovaně a provádějící import změn provedených do databáze od předchozího importu. Importy mohou také plnit tabulky v Hive nebo HBase.
Behaim má Apache Sqoop několik let zkušeností s typickými činnostmi jako:
- Příprava a provádění importních skriptů (včetně inkrementálních plnění)
- Příprava a provádění exportních skriptů
- Optimalizace datových úložišť (formát souborů parquet atd.)