Apache Flume
Apache Flume je distribuovaná, spolehlivá a dostupná služba pro efektivní sběr, agregaci a přesuny velkého množství logovacích dat. Její hlavní účel je doručovat data z aplikací do Hadoop HDFS. Má jednoduchou a flexibilní architekturu založenou na streamování dat. Je robustní a odolná proti chybám s nastavitelným mechanismem pro spolehlivost a mnoha failover a recovery mechanismy. Používá jednoduchý a rozšiřitelný datový model, který umožňuje přístup přes online analytické aplikace.
Flume dovoluje uživatelům Hadoopu streamovat velké objemy dat do HDFS:
– Streamovat data do Hadoopu z více zdrojů – typické příklady jsou aplikační logy, data ze sensorů a přístrojů, geolokační data atd.
– Využívat mezipaměť v případech, kdy je ve špičkách objem příchozích dat větší než rychlost s jakou mohou být ukládány
– Flume NG používá transakce formou kanálů pro garanci spolehlivého doručení zpráv. Když se zpráva přesunuje od jednoho agenta k druhému, jsou zahájeny dvě transakce. Jedna na agentu, který zprávu doručuje a druhá na přijímajícím agentu. To zajišťuje garantovanou sémantiku doručení.
Behaim s Flume pracuje dva roky, kdy provádíme instalace, nastavení, konfigurace a produkční nasazení, a také implementaci Flume komponent (zdroje, kanály, sinks, agenty apod.), včetně integrace s dalšími aplikacemi.