Video: What is a Data Lake? (Listopad 2024)
Revoluce Big Data předefinovala způsob práce podniků; data podporují vše. Nejen, že nástroje s otevřeným zdrojovým kódem, jako jsou Apache Hadoop a Spark, usnadnily shromažďování, zpracování a ukládání velkého množství dat v reálném čase, ale nástroje business intelligence (BI) a vizualizace dat nám začaly pomáhat poškrábat povrch analýzy a transformace těchto dat k informování klíčových obchodních rozhodnutí.
Přestože se vyvinula technologie Big Data a BI, stále se zabýváme tak obrovskými objemy neustále se skládajících dat, že nalezení správných bodů pro analýzu stále vypadá jako potápění pro jehly v nekonečném kupce sena. Řešení? Přepracování kupce sena.
Zadejte datová jezera, nový typ podnikové architektury založené na cloudu, který strukturuje data škálovatelnějším způsobem, což usnadňuje experimentování; dělá to více otevřený průzkumu a manipulaci, spíše než zamčené v rigidních schématech a silech. Nasry Angel, výzkumník podnikové architektury ve společnosti Forrester Research, vysvětlil, proč podniky přijímají architektury datových jezer.
"Zní to klišé, ale když přemýšlíte o účinném moderním datovém prostředí, je to mnohem experimentálnější, " řekl Angel. „Musíte se naučit rychle a rychle selhat. V minulosti byla správa dat, zejména ve skladu, o kvalitě, až po desetinnou čárku; ujistěte se, že všechno bylo úplně přesné a pravdivé. verze pravdy. Poté vygenerujte zprávu perfektní pro pixel a odstartujte ji na 5 000 uživatelů.
"V dnešní době je to více vědecký proces. Vycházíte s hypotézou o datech, která chcete testovat, a chcete si s nimi hrát, smíchat a porovnávat, vyzkoušet různé věci, než odejdete a něco vyprodukujete.""
Co je v datovém jezeře?
Datové jezero je úložiště úložišť. Ačkoli, na rozdíl od datového skladu nebo „datového mart“, Angel vysvětlil, že datová jezera jsou distribuována spíše na více uzlech, než ve fixním strukturovaném prostředí datového skladu, které se spoléhá na schémata (viz infographic níže).
„Datové jezero vám umožňuje aplikovat schéma, když píšete data versus datový sklad, který vyžaduje, abyste provedli čtení na schématu. Takže datový sklad v podstatě vyžaduje, abyste data modelovali dříve, než pochopíte její kontext, což nevede Opravdu to nedává smysl, “řekl Angel.
Zdroj: JustOne Database, Inc. (Kliknutím na obrázek výše zobrazíte celé zobrazení.)
"Ve skladu obvykle přicházejí IT profesionálové s tím, co považují za nejlepší datové modely, a nejedná se o případné uživatele dat. Můžete rychle zjistit, jak to brání produktivitě a obchodní hodnotě, " dodal.. „Nakonec musíte být vy a firemní uživatelé takoví, kdo rozhodují o struktuře dat, a v datovém jezeře můžete nejprve prozkoumat a zjistit, co je tam, a pak vymyslet schéma, které je nejlépe uspořádat.“
Datová jezera jsou obvykle postavena na Hadoopu a podnikové distribuce Hadoop, jako jsou Hortonworks a MapR, nabízejí architektury datových jezer. Podniky mohou také vytvářet datová jezera pomocí cloudů Infrastruktura-a-Service (IaaS), včetně Amazon Web Services (AWS) a Microsoft Azure. Amazon Elastic Compute Cloud (EC2) podporuje datová jezera, zatímco společnost Microsoft má vyhrazenou platformu Azure Data Lake pro ukládání a analýzu dat v reálném čase. Angel uvedl, že datová jezera dozrávají do bodu v prostoru velkých dat, kde do nich mohou firmy začít investovat s rozumnou důvěrou.
„Před několika lety byl Hadoop tím vztekem. Teď se dostáváme k bodu, kdy je Hadoop komoditizovaný, “ řekl Angel. "Otázka není, jestli Hadoop, ale kdy a co s tím uděláš. Jaké typy aplikací budete stavět na Hadoopu, jakmile získáte data na společném místě, jako je datové jezero?" V tomto okamžiku jde o použití dat k vývoji aplikací, které vyhoví vašim konkrétním obchodním potřebám. ““
Budování na vrcholu datové nádrže
Nejzajímavější část o Big Data je veškerá možnost, kterou odemkne. Jakmile nastavíte datové jezero, ve kterém budete hrát a experimentovat s různými datovými kombinacemi a obchodními výsledky, můžete začít vrstvit inovativní analytické techniky na vrcholu.
Algoritmy strojového učení (ML) se již stávají součástí struktury cloudové infrastruktury a vědci neustále zlepšují techniky hlubokého učení a neuronové sítě, aby trénovali stroje a datové systémy, aby rozpoznávali složité vzorce. Prediktivní analytika se také upéká na stále více a více datových nástrojů a podnikových platforem, které se používají pro všechno od prediktivního bodování a automatizované segmentace pro řízení vztahů se zákazníky (CRM) až po identifikaci trendů na finančních trzích a preventivně zachycení mechanických poruch ve strojích.
To vše se děje nad čímkoli, co vaše firma ukládá a rozšiřuje podle svých potřeb. Angel hovořil o některých případech použití ve skutečném světě, ve kterých viděl datová jezera změnit způsob fungování organizací.
„Pracoval jsem s vydavatelskou společností, která má portfolio různých časopisů - mají publikaci pro právníky, jinou pro účetní, druhou pro konzultanty atd. - a každá publikace měla svůj vlastní datový sklad. Každá publikace vlastně měla svůj vlastní silo, “vysvětlil Angel.
"Takže jsme všechna data extrahovali ze skladu a vložili je do datového jezera a datové jezero jim umožnilo vidět přes sila. Dokázali je prozkoumat a zjistit data a uvědomili si, že ve všech těchto různých publikacích, zákazníci z každého časopisu se zajímali o kybernetickou bezpečnost. Čtení kybernetické bezpečnosti bylo silné ve všech těchto různých rolích. Co tedy udělali? Kybernetickou bezpečnost učinili tématem své každoroční konference. “
Dalším příkladem, o kterém Angel mluvil, je elektronický obchod. Jiný klient, internetový maloobchod s uměleckými díly, vyhodil tunu informací do datového jezera a použil je nejen jako úložiště, ale i jako plátno nejrůznějších druhů, aby spojil obchodní informace. Maloobchodník přinesl do jezera údaje o transakcích (objednávky, faktury, platby atd.), Údaje o proklikech (sled návštěvnosti každého návštěvníka webové stránky) a data z datového skladu maloobchodníka do jezera a použil je ve shodě k boji proti nákupnímu košíku opuštění a konverze.
„Chcete stavět na datovém jezeře a používat jej k formulování komplexních obchodních poznatků, “ řekl Angel. „Maloobchod s uměním se mohl podívat na údaje o klikáních zákazníka a porovnat prokliky s profily zákazníků, poté pomocí transakčních údajů zjistit, co zákazník zakoupil v minulosti, a pomocí těchto statistik spustit velmi specifické e-mailové kampaně. Pokud se zákazník vzdal jejich vozík, maloobchodník mohl sledovat o dvě hodiny později a říkat: "Viděli jsme, že se chystáte podívat na toto Picasso; tady je odkaz, pokud se na to chcete znovu podívat.""
Datová jezera jsou univerzálně použitelná ve všech druzích obchodních použití. Ale pro hlavního technického ředitele (CTO) nebo hlavního informačního ředitele (CISO), který uvažuje o přechodu na architekturu, Angel zdůraznil, že datové sklady ještě nejsou zastaralé, nikoliv nataženě. Pro většinu podnikových organizací, ať už používáte cloudového poskytovatele nebo vlastní distribuci Hadoop, podniky stále potřebují obojí.
Datová jezera vám umožňují přístup k jedinečným poznatkům odstraněním limitů přizpůsobujících se dat do konkrétního schématu a přicházejí s mnohem nižšími celkovými náklady na vlastnictví vzhledem k použití levného a flexibilního cloudového úložiště, jako je AWS, pro zvětšení a zmenšení - pouze platit za výpočetní výkon, který skutečně používáte. Provozování datového skladu je dražší a v důsledku toho dělá IT profesionály selektivnějšími ohledně toho, jaká data přicházejí a odcházejí. Ale pro podnikově nejdůležitější data to není špatná věc.
„Datový sklad má výhody z hlediska bezpečnosti a je velmi snadným nástrojem pro správu datových dat, “ řekl Angel. "Takže si stále chcete uchovat své nejcitlivější informace ve skladu, důležité věci. Ale pokud jde o nové obchodní příležitosti a objevování skrytých poznatků, chcete využít datové jezero."