Domov Podnikání Velké datové základy: jak sestavit plán správy dat

Velké datové základy: jak sestavit plán správy dat

Video: The secrets of learning a new language | Lýdia Machová (Listopad 2024)

Video: The secrets of learning a new language | Lýdia Machová (Listopad 2024)
Anonim

Psali jsme hodně o úloze dat v moderních podnicích. Od začínajících podniků a malých a středních podniků až po velké podniky jsou statistiky a analýzy dat přístupnější pro podniky všech velikostí než kdykoli předtím. To je částečně díky nárůstu samoobslužných nástrojů business intelligence (BI) a nástrojů vizualizace dat.

Přestože dříve, než budete moci použít nástroje BI nebo spustit prediktivní analýzu na datové sadě, existuje řada faktorů, které musíte od sebe vzdálit. Začíná to jednoduše pochopením toho, co je Big Data, co to není (nápověda: ne křišťálová koule) a jak spravovat ukládání dat, organizaci, oprávnění a zabezpečení v rámci vaší podnikové datové architektury. Zde přichází správa dat. Procesy, kterými zajišťujete správu v rámci podniku, se liší v závislosti na tom, s kým mluvíte. Ve svém jádru je však správa dat o důvěře a zodpovědnosti dat, oženil se s osvědčenými postupy pro komplexní zabezpečení dat.

Mluvil jsem s Hortonworks a MapR, dvěma největšími prodejci Hadoop na trhu. Scott Gnau, technický ředitel Hortonworks, a Jack Norris, senior viceprezident pro data a aplikace v MapR, vysvětlili, co pro jejich organizace znamená správa dat. Diskutovali o tom, jak řešit složitou výzvu zajištění správy dat v rámci složitých datových architektur a organizačních hierarchií velkého podniku.

Co přesně je Správa dat a proč to potřebujeme?

Správa znamená zajistit, aby byla podniková data autorizována, organizována a povolena v databázi s co nejmenším počtem chyb při zachování soukromí i bezpečnosti. Stávkování není snadné, zejména když je realita, kde a jak jsou data uložena a zpracována, neustále v pohybu. MapR's Norris vysvětlil, proč se podniky musí dívat na správu dat z vyšší úrovně a soustředit se na větší datový kanál při hře.

"Když začnete škálovat rozmanitost a rychlost velkých dat, se kterými se zabýváme, musíte mít správu dat, ale je to v tomto širším kontextu. Jaká jsou data, která máte, kdo k nim má přístup a jak se máte spravujete linii těchto dat v průběhu času? “ řekl Norris. „Z hlediska správy dat můžete mít různé fáze dat, která existují v systému, který lze pořídit, takže se můžete kdykoli v potrubí vrátit. Je to o budování auditovatelnosti a řízení přístupu do datové platformy, aby Zajistěte, aby vyhledávání a analytika dat byla transparentní, ať už jste obchodní manažer při pohledu na soubory finančních údajů nebo vědec, který pracuje s prvotními daty. “

Zdroj: Rimes. Klikněte na obrázek pro plné zobrazení.

Hortonworks 'Gnau zadal podobný bod. Ať už jednáte o datový sklad nebo architekturu datového jezera, správa dat je o vyvážení protichůdných sil. Jedná se o neomezený přístup k datům, který přispívá k inovacím a získává informace, a granulární oprávnění a soukromí, které současně chrání tato data od začátku do konce.

"Porovnejte a porovnejte starý svět tradiční správy v datovém prostoru; bylo to o něco snazší, " řekl Gnau. „Data bývala dobře definována rolí práce nebo aplikací. V novém světě získáváte největší hodnotu, když mají vědci údajů přístup k co největšímu množství dat a zjištění, že šťastné médium je velmi důležité.

„Je to zcela nové paradigma v tom, jak potřebujete přistupovat k řízení, “ dodal Gnau. „V tomto novém světě zvažuji témata správy a bezpečnosti, která je třeba pokrýt společně. Mnoho společností se stále snaží projít tímto směrem, aby jejich vědci v oblasti dat mohli účinně najít tyto nové případy použití a zároveň, a zároveň, porozumění tomu, jak zacházet se zabezpečením, ochranou soukromí, správou věcí veřejných - všechny věci, které jsou důležité z pohledu spodního řádku a také z hlediska reputace společnosti. “

Jak má plán správy podnikových dat zahrnovat a uspokojit všechny ty nepřátelské síly? Metodickým řešením každého požadavku, jeden krok po druhém.

Jak vytvořit plán správy dat

Hortonworks, MapR a Cloudera jsou tři největší nezávislí hráči v prostoru Hadoop. Společnosti mají své vlastní sféry vlivu, pokud jde o správu dat. Společnost MapR vydala na své Konvergované datové platformě celou řadu bílých knih a vytvořila správu dat, zatímco společnost Hortonworks má své vlastní řešení pro správu a správu dat a v roce 2015 spoluzakládala iniciativu pro správu dat (DGI). -source Apache Atlas projekt, který poskytuje otevřený rámec pro správu dat pro Hadoop.

Ale pokud jde o to, jak každý prodejce vytváří komplexní strategii správy a zabezpečení dat, hovořili Gnau a Norris podobným způsobem. Následují kombinované kroky, které společnosti Hortonworks a MapR doporučují podnikům při sestavování plánu správy dat.

The Big One: Granulární přístup k datům a autorizace

Obě společnosti souhlasí s tím, že nemůžete mít efektivní správu dat bez podrobných kontrol. MapR to dosahuje především prostřednictvím výrazů ACE (Access Control Expressions). Jak Norris vysvětlil, ACE používají seskupování a logickou logiku pro řízení flexibilního přístupu k datům a autorizace, s oprávněními založenými na rolích a nastaveními viditelnosti.

Řekl, že na to myslí jako na model Gartnera. Na ose Y na dolním konci jsou přísná správa a nízká pohyblivost a na ose X na horním konci je vyšší pohyblivost a menší správa.

"Na nízké úrovni chráníš citlivá data tím, že je zatajíš. Nahoře máš důvěrné smlouvy pro vědce a analytiky BI, " řekl Norris. "Máme sklon to dělat s maskovacími schopnostmi a různými pohledy, kde uzamknete nezpracovaná data ve spodní části co nejvíce a postupně poskytujete více přístupu, dokud na horním konci neposkytnete správcům širší viditelnost. Jak ale dáváte přístup ke správným lidem?

„Pokud se dnes podíváte na seznam řízení přístupu, řekne to něco jako„ každý ve strojírenství má přístup k tomuto, “dodal Norris. "Ale pokud chcete, aby měl přístup několik vybraných ředitelů projektu v rámci IT nebo všichni kromě člověka, musíte vytvořit speciální skupinu. Je to příliš komplikovaný a spletitý způsob, jak se na přístup podívat."

Právě podle Norrisa přichází udělování přístupových práv na různé úrovně a skupiny. „Kombinovali jsme ACE s různými způsoby, jak můžete přistupovat k datům - prostřednictvím souborů, tabulek, datových proudů atd. - a implementovat pohledy bez samostatných kopií dat. Poskytujeme tedy Pohledy na stejná prvotní data a Pohledy může mít různé úrovně přístupu. Tím získáte integrovanější zabezpečení, které je přímější. “

Hortonworks zpracovává granulární přístup podobným způsobem. Integrací Apache Atlas pro správu a Apache Ranger řekl Gnau, že společnost zpracovává autorizaci na podnikové úrovni prostřednictvím jediného skleněného skla. Klíčem je schopnost kontextově udělit přístup k databázi a ke specifickým značkám metadat pomocí politik založených na značkách.

„Jakmile je někdo v databázi, jde o to, jak je vést prostřednictvím dat, ke kterým by měl mít relevantní přístup, “ řekl Gnau. "Rangerovy bezpečnostní politiky na úrovni objektů, jemnozrnné a všude mezi tím to zvládnou. Vazba této bezpečnosti na vládnutí je věcí, kde jsou věci opravdu zajímavé."

„Chcete-li rozšířit měřítko ve velkých organizacích, musíte tyto role integrovat do správy a označování metadat, “ dodal Gnau. „Pokud se přihlašuji ze Singapuru, možná existují různá pravidla založená na místních zákonech o ochraně osobních údajů nebo firemní strategii. Jakmile společnost tato pravidla definuje, nastaví a chápe z holistického pohledu shora dolů, můžete přístup odhlásit na základě specifické sady pravidel při provádění všeho uvnitř základní platformy. “

Zdroj: IBM Big Data & Analytics Hub. Klikněte na obrázek pro plné zobrazení.

2. Zabezpečení obvodu, ochrana dat a integrované ověřování

Řízení se nestane bez zabezpečení koncových bodů. Gnau uvedl, že je důležité vybudovat dobrý obvod a firewall kolem dat, která se integrují do existujících autentizačních systémů a standardů. Norris souhlasil s tím, že pokud jde o ověřování, je důležité, aby se podniky synchronizovaly s osvědčenými systémy.

„V rámci ověřování jde o to, jak se integrujete s LDAP, Active Directory a adresářovými službami třetích stran, “ řekl Norris. "Podporujeme také uživatelské jméno a hesla Kerberos. Důležité není vytvořit celou samostatnou infrastrukturu, ale integrovat se do stávající struktury a využívat systémy jako Kerberos."

3. Šifrování dat a tokenizace

Další krok po zabezpečení vašeho obvodu a ověření všech granulárních dat, která udělujete: Ujistěte se, že soubory a informace umožňující identifikaci osob (PII) jsou šifrovány a tokeny od začátku do konce prostřednictvím vašeho datového potrubí. Gnau diskutoval o tom, jak Hortonworks zajišťuje data PII.

"Jakmile se dostanete kolem obvodu a máte přístup do systému, je schopnost chránit data PII nesmírně důležitá, " řekl Gnau. "Musíte tato data zašifrovat a tokenizovat, takže bez ohledu na to, kdo k nim má přístup, mohou spustit analytiku, kterou potřebují, aniž by odhalili některá z těchto dat PII podél řádku."

Pokud jde o to, jak bezpečně přistupujete k šifrovaným datům v pohybu i v klidu, Norris společnosti MapR vysvětlil, že je důležité mít na paměti i případy použití, jako je zálohování a zotavení po katastrofě (DR). Diskutoval o konceptu tzv. Logických svazků MapR, který může aplikovat politiku správy na rostoucí skupinu souborů a adresářů.

"MapR na nejnižší úrovni navrhl replikaci WAN pro DR a časově konzistentní snímky napříč všemi daty, které lze nastavit na různých frekvencích podle adresáře nebo svazku, " řekl Norris. „Je to širší než jen správa dat. Můžete mít fyzický klastr s adresáři, a pak je koncept logického svazku opravdu zajímavou jednotkou správy a způsobem, jak seskupovat věci při kontrole ochrany a frekvence dat. Je to další šipka v údajích správce IT. vládní toulec. “

4. Neustálé audity a analýzy

Při pohledu na širší obraz správy věcí veřejných Hortonworks i MapR uvedly, že strategie nefunguje bez auditu. Tato úroveň viditelnosti a odpovědnosti v každém kroku procesu je to, co umožňuje IT skutečně „spravovat“ data na rozdíl od pouhého stanovování zásad a řízení přístupu a doufat v to nejlepší. Podniky také mohou udržovat své strategie aktuální v prostředí, ve kterém se každý den mění způsob, jakým vidíme data a technologie, které používáme ke správě a analýze.

"Poslední součástí moderní strategie správy je protokolování a sledování, " řekl Gnau. "Jsme v počátcích Big Data a IoT a je velmi důležité, abychom mohli sledovat přístup a rozpoznávat vzorce v datech, takže vzhledem k tomu, že je třeba strategii aktualizovat, jsme před křivkou."

Norris řekl, že auditování a analýza mohou být stejně jednoduché jako sledování souborů Java Object Notation (JSON). Ne každý kus dat bude stát za to sledovat a analyzovat, ale vaše firma nikdy neví, které - dokud nezjistíte, jak se hry mění, nebo nastane krize, a musíte spustit audit trail.

"Každý soubor protokolu JSON je otevřen pro analýzu a máme Apache Drill, abychom mohli soubory JSON dotazovat pomocí schémat, takže není to ruční krok IT k nastavení analýzy metadat, " řekl Norris. "Když zahrnete všechny události přístupu k datům a každou administrativní akci, je možné široké spektrum analýz."

5. Sjednocená datová architektura

Technologický referent nebo správce IT, který dohlíží na strategii správy podnikových dat, by měl nakonec přemýšlet o specifikách podrobného přístupu, ověřování, zabezpečení, šifrování a auditu. Ale technologický referent nebo IT administrátor by se tam neměl zastavit; spíše by tato osoba měla také přemýšlet o tom, jak se každá z těchto složek vnáší do jejich větší datové architektury. Měl by také přemýšlet o tom, jak musí být tato infrastruktura škálovatelná a bezpečná - od shromažďování a ukládání dat až po BI, analýzy a služby třetích stran. Gnau řekl, že správa dat je stejně tak o strategii přehodnocení, jako o samotné technice.

" To přesahuje jednu sklenici skla nebo soubor bezpečnostních pravidel, " řekl Gnau. „Je to jediná architektura, ve které tyto role vytváříte a synchronizují se napříč celou platformou a všemi nástroji, které do ní přinesete. Krásou bezpečně spravované infrastruktury je obratnost, s jakou jsou vytvářeny nové metody. Na každé úrovni platformy, nebo dokonce v v hybridním cloudovém prostředí máte jediný referenční bod, abyste pochopili, jak jste implementovali svá pravidla. Všechna data prochází touto vrstvou zabezpečení a správy. “

Velké datové základy: jak sestavit plán správy dat