Domov Podnikání Databáze Ai: jaké jsou a proč by se vaše firma měla zajímat

Databáze Ai: jaké jsou a proč by se vaše firma měla zajímat

Obsah:

Video: Finding EU chemicals legislation with EUCLEF (Listopad 2024)

Video: Finding EU chemicals legislation with EUCLEF (Listopad 2024)
Anonim

Data a business intelligence (BI) jsou dvě strany téže mince. Pokroky v ukládání, zpracování a analýze demokratizovaly data do té míry, že nemusíte být databázový profesionál nebo datový vědec, abyste mohli pracovat s rozsáhlými soubory dat a odvodit poznatky. Stále existuje křivka učení, ale samoobslužné nástroje BI a vizualizace dat předefinují způsob, jakým podniky využívají všechna data, která shromažďují, do analytické činnosti. Existuje však rozdíl mezi BI nebo databázovou společností hawking pokročilými analytiky a databází umělé inteligence (AI), které jsou vytvořeny pro účely strojového učení (ML) a hlubokých modelů učení.

Algoritmy ML jsou tkané do struktury většiny dnešního softwaru. Zákaznické zkušenosti se prolínají s umělou inteligencí prostřednictvím virtuálních asistentů av obchodním softwaru existují příklady, jako je Salesforce Einstein, které fungují jako inteligentní vrstva pod celým portfoliem řízení vztahů se zákazníky (CRM). Technologičtí giganti, včetně společností Google a Microsoft, posouvají naši inteligentní budoucnost ještě dále, a to nejen výzkumem, ale přepisováním toho, jak jejich technologie funguje od základu s AI.

Jednou z výzev cvičných strojů a modelů hlubokého učení je naprostý objem dat a výpočetní výkon, který potřebujete pro trénování neuronové sítě, například při rozpoznávání složitých vzorů v oblastech, jako je klasifikace obrazu nebo zpracování přirozeného jazyka (NLP). Databáze AI se proto začínají objevovat na trhu jako způsob, jak optimalizovat proces učení a školení AI pro podniky. Mluvili jsme s poskytovatelem relačních databází s akcelerací GPU, který si vybudoval vlastní databázi AI, a rezidentem BI a databázovým expertem společnosti PCMag Pam Baker, aby demystifikovali, co je databáze AI a jak funguje ve srovnání s tradičními databázemi. Ještě důležitější je, že jsme požádali o pomoc při jejich roztržení prostřednictvím humbuků a marketingu, abychom určili, zda má tato nová technologie skutečnou obchodní hodnotu.

Co jsou databáze AI?

Rychle se měnící povaha prostoru AI může ztěžovat stanovení terminologie. Často slyšíte výrazy jako ML, hluboké učení a umělá inteligence, které se používají zaměnitelně, když ve skutečnosti stále vyvíjí techniky pod větším zastřešením umělé inteligence. Baker proto uvedl, že existují dvě velmi odlišné definice toho, co databáze AI závisí na tom, s kým mluvíte: jeden praktický a druhý více na obloze.

"V oboru existuje určitý volný konsenzus, že databáze AI by byla taková, která by fungovala zcela mimo dotazy přirozeného jazyka. Uživatelské rozhraní by bylo takové, že byste nemuseli spoléhat na vyhledávací termíny a klíčové fráze, abyste našli informace, které potřebujete, umožňující uživateli vyvolat datové sady s NLP, “řekl Baker. "Mohl byste uvést velmi omezený argument, že IBM Watson může do systému zadávat dotazy v přirozeném jazyce, ale musíte se k datům připojit již a data si sami vybrat. Takže právě teď je tato definice úsek."

Praktičtější definice a předmět tohoto vysvětlovače v zásadě používá účelově vytvořenou databázi k urychlení tréninku modelu ML. Řada technologických společností již vyvíjí vyhrazené čipy AI, aby zmírnily velké zatížení při zpracování nových hardwarových produktů, protože prodejci uvádějí více funkcí založených na AI, které vyžadují značný výpočetní výkon. Na straně dat vám použití databáze AI může pomoci lépe zvládnout problémy s řízením a správou objemu, rychlosti a složitých dat spojené se školením ML a hlubokými modely učení, aby se ušetřil čas a optimalizovaly zdroje.

Obrazový kredit: Todd Jaquith na Futurism.com. Klepnutím rozbalte celý infographic

"Právě teď je mnoho úsilí o urychlení tréninku ML pomocí několika různých taktik, " vysvětlil Baker. „Jedním je oddělit infrastrukturu od výzkumníků AI provádějících kódování, aby automatizované funkce manipulovaly s infrastrukturou a trénovaly model ML. Takže místo toho, abyste strávili něco jako tři měsíce, můžete se dívat na 30 dní nebo 30 minut."

Kinetica tuto myšlenku rozděluje na integrovanou databázovou platformu optimalizovanou pro ML a modelování hlubokého učení. Databáze AI kombinuje ukládání dat, pokročilé analýzy a vizualizace do databáze v paměti. Mate Radalj, viceprezident a hlavní softwarový inženýr společnosti Kinetica Advanced Technology Group, vysvětlil, že databáze AI by měla být schopna simultánně přijímat, prozkoumávat, analyzovat a vizualizovat rychle se pohybující komplexní data během milisekund. Cílem je snížit náklady, generovat nové příjmy a integrovat modely ML tak, aby podniky mohly činit účinnější rozhodnutí založená na údajích.

„Databáze AI je podmnožinou obecné databáze, “ řekl Radalj. "Právě teď jsou databáze AI velmi populární. Ale mnoho řešení používá distribuované komponenty. Spark, MapReduce a HDFS se vždy točí spíš tam a zpět, spíše než v paměti. Nemají soutok faktorů, jako je naše databáze, která byl postaven od základů s pevně integrovanými CPU a GPU na jedné platformě. Výhodou na vysoké úrovni pro nás je rychlejší poskytování a nižší hardwarová stopa modelu založeného na školení, s rychlým obratem a analytikou integrovanou do stejné platformy."

Jak funguje databáze AI

V praxi existuje řada příkladů AI databází. Microsoft Batch AI nabízí cloudovou infrastrukturu pro výcvik hlubokého učení a ML modelů běžících na GPU Microsoft Azure. Společnost má také produkt Azure Data Lake, který podnikům a vědcům v oblasti dat usnadní zpracování a analýzu dat v distribuované architektuře.

Dalším příkladem je přístup AutoML společnosti Google, který zásadně přepracovává způsob, jakým jsou ML modely trénovány. Google AutoML automatizuje návrh modelu ML tak, aby vytvářel nové architektury neuronových sítí na základě konkrétních datových sad, a poté tisícekrát testoval a opakoval, aby kódoval lepší systémy. Ve skutečnosti může Google AI nyní vytvářet lepší modely než lidské vědce.

"Podívejte se na Google AutoML: ML píše ML kód, takže ani nepotřebujete lidi, " řekl Baker. "To vám dává představu o tom, jaký je extrémní rozdíl v tom, co prodejci dělají. Někteří se snaží předávat pokročilé analytiky jako ML - a není tomu tak. A jiní dělají ML na tak pokročilé úrovni, která je nad rámec toho, co nejvíce podniky mohou v tuto chvíli pochopit. ““

Pak je tu Kinetica. Uvedení na trh v San Franciscu, které získalo financování rizikovým kapitálem (VC) ve výši 63 milionů dolarů, poskytuje vysoce výkonnou databázi SQL optimalizovanou pro rychlé přijímání a analýzu dat. Kinetica je to, co Radalj popsal jako distribuovanou databázi a výpočetní platformu s masivním paralelním zpracováním (MPP), ve které každý uzel obsahuje společně umístěná data v paměti, CPU a GPU.

To, co odlišuje AI databázi od tradiční databáze, vysvětlil Radalj, má tři základní prvky:

  • Zrychlené přijímání dat,
  • Společná lokalita dat v paměti (paralelní zpracování napříč databázovými uzly) a
  • Společná platforma pro vědce s údaji, softwarové inženýry a správce databází pro rychlejší iteraci a testování modelů a použití výsledků přímo na analytiku.

Radalj pro všechny odborníky, kteří si to ne-databázi a pro modelování AI přečetli, rozbil každý z těchto tří základních prvků a vysvětlil, jak se databáze AI váže k hmatatelné obchodní hodnotě. Dostupnost dat a příjem dat jsou klíčové, řekl, protože schopnost zpracovávat data v reálném čase umožňuje podnikům rychle jednat na základě informací o umělé inteligenci.

"Máme maloobchodního zákazníka, který chtěl sledovat prodejní ceny podle obchodu, každých pět minut, " řekl Radalj. "Chtěli jsme použít AI k předpovědi, na základě posledních několika hodin historických dat, zda by měli doplnit zásoby a optimalizovat tento proces. Ale aby to strojově řízené doplňování zásob vyžadovalo podporu 600 - 1200 dotazů za sekundu. 'jsem SQL databáze a AI databáze, takže můžeme přijímat data s takovou rychlostí. Nás setkání, že obchodní mise vyústila v aplikaci, která vedla více ROI."

Baker souhlasil s tím, že ML vyžaduje velké množství dat, takže jejich rychlé pořízení by bylo pro databázi AI velmi důležité. Druhý faktor, pojem „společná lokalita dat v paměti“, vyžaduje trochu více vysvětlení. Databáze v paměti ukládá data spíše do hlavní paměti než do samostatného diskového úložiště. Učiní tak rychlejší zpracování dotazů, zejména v analytických a BI databázích. Společným umístěním Radalj vysvětlil, že Kinetica neodděluje výpočetní uzly CPU a GPU oproti uzlům úložiště.

Výsledkem je, že databáze AI podporuje paralelní zpracování - které napodobuje schopnost lidského mozku zpracovávat více podnětů - a zároveň zůstává distribuováno přes škálovatelnou infrastrukturu databáze. Tím se zabrání většímu hardwarovému zatížení, které je výsledkem toho, co Radalj nazýval „dodávání dat“ nebo potřebou odesílat data sem a tam mezi různými komponentami databáze.

„Některá řešení využívají orchestrátora, jako je IBM Symphony, k naplánování práce na různých komponentách, zatímco Kinetica zdůrazňuje přenos funkcí proti sdíleným prostředkům s pokročilou optimalizací pro minimalizaci přenosu dat, “ řekl Radalj. „Tato společná lokalita se propůjčuje vynikajícímu výkonu a propustnosti, zejména pro vysoce souběžné náročné dotazy na velké soubory dat.“

Pokud jde o skutečný databázový hardware, je společnost Kinetica partnerem společnosti Nvidia, která má rozšiřující se sestavu AI GPU a zkoumá příležitosti s Intelem. Radalj také uvedl, že společnost dohlíží na vznikající hardware AI a infrastrukturu založenou na cloudu, jako jsou jednotky Tensor Processing Units (TPU) společnosti Google.

Konečně je tu myšlenka sjednoceného modelu tréninkového procesu. Databáze AI je účinná pouze tehdy, pokud tyto výhody rychlého příjmu a zpracování slouží větším, obchodně orientovaným cílům pro ML společnosti a úsilí o hluboké učení. Radalj označuje databázi AI společnosti Kinetica jako „modelovou produktovou platformu“, která provádí hostování modelů na základě vědeckých poznatků.

To vše se hodí k rychlejšímu testování a iteraci k vývoji přesnějších ML modelů. V tomto ohledu Baker řekl, že jednotná spolupráce může pomoci všem technikům a vědcům, kteří pracují na tréninku ML nebo modelu hlubokého učení, iterovat rychleji kombinací toho, co funguje, na rozdíl od neustálého znovuobjevování všech kroků v tréninkovém procesu. Radalj uvedl, že cílem je vytvořit pracovní postup, ve kterém rychlejší dávkové přijímání, streamování a dotazování generují výsledky modelu, které lze okamžitě aplikovat na BI.

„Vědci dat, softwaroví inženýři a správci databází mají jedinou platformu, kde lze práci čistě vymezit na samotné vědě o datech, psaní softwarových programů a datových modelech a dotazech SQL, “ řekl Radalj. „Lidé pracují čistěji společně v těchto různých doménách, když je to společná platforma. Cílem častěji než ne s provozováním ML a hlubokého učení je, že chcete použít výsledky toho - co-efficients a proměnné - ve spojení s analytikou, a použít výstup pro věci, jako je bodování nebo předpovídat něco užitečného. “

Hype nebo realita?

Dolní řádek databáze AI, přinejmenším ve způsobu, jakým ji definuje Kinetica, spočívá v optimalizaci výpočetních a databázových prostředků. To vám zase umožní vytvářet lepší modely ML a hlubokého učení, trénovat je rychleji a efektivněji a udržovat průchodnost, jak bude tato AI aplikována na vaše podnikání.

Radalj uvedl příklad společnosti pro správu vozového parku nebo přepravní společnost. V tomto případě by databáze AI mohla zpracovávat obrovské toky informací v reálném čase z vozového parku. Poté pomocí modelování geoprostorových dat a jejich kombinací s analytikou mohla databáze dynamicky přesměrovat nákladní vozidla a optimalizovat trasy.

„Je snazší rychle zajistit, prototypovat a testovat. Slovo„ modelování “je v AI vyvoláno, ale je to všechno o cyklování různými přístupy - čím více dat, tím lépe - znovu a znovu je provozujeme, testování, porovnávání a přijít s nejlepšími modely, “řekl Radalj. "Neuronové sítě dostaly život, protože existuje více dat než kdy předtím. A my se učí, abychom mohli počítat."

Společně lokalizovaná databáze a platforma potrubí společnosti Kinetica jsou nakonec jen jedním přístupem v prostoru, který může znamenat spoustu různých věcí v závislosti na tom, koho se zeptáte. Baker uvedl, že výzvou pro kupujícího na trhu, který se stále vyvíjí a experimentuje, je zjistit, co přesně odpovídá prodejci databáze AI.

"Jako obchodní koncept, hluboké učení, ML, a to vše je solidní koncept. Co děláme, jsou technické problémy, které jsou řešitelné, i když jsme je ještě nevyřešili, " řekl Baker. „To neznamená, že se jedná o vyspělý prostor, protože to rozhodně není. Řekl bych„ kupující si dávejte pozor “, protože něco, co ML může nebo nemusí být, může být jen pokročilá analytika různých druhů zahrad.“

Pokud jde o to, zda jsou databáze AI právě teď humbukem nebo zda představují důležitý trend pro to, kam podniká, Baker řekl, že je to trochu obojí. Řekla, že Big Data, jako marketingový termín, je nyní z laskavosti. Baker řekl, že nyní existuje určitá tržní vazba mezi pokročilou analytikou založenou na datech a skutečnými algoritmy ML a algoritmy hlubokého učení. Bez ohledu na to, ať už mluvíte o databázi pro modelování ML nebo o sebevědomých umělých inteligencích vysněných popovou kulturou, všechno to začíná a končí daty.

"Data budou v podnikání používána až do konce času; je to právě to ústřední pro podnikání, " řekl Baker. „Když mluvíte o sci-fi, AI je seberealizovaná inteligence. To je, když začnete mluvit o singularitách a robotech, které ovládají svět. Ať už se to stane nebo ne, nevím. to Stephenu Hawkingovi. “

Databáze Ai: jaké jsou a proč by se vaše firma měla zajímat