Domov Podnikání 7 tipů pro úspěch strojového učení

7 tipů pro úspěch strojového učení

Obsah:

Video: Ирония судьбы, или С легким паром 1 серия (комедия, реж. Эльдар Рязанов, 1976 г.) (Listopad 2024)

Video: Ирония судьбы, или С легким паром 1 серия (комедия, реж. Эльдар Рязанов, 1976 г.) (Listopad 2024)
Anonim

První část našeho obchodního průvodce po strojovém učení (ML) rozebrala, jak je zastřešující koncept ML v obchodním prostředí daleko více zastaralý. Nejúčinnější strategie se zaměřují na ML v praktickém smyslu, využívají jak komplexní techniky hlubokého učení, tak méně náročné techniky „levného učení“ k optimalizaci podnikových procesů a získávání konkrétních poznatků o business intelligence (BI).

Cílem nasazení ML ve vašich podnikových aplikacích je zlepšit váš konečný výsledek nebo využít konkurenční výhodu vaší společnosti. Ale ve větším schématu vaší organizace, maximální využití času a zdrojů, které do tohoto procesu investujete, jde nad rámec algoritmů. Tvůrci IT rozhodnutí ve vaší firmě se musí ujistit, že vše, co se týká vaší implementace ML - od dat a logistiky po to, jak jste v kontaktu s uživateli - spolupracuje soudržně, aby maximalizovalo efektivitu.

Ted Dunning, Ph.D., je hlavní aplikační architekt v MapR, podnikové softwarové společnosti nabízející různé nástroje pro distribuci velkých dat a správu dat. Dunning také spoluautorem dvou knih o tom, co nazývá „Praktické strojové učení“, a v průběhu let vyvinul technologie ML pro řadu společností, včetně systému detekce podvodů ID Analytics (zakoupeného společností LifeLock) a softwaru Musicmatch Jukebox, který se později stal Yahoo Music. V současné době také působí jako viceprezident pro inkubaci v Apache Software Foundation.

Dunning sledoval vývoj ML prostoru po celá desetiletí a dozvěděl se hodně o tom, co funguje a co ne v praktickém obchodním prostředí. Dunning níže uvádí sedm osvědčených postupů, které je třeba dodržovat při vývoji podnikových řešení zakořeněných v ML.

1. Nezapomeňte na logistiku

Úspěšné ML není jen o výběru správného nástroje nebo algoritmu. Dunning řekl, že musíte také zjistit, jaký přístup je vhodný, a navrhnout jej pro konkrétní situaci, kterou řešíte. Například Dunning hovořil o ML v online marketingové kampani na rozdíl od mnohem komplikovanějších scénářů, jako jsou algoritmy, které řídí autonomní automobil. Vynakládání prostředků na zdokonalení algoritmu pro vylepšení stojí za to pro auto, ale v marketingovém scénáři byste viděli mnohem lepší návratnost z optimalizace veškeré logistiky v okolí.

"Pro podniky je to často logistika, ne učení, což vám dává hodnotu. To je část, na kterou byste měli trávit čas a zdroje, " řekl Dunning. „Úpravou algoritmu byste dosáhli malého vylepšení. Ale přizpůsobení těchto údajů, GUI a způsobu, jakým posloucháte a spolupracujete s vašimi uživateli, vám může snadno přinést 100% zlepšení. Čas strávený vylepšováním algoritmu stojí za zlomek, protože hodně firmám, stejně jako poslouchá vaše uživatele. “

Pro ilustraci tohoto bodu Dunning vysvětlil, jak jednou vybudoval model identifikace podvodů s aplikací (otevření falešných účtů s odcizenými identitami) v zákaznické databázi společnosti. Model, který postavil, měl skvělé výsledky, ale Dunning si všiml, že pohlaví žadatele velmi vážilo.

Ukázalo se, že logistika byla vypnutá. Jak fungoval postup přihlašování, žadatel vyplnil své pohlaví až poté, co se již stal zákazníkem a prošel několika kroky skríningu, aby odfiltroval podvodníky. Takže s využitím genderového pole ML model podváděl logistiku celého procesu podvodu. To nemá nic společného s algoritmem a vše, co souvisí s tím, jak společnost získávala svá data na prvním místě.

2. Dbejte na svá data

Dunning je plný chytlavých kousků moudrosti. Poté, co začal s „je to logika, ne učení“, řekl, že druhá polovina této myšlenky je „jsou to data, ne algoritmy.“ Velká část zajištění toho, aby vaše algoritmy ML poskytovaly cenné informace, je zajistit, abyste jim dodali správná data. Dunning řekl: Pokud nedostanete výsledek, pro který hledáte, pak častěji než ne, protože nepoužíváte správná data.

"Lidé jsou všichni likvidováni a ego-vázáni na konkrétní algoritmy, ale dnes, kvůli nástrojům tam, každý a jejich matka mohou a přicházejí s nejrůznějšími novými algoritmy, " řekl Dunning. „Data jsou mnohem důležitější a dá vám mnohem více vzestupu, než nekonečně vylepšování vašich algoritmů. Pokud pracujete na těžkém problému, jako je rozpoznávání řeči nebo počítačové vidění, to je jedna věc. Ale toto je pole zaměřené na data. Ve většině scénářů budete mít mnohem větší prospěch z úpravy dat, která získáváte, a ze změny otázky. “

To udělal Dunning v polovině roku 2000, když stavěl motor doporučení videa ve společnosti zvané Veoh Networks. Tým pracoval na identifikaci dvojic uživatelsky generovaných videí, na která lidé klikli více, než se očekávalo, ale algoritmus nefungoval. Přemýšleli o hudbě, kde uživatelé znají své oblíbené umělce a písničky podle jména. Změnili tedy otázku vylepšením uživatelského rozhraní, aniž by se dotkli samotného algoritmu.

„Ve videích vytvářených uživateli nikdo neví, že umělci a spousta videí neměli opravdu spamové tituly, aby získali více zobrazení. Cyklování algoritmů vylepšení by nám nikdy nedalo dobré výsledky, “ řekl Dunning. "To, co jsme udělali, bylo změnit uživatelské rozhraní tak, aby vysílalo signál majáku každých 10 sekund. Zjistili jsme, že pokud použijeme maják namísto kliknutí na nezpracovaná data doporučení, dostali jsme úžasné výsledky. Výtah pro tuto jednu změnu byl několik stoprocentní zlepšení interakce díky doporučením, bez algoritmických změn. “

3. Algoritmy nejsou kouzelné kulky

Implementace ML prosperují při neustálém pokusu a omylu. Bez ohledu na to, jak dobré jsou vaše algoritmy, pokud váš systém interaguje s lidmi, bude třeba jej v průběhu času upravit. Dunning zdůraznil, že podniky by měly neustále měřit celkovou efektivitu jejich implementace a identifikovat změny a proměnné, které je zlepšují a zhoršují. Může to znít jako fráze, ale Dunning řekl, přestože to zní zjevně, jen velmi málo lidí to dělá nebo dělá dobře.

"Mnoho lidí chce zavést systém nebo podniknout nějaké kroky a chtějí, aby jejich algoritmus fungoval dokonale navždy, " řekl Dunning. „Žádný algoritmus nebude kouzelnou kulkou. Návrh uživatelského rozhraní nebude trvat věčně. Žádná metoda sběru dat nebude nikdy nahrazena. To vše se může stát a stane se a podniky musí bděle měřit, vyhodnocovat a přehodnocovat, jak jejich systém funguje. “

4. Použijte různorodou sadu nástrojů

K dispozici jsou desítky nástrojů ML, z nichž mnohé můžete používat zdarma. Máte populární knihovny s otevřeným zdrojovým rámcem, jako jsou Caffe, H20, Shogun, TensorFlow a Torch, a knihovny ML v řadě projektů Apache Software Foundation (ASF), včetně Mahout, Singa a Spark. Dále existují možnosti založené na předplatném, včetně Amazon Machine Learning, BigML a Microsoft Azure Machine Learning Studio. Společnost Microsoft má také bezplatnou kognitivní sadu nástrojů.

K dispozici je nespočet zdrojů. Dunning hovořil s mnoha podniky, vědci o údajích a odborníky v oblasti ML a vždy se jich ptal, kolik různých rámců a nástrojů používá. V průměru Dunning řekl, že většina uvádí, že používají minimálně 5-7 nástrojů a často mnohem více.

"Nemůžete se přilepit k jednomu nástroji. Budete muset použít několik, a jako takový byste měli lépe sestavit svůj systém tak, aby byl agnostický, " řekl Dunning. „Každý, kdo se vás snaží přesvědčit, že tento nástroj je jediný, jaký kdy budete potřebovat, vám prodá účet za zboží.

„Příští týden se může stát něco, co rozruší košík s jablky, a při rychlosti inovací, kterou vidíme, se to bude dít alespoň po dobu dalších pěti až deseti let, “ pokračoval Dunning. „Podívejte se na levný příklad učení, kde možná znovu používáte existující klasifikátor obrázků k analýze obrázků v katalogu. To je hluboké učení s vržením počítačového vidění. Existují však nástroje, které to vše zabalily. měřit, vyhodnocovat a proplétat mezi různými nástroji a vaše infrastruktura k tomu musí být vítána. “

5. Experimentujte s hybridním učením

Dunning řekl, že můžete také kombinovat levné a hluboké učení společně do něčeho hybridního. Pokud například přijmete existující model počítačového vidění a znovu sestavíte několik nejvyšších vrstev, ve kterých se rozhoduje, můžete současný rámec pro zcela nový případ použití znovu zvolit. Dunning ukázal na soutěž Kaggle, ve které soutěžící právě udělali; vzali datový soubor a nahoře napsali nový algoritmus, který počítači pomohl odlišit kočky od psů.

„Rozlišování koček a psů je velmi jemnou věcí pro algoritmus ML. Přemýšlejte o logice: Kočky mají špičaté uši, ale také němečtí ovčáci. Psi nemají skvrny, s výjimkou dalmatinů atd. To může být docela obtížné rozpoznat samo o sobě, “řekl Dunning. "Ten, kdo zvítězil, vyvinul systém, který to provedl s přesností na 99 procent. Ale byl jsem ohromen tím, kdo přišel na třetí. Místo toho, aby stavěl od nuly, vzal existující program rozpoznávání obrázků z jiného úkolu, sundal vrchní vrstva, a dal tam jednoduchý klasifikátor. Dal několik příkladů a brzy to bylo přesně 98 procent u odlišných koček od psů. Celý proces trvalo chlapa tři hodiny."

6. Levné neznamená špatné

Přes zjevnou konotaci Dunning řekl, že levné učení neznamená špatné učení. Množství času, který strávíte na implementaci ML, přímo nesouvisí s jeho obchodní hodnotou. Důležitější kvalita, řekl, je zajistit, aby byl tento proces opakovatelný a spolehlivý. Pokud to podnik dokáže, aniž by investoval nepřiměřené množství zdrojů, je to o to lepší.

"Levné neznamená špatné. Pokud to funguje, funguje to. Pokud je to levné a funguje to, to je skvělé. Ale úsilí, které vložíte do stavby, nedefinuje hodnotu. To je klam v součtu nákladů, " řekl Dunning. „To, co definuje hodnotu, je to, jak to zlepšuje podnikání. Pokud zlepšuje zisky nebo snižuje náklady nebo zlepšuje vaši konkurenční situaci. Je to účinek, ne úsilí.“

7. Neříkej to AI

Dunning zdůraznil, že když mluví o těchto technikách, podniky by měly používat přesnou terminologii: ML, počítačové vidění nebo hluboké učení. To vše má tendenci spadat pod zastřešující pojem „umělá inteligence“, ale pro Dunninga je definice umělé inteligence jednoduše „věcí, které ještě nefungují“.

„Nejlepší definice, jakou jsem kdy slyšel pro AI, je to, že to zatím nemůžeme vysvětlit. Věci, na které jsme přišli, “ řekl Dunning. "Pokaždé, když dostaneme něco do práce, lidé říkají:" Ach, to není AI, je to jen software. Je to jen modul pravidel. Je to opravdu jen logická regrese. " Než něco vymyslíme, nazýváme to AI. Poté to vždy nazýváme něco jiného. V mnoha ohledech se AI používá lépe jako slovo pro další hranici a v AI bude vždy další hranice. AI je kam jdeme, ne kam jsme se už dostali. “

7 tipů pro úspěch strojového učení