Domov Myslet dopředu Proč je strojové učení budoucnost

Proč je strojové učení budoucnost

Obsah:

Video: TŘI TYGŘI | Robosvět (Listopad 2024)

Video: TŘI TYGŘI | Robosvět (Listopad 2024)
Anonim

Na konferenci superpočítačů SC16 v tomto měsíci vynikly dva trendy. Prvním z nich je vzhled nejnovějších Intel Xeon Phi (Knights Landing) a Nvidia nejnovější Tesla (Pascal založený P100) na seznamu nejrychlejších počítačů na světě Top500; oba systémy se umístily v top 20. Druhým je velký důraz na to, jak výrobci čipů a systémů berou koncepty z moderních systémů strojového učení a aplikují je na superpočítače.

Při aktuální revizi seznamu Top500, která se aktualizuje dvakrát ročně, je horní část mapy stále pevně v rukou počítače Sunway TaihuLight z čínského národního superpočítačového centra ve Wuxi a počítače Tianhe-2 z čínského národního superpočítače Centrum v Guangzhou, jak tomu bylo od června na veletrhu ISC16. Žádný jiný počítač není téměř dokonalý, protože systémy třetí a čtvrté kategorie - stále Titanový superpočítač v Oak Ridge a systém Sequoia v Lawrence Livermore - oba přinášejí zhruba polovinu výkonu Tianhe-2.

První z nich je založen na unikátním čínském procesoru, 1, 45 GHz SW26010, který používá 64bitové jádro RISC. To má bezkonkurenční 10 649 600 jader, která poskytují 125, 4 petaflopsů teoretické špičkové propustnosti a 93 petaflopů maximálního měřeného výkonu na benchmarku Linpack s využitím 15, 4 megawattů energie. Je třeba poznamenat, že i když tento stroj překonává žebříčky výkonu Linpacku s obrovským rozpětím, v jiných testech se nehodí docela dobře. Existují i ​​další měřítka, jako je srovnávací test s vysoce výkonnými konjugovanými gradienty (HPCG), kde stroje mají tendenci vidět pouze 1 až 10 procent svého teoretického špičkového výkonu a kde nejvyšší systém - v tomto případě stroj Riken K - stále přináší méně než 1 petaflop.

Testy Linpack jsou však standardem pro mluvení o vysoce výkonných počítačích (HPC) ao tom, co se používá k vytvoření seznamu Top500. S použitím testů Linpack byl stroj č. 2, Tianhe-2, v posledních několika letech na prvním místě v grafu a používá urychlovače Xeon E5 a starší Xeon Phi (Knights Corner). To nabízí 54, 9 petaflop teoretického špičkového výkonu a benchmarky na 33, 8 petaflop v Linpacku. Mnoho pozorovatelů věří, že zákaz vývozu novějších verzí Xeon Phi (Knights Landing) vedl Číňany k vytvoření vlastního superpočítačového procesoru.

Knights Landing, formálně Xeon Phi 7250, hrál velkou roli v nových systémech na seznamu, počínaje superpočítačem Cori v Lawrence Berkeley National Laboratory na pátém místě, se špičkovým výkonem 27, 8 petaflop a měřeným výkonem 14 petaflop. Toto je systém Cray XC40 využívající propojení Aries. Všimněte si, že rytíři přistání mohou působit jako hlavní procesor, přičemž 68 jader na procesor poskytuje 3 špičkové teraflopy. (Intel uvádí další verzi čipu se 72 jádry na 3, 46 teraflopy špičkového teoretického výkonu s dvojnásobnou přesností ve svém ceníku, ale žádný ze strojů na seznamu tuto verzi nepoužívá, pravděpodobně proto, že je dražší a spotřebovává více energie.)

Dřívější Xeon Phis mohl běžet pouze jako urychlovače v systémech, které byly ovládány tradičními procesory Xeon. Na šestém místě byl systém Oakforest-PACS japonského Společného centra pro pokročilý vysoce výkonný počítač, který zaznamenal 24, 9 špičkových petaflop. Toto je postaveno Fujitsu pomocí Knights Landing a Intel Omni-Path propojení. Knights Landing se také používá v systému č. 12 (počítač Marconi v italské CINECA, postavený společností Lenovo a používající Omni-Path) a systém č. 33 (kafr 2 na japonské kjótské univerzitě, postavený společností Cray a využívající Beran) propojit).

Nvidia byla na novém seznamu dobře zastoupena. Systém č. 8, Piz Daint ve Švýcarském národním superpočítačovém centru, byl povýšen na Cray XC50 s Xeons a Nvidia Tesla P100 a nyní nabízí necelých 16 petaflop teoretického špičkového výkonu a 9, 8 petaflop linpackového výkonu - velký upgrade ze 7, 8 petaflop špičkového výkonu a 6, 3 petaflop výkonu Linpack ve své dřívější iteraci založené na Cray XC30 s urychlovači Nvidia K20x.

Dalším systémem založeným na P100 na seznamu byl vlastní Nvidia DGX Saturn V, založený na vlastních systémech DGX-1 a propojení Infiniband, které bylo na seznamu č. 28 na seznamu. Všimněte si, že Nvidia nyní prodává jak procesory, tak i zařízení DGX-1, které zahrnuje software a osm Tesla P100. Systém DGX Saturn V, který společnost Nvidia používá pro interní výzkum AI, má skóre téměř 4, 9 maxima petaflops a 3, 3 linpack petaflops. Nvidia však poukazuje na to, že využívá pouze 350 kilowattů energie, což ji činí mnohem energeticky účinnější. Výsledkem je, že tento systém je na prvním místě v seznamu energeticky nejúčinnějších systémů Green500. Nvidia poukazuje na to, že je to podstatně méně energie než systém Xhor X-phon Camphor 2, který má podobný výkon (téměř 5, 5 petaflops peak a 3, 1 Linpack petaflops).

Je to zajímavé srovnání, protože Nvidia nabízí lepší energetickou účinnost na GPU a Intel nabízí známější programovací model. Jsem si jistý, že v nadcházejících letech uvidíme více konkurence, protože různé architektury soutěží o to, která z nich bude první, kdo dosáhne „exascale computing“, nebo zda se tam místo toho dostane čínský domácí přístup. V současné době americký projekt Exascale Computing Project amerického ministerstva energetiky očekává, že první stroje exascale budou nainstalovány v roce 2022 a budou spuštěny v následujícím roce.

Považuji za zajímavé poznamenat, že navzdory důrazu na mnohojádrové urychlovače, jako jsou řešení Nvidia Tesla a Intel Xeon Phi, takové urychlovače používá pouze 96 systémů (včetně těch, které používají pouze Xeon Phi); na rozdíl od 104 systémů před rokem. Společnost Intel je i nadále největším poskytovatelem čipů se svými čipy v 462 z 500 nejlepších systémů, následovanými procesory IBM Power v 22. Společnost Hewlett-Packard Enterprise vytvořila 140 systémů (včetně těch, které vytvořila společnost Silicon Graphics, které společnost HPE získala), společnost Lenovo 92, a Cray 56.

Soutěž o strojové učení

Na veletrhu nebo v jeho okolí bylo mnoho oznámení, z nichž většina se zabývala nějakou formou umělé inteligence nebo strojového učení. Společnost Nvidia oznámila partnerství s IBM na nové sadě nástrojů pro hluboké učení s názvem IBM PowerAI, která provozuje servery IBM Power pomocí propojení Nvidia NVLink.

AMD, která byla promyšleným prostředím jak v prostředí HPC, tak ve strojovém učení, se snaží tuto změnu změnit. V této oblasti se společnost zaměřila na vlastní GPU Radeon, tlačila na GPU serveru FirePro S9300 x2 a oznámila partnerství s Google Cloud Platform, aby mohla být použita v cloudu. AMD však neinvestovala tolik do softwaru pro programování GPU, protože klade důraz na OpenCL nad proprietárnějším přístupem společnosti Nvidia. Na výstavě AMD představila novou verzi své Radeon Open Compute Platform (ROCm) a navrhla plány na podporu svých GPU v heterogenních výpočetních scénářích s více procesory, včetně svých připravovaných procesorů „Zen“ x86, architektur ARM počínaje Cavium ThunderX a CPU IBM Power 8.

Na výstavě Intel hovořil o nové verzi svého současného čipu Xeon E5v4 (Broadwell) naladěného na pracovní zatížení s pohyblivou řádovou čárou a o tom, jak příští rok vyprší příští verze založená na platformě Skylake. Ale později v tomto týdnu Intel vydal řadu oznámení určených k umístění čipů do prostoru umělé inteligence nebo strojového učení. (Tady je ExtremeTech's.) Většina z toho má důsledky pro vysoce výkonné výpočty, ale je většinou oddělená. Nejprve, kromě standardních procesorů Xeon, společnost také podporuje FPGA pro provádění většiny inferencí v neuronových sítích. To je jeden velký důvod, proč společnost nedávno koupila Altera, a takové FPGA nyní používají společnosti jako Microsoft.

Ale zaměření na AI se minulý týden zabývalo několika novějšími čipy. Nejprve je zde Xeon Phi, kde Intel uvedl, že současná verze rytířských přistání bude příští rok doplněna novou verzí nazvanou Knights Mill, která je zaměřena na trh „hlubokého učení“. Ohlášeno na IDF, je to další 14nm verze, ale s podporou polopřesných výpočtů, které se často používají při trénování neuronových sítí. Ve skutečnosti je jednou z velkých výhod současných čipů Nvidia v hlubokém učení jejich podpora pro polopřesné výpočty a 8bitové celočíselné operace, které Nvidia často označuje jako „tera-ops“. Společnost Intel uvedla, že Knights Mill dodá až čtyřnásobek výkonu Knights Landing pro hluboké učení. (Tento čip je stále kritizovaný a bude následovat později verze 10nm nazvaná Knights Hill, pravděpodobně zaměřená spíše na tradiční vysoce výkonný počítačový trh.)

Nejzajímavější pro příští rok je design od společnosti Nervana, který Intel nedávno získal, který využívá řadu procesorových klastrů navržených k provádění jednoduchých matematických operací připojených k paměti s velkou šířkou pásma (HBM). První v této rodině bude Lake Crest, který byl navržen dříve, než společnost Intel koupila společnost a vyrobena na 28nm procesu TSMC. Společnost Intel uvedla, že díky zkušebním verzím v první polovině příštího roku bude poskytovat větší výpočetní výkon než GPU. Toto bude nakonec následovat Knights Crest, který nějakým způsobem implementuje Nervanovu technologii spolu s Xeonem, s detaily ještě neohlášenými.

„Očekáváme, že technologie společnosti Nervana v příštích třech letech povedou k průlomovému 100násobnému zvýšení výkonu, aby vyškolily komplexní neuronové sítě a umožnily tak vědcům dat rychleji řešit své největší problémy s umělou inteligencí, “ napsal generální ředitel Intel Brian Krzanich.

Společnost Intel také nedávno oznámila plány na akvizici Movidius, díky čemuž jsou čipy na bázi DSP zvláště vhodné pro inferencování počítačového vidění - opět rozhodování na základě dříve vyškolených modelů.

Je to komplikovaný a vyvíjející se příběh - rozhodně ne tak přímý jako Nvidiaho tlak na GPU všude. Jasně však ukazuje, jak rychle se strojové učení rozběhne a mnoho různých způsobů, jakými společnosti plánují tento problém řešit, od GPU, jako jsou Nvidia a AMD, přes mnoho základních procesorů x86, jako je Xeon Phi, až po FPGA., ke specializovaným produktům pro školení, jako jsou Nervana a IBM TrueNorth, k vlastním inferenčním motorům podobným DSP, jako jsou tensorové jednotky Google od společnosti Google. Bude velmi zajímavé zjistit, zda trh má prostor pro všechny tyto přístupy.

Proč je strojové učení budoucnost