Video: This Was A Mistake... | EXTREMELY HOT CHIPS CHALLENGE (Listopad 2024)
Nejžhavějším tématem v dnešních počítačích je strojové učení a to je jistě vidět na straně hardwaru. V posledních týdnech jsme slyšeli hodně o nových čipech určených pro hluboké učení, od Tesla P100 od společnosti Nvidia a jednotky Drive PX 2 po jednotky Tensor Processing od společnosti Google po Xeon Phi společnosti Intel. Není tedy divu, že na konferenci Hot Chips minulý týden jsme slyšeli od několika různých společností s několika velmi odlišnými přístupy k designu přizpůsobenému strojovému učení a zpracování zraku.
Snad největší zprávou bylo zveřejnění podrobností Nvidia o čipu Parker, který byl použit v modulu Drive PX 2 pro autosedačky a zaměřený na hluboké učení autonomních strojů. Tento čip používá dvě vlastní procesorová jádra Denver CPU kompatibilní s ARM, čtyři jádra ARM Cortex-A57 a 256 z toho, co Nvidia nazývá Pascal CUDA (grafická) jádra.
Společnost Nvidia uvedla, že se jedná o první čip navržený a určený pro použití v automobilovém průmyslu, se speciálními vlastnostmi odolnosti, a hovořil o vyšší rychlosti a paměti, přičemž poznamenal, že jádro Denveru poskytuje významné zlepšení výkonu na watt. Mezi nové funkce patří hardwarová virtualizace s až 8 VMS, která umožňuje integraci funkcí automobilu, které se tradičně provádějí na samostatných počítačích. Celkově společnost uvedla, že model Drive PX 2 může mít dva z těchto čipů Parker a dva diskrétní jednotky GPU s celkovým výkonem 8 teraflop (dvojitá přesnost) nebo 24 operací hlubokého učení (8bitové nebo poloviční přesnost). společnost zahrnovala srovnávací standardy, které je srovnávají příznivě s aktuálním mobilním zpracováním pomocí SpecInt_2000, relativně starého benchmarku. Výkon však vypadá působivě a společnost Volvo nedávno uvedla, že jej od příštího roku použije k testování autonomních vozidel.
Samozřejmě existuje mnoho dalších přístupů.
Čínský startup DeePhi diskutoval o platformě neuronových sítí založené na FPGA se dvěma různými architekturami v závislosti na druhu zapojené sítě. Aristoteles je určen pro relativně malé konvoluční neuronové sítě a je založen na Xilinx Zynq 7000, zatímco Descartes je navržen pro větší opakující se neuronové sítě využívající dlouhodobou krátkodobou paměť (RNN-LSTM) založenou na FPGA Kintex Ultrascale FPGA. DeePhi tvrdí, že jeho kompilátor a architektura zkrátily dobu vývoje ve srovnání s většinou použití FPGA a také to, že použití FPGA může přinést lepší výkon než řešení Tegra K1 a K40 společnosti Nvidia.
Dalším přístupem je použití digitálního signálového procesoru nebo DSP, který typicky vykonává specifickou funkci nebo malou sadu funkcí velmi rychle, za použití velmi malé energie. Často jsou zabudovány do jiných, složitějších čipů, aby se urychlily některé funkce, jako je zpracování obrazu. Řada společností, včetně Movidius, CEVA a Cadence, sdílela svá řešení na Hot Chips.
Movidius předváděl své řešení založené na DSP známé jako procesorová jednotka Myriad 2 vize a nechal jej vystavit v DJI Phantom 4 dronu. Ukázalo také, jak Myriad 2 překonává GPU a hlubokou neuronovou síť googleNet použitou v soutěži ImageNet v roce 2014.
CEVA propagovala svůj CEVA-XM4 Vision DSP, speciálně vyladěný pro zpracování vizí a zaměřený na automobilový trh, spolu s jeho platformou CEVA Deep Neural Network 2, která by podle ní mohla mít cokoli napsané pro rámce Caffe nebo TensorFlow a optimalizovat jej pro běh na jeho DSP. Nový procesor by měl být v SoCs příští rok.
Mezitím Cadence, která vyrábí procesory vize Tensilica (které lze zabudovat do jiných produktů), diskutovala o své nejnovější verzi, Vision P6, která přidala nové funkce, jako je vektorová podpora s pohyblivou řádovou čárkou a další funkce pro konvoluční neuronové sítě. První výrobky by měly být brzy.
Společnost Microsoft hovořila o podrobnostech hardwaru pro náhlavní soupravu HoloLens s tím, že použila 14nm procesor Intel Atom Cherry Trail se systémem Windows 10 a vlastní senzorový náboj Holographic Processing Unit (HPU 1.0) vyrobený společností TSMC na 28nm procesu. To zahrnuje 24 jader Tensilica DSP.
Obzvláště mě zaujal jeden ze snímků společnosti Cadence, který ukázal rozdíly v propustnosti a účinnosti GPU, FPGA a různých druhů DSP, pokud jde o operace s vícenásobným přidáním, což je jeden z klíčových stavebních kamenů neuronových sítí. Přestože je samozřejmostí samoobsluha (jako u všech prezentací dodavatelů), poukazovala na to, jak se různé techniky liší z hlediska rychlosti a účinnosti (výkon na watt), nemluvě o nákladech a snadnosti programování. Existuje zde řada řešení pro různé přístupy a bude zajímavé sledovat, jak se to v příštích několika letech třese.