Video: Cloud TPU Pods: AI Supercomputing for Large Machine Learning Problems (Google I/O'19) (Listopad 2024)
V posledních několika týdnech bylo zavedeno mnoho důležitých představení nových výpočetních platforem určených speciálně pro práci na hlubokých neuronových sítích pro strojové učení, včetně nových „cloudových TPU“ společnosti Google a nového návrhu Volty společnosti Nvidia.
Pro mě je to nejzajímavější trend v počítačové architektuře - dokonce více než AMD a nyní Intel zavádí 16jádrové a 18jádrové procesory. Samozřejmě existují i jiné alternativní přístupy, ale Nvidia a Google si zaslouží velkou pozornost pro své jedinečné přístupy.
Ve službě Google I / O jsem viděl, jak zavádí „cloud cloud“ (pro jednotku zpracování Tensor, což naznačuje, že je optimalizováno pro strojový rámec TensorFlow společnosti Google). Předchozí generace TPU, představená na loňské výstavě, je ASIC navržený primárně pro inferencing - provozování strojového učení - ale nová verze je určena pro inferencing a výcvik takových algoritmů.
V nedávném článku Google poskytl více podrobností o původním TPU, který popsal jako obsahující matici 256-256-násobných hromadných (MAC) jednotek (celkem 65 536) se špičkovým výkonem 92 teraopsů (bilionové operace na druhý). Získává své pokyny z hostitelského CPU přes sběrnici PCIe Gen 3. Google uvedl, že se jednalo o 28nm zemřít, což bylo méně než poloviční velikost procesoru Intel Haswell Xeon 22nm, a že překonala tento procesor a 28nm procesor K80 Nvidia.
Nová verze, dabovaná TPU 2.0 nebo cloudová TPU (viz výše), ve skutečnosti obsahuje čtyři procesory na desce a Google řekl, že každá deska je schopna dosáhnout 180 teraflopsů (180 bilionů operací s pohyblivou řádovou čárkou za sekundu). Stejně důležité je, že desky jsou navrženy tak, aby spolupracovaly pomocí vlastní vysokorychlostní sítě, takže fungují jako jediný stroj, který se učí superpočítačům, které Google nazývá „TPU pod.“.
Tento modul TPU obsahuje 64 jednotek TPU druhé generace a poskytuje až 11, 5 petaflop pro urychlení výcviku jediného velkého modelu strojového učení. Na konferenci Fei Fei Li, který vede výzkum AI společnosti Google, uvedl, že zatímco jeden z rozsáhlých výukových modelů společnosti v oblasti překladů trvá celý den, než se vyškolí 32 z nejlepších komerčně dostupných GPU, může být nyní školením stejná přesnost v odpoledních hodinách pomocí jedné osminy modulu TPU. To je velký skok.
Pochopte, že se nejedná o malé systémy - pod vypadá asi jako čtyři běžné počítačové stojany.
A zdá se, že každý z jednotlivých procesorů má velmi velké tepelné jímky, což znamená, že desky nelze naskládat příliš pevně. Google dosud neposkytl mnoho podrobností o tom, co se změnilo v této verzi procesorů nebo propojení, ale je pravděpodobné, že i toto je založeno na 8bitových MAC.
Před týdnem představila společnost Nvidia svůj nejnovější záznam v této kategorii, obrovský čip známý jako Telsa V100 Volta, který označil jako první procesor s touto novou architekturou Volta a je určen pro špičkové GPU.
Nvidia uvedl, že nový čip je schopen 120 TensorFlow teraflopů (nebo 15 32bitových TFLOPS nebo 7, 5 64bitových). Používá novou architekturu, která zahrnuje 80 streamovacích multiprocesorů (SM), z nichž každý obsahuje osm nových "Tensor Cores" a je pole 4x4x4 schopné provádět 64 operací FMA (Fusion Multiply-Add) za hodinu. Společnost Nvidia uvedla, že ve třetím čtvrtletí nabídne čip na svých pracovních stanicích DGX-1V s deskami 8 V100, a to po dřívějším podniku DGX-1, který používal dřívější architekturu P100.
Společnost uvedla, že tato krabice ve výši 149 000 $ by měla poskytnout 960 teraflopsů tréninkového výkonu s využitím 3 200 wattů. Později, první řekl, že bude dodávat Personal DGX Station se čtyřmi V100s, a ve čtvrtém čtvrtletí to řekl, že velcí prodejci serverů budou dodávat V100 servery.
Tento čip je první oznámený k použití 12nm procesoru TSMC a bude to obrovský čip s 21, 1 miliardami tranzistorů na 815 čtverečních milimetrech. Nvidia citovala Microsoft i Amazon jako první zákazníky pro čip.
Všimněte si, že mezi těmito přístupy jsou velké rozdíly. Google TPU jsou skutečně zakázkové čipy určené pro aplikace TensorFlow, zatímco Nvidia V100 je poněkud obecnější čip, schopný jiných typů matematiky pro jiné aplikace.
Mezitím ostatní poskytovatelé cloudových služeb hledají alternativy, s tím, že Microsoft používá GPU pro školení i polní programovatelná hradlová pole (FPGA) pro inferencování a nabízí oběma zákazníkům. Amazon Web Services nyní vývojářům zpřístupňují instance GPU i FPGA. A Intel tlačil FPGA a řadu dalších technik. Mezitím řada nových začínajících podniků pracuje na alternativních přístupech.
V některých ohledech je to nejdramatičtější změna, kterou jsme zažili v pracovních stanicích a serverových procesorech za několik let, přinejmenším od doby, kdy vývojáři poprvé začali používat „výpočet GPU“ před několika lety. Bude fascinující sledovat, jak se to vyvíjí.