O superpočítačích zevnitř s Lubošem Kolářem z HPE
Co brání superpočítačům být ještě dokonalejší?
V minulém textu o superpočítačích jsme se s Lubošem Kolářem ze společnosti Hewlett Packard Enterprise bavili zejména o velkých projektech. O tom, jak svět HPC (high performance computing) postupně prolamuje jednu bariéru za druhou. Jak superrychlé technologie už dnes využívají vědecké instituce, stejně jako globální korporace. K objevům, k vyšším ziskům nebo k získání konkurenční výhody. Vrhli jsme se do světa, jenž každý den chrlí neskutečné množství užitečných dat. O hledání souvislostí mezi nimi i neustálém zrychlování a zpřesňování analýz ve všech směrech. V pokračování příběhu vás zavedeme do reality běžného dne. Do světa vývoje samotných superpočítačů, v nichž – možná pro mnohé trochu překvapivě – nejde jen o to vyrobit dokonalejší procesor nebo rychlejší paměť. Ale skládat celou architekturu high performance computing systému tak, aby ji nebránila například prostá fyzika. A stejně jako v minulém příběhu, je povídání Luboše Koláře velmi zasvěcené. Koneckonců, kolik Čechů se přímo podílí na vzniku tak zásadních celosvětových projektů, jakým je kupříkladu The Machine?
„Není to jen o tom to vyrobit, ale především poskládat“
„Mnoho lidí si skutečně myslí, že jádrem naší činnosti je vyvíjet vlastní procesory, paměti nebo disky. Ve skutečnosti jsou to dnes pro nás už víceméně jen komoditní prvky, ze kterých všechno stavíme. A je tak trochu jedno, jestli je vyrábí některá z našich divizí nebo externí specializovaný partner. My se primárně zabýváme tím, jak tyto prvky dát dohromady, poskládat je do co nejsmysluplnější infrastruktury, aby finální celek byl co nejvýkonnější a také nejefektivnější na provoz. Stále častěji musíme proto řešit detaily, o nichž by si mnozí mohli myslet, že do našeho oboru snad ani nepatří. Jeden příklad za všechny? Například způsob chlazení. Nedávno jsme kupříkladu řešili, jak chladit zařízení, které má už dnes výkon 80 nebo 90 kilowatt na rack a my potřebujeme do budoucna využívat až 200 nebo 250 kilowatt. Takové hustoty instalace jsou běžně těžko představitelné. Navíc, pokud bychom nadále používali doposud standardní systém chlazení kompresorem, spotřebujeme dalších 30 procent energie zbytečně. Proto jsme dlouho měřili a zkoušeli různé cesty, jak tuhle ztrátu překonat a udržet výkon co nejvyšší. Nakonec jsme dospěli k tomu, že nejefektivnějším způsobem je chlazení teplou vodou, „ohřátou“ na 30 až 40 stupňů Celsia, která uvnitř zařízení cirkuluje a chladí přímo komponenty produkující nejvíce tepla – hlavně procesory a výpočetní akcelerátory. Ochladit ji pak zpět o 6-10 stupňů (tedy o to, o kolik se v zařízení zahřeje) totiž dokážeme po většinu roku běžným volným chlazením („free coolingem“), což není energeticky zdaleka tak náročné. S teplovodním přímým chlazením jsme se byli schopni dostat pod hranici deseti procent, což ušetří nejen hodně peněz – to bereme jako zajímavý benefit celé věci pro provozní rozpočet zákazníků – ale především umožní daleko kompaktnější konstrukci HPC superpočítače. Jeho součásti pak mohou být blíž od sebe, mít kratší kabeláž, dosáhnout vyššího výkonu, atd.“, popisuje Luboš Kolář.
„Vedle toho se samozřejmě zabýváme všemi technologiemi, které souvisejí s umožněním nezávislého škálování vlastností systémů do budoucna. Ať už jde o velikost clusteru nebo růst jediného systému, jenž je uvnitř takzvaně „nafukovací“, což je základní myšlenka The Machine.
Co ono nafukovací znamená laicky? My od superpočítače očekáváme, že bude např. schopný zcela nezávisle škálovat výpočetní výkon a velikost osazené paměti. Aby to bylo možné, potřebujete k tomu oddělit paměť od procesoru a dát ji někam, kde se bude moci „nafouknout“ do skoro libovolné velikosti. A vybudovat k ní dostatečně širokou cestu, aby šlo připojit jakoukoli výkonnou komponentu, kterou chcete nebo potřebujete. A nemusí to být jen standardní skalární procesory, mohou to být vektorové procesory, GPU akcelerátory, vstupní a výstupní jednotky.
„Bylo by zbytečné se soustředit pouze na výkon, pokud bychom neměli nástroj, kterým to množství dat přenést“
„A právě s tím přímo souvisí také další téma – a sice propustnost. V současné době, pokud chcete využívat gigabytové propustnosti, používáte propojovací technologii buď InfiniBand, nebo Omni-Path – tedy dvě technologie pro vysokorychlostní sítě s nízkou latencí, které jsou na trhu. Máte jeden optický kabel 100 Gb. My už dnes dokážeme, že jeden optický spoj bude mít uvnitř 16 optických kanálů s obdobnou propustností. Čili zvýšíme propustnost toho kabelu 16x a postavíme o několik řádů robustnější a rozsáhlejší architekturu superpočítačových systémů. A samozřejmě už dnes intenzivně přemýšlíme, jak tam dostat ještě mnohem více.“
Umělá inteligence bude hledat insight.
„A právě tady dochází k zajímavému paradoxu – a sice, že my superpočítače na jedné straně vyvíjíme a zdokonalujeme – ale na druhé straně, ony nás už dnes a denně posouvají dál. Skrze data, jež dokážou generovat a souvislosti, které společně s námi umí pospojovat. Rostoucí výkon superpočítačů umožní nejenom firmám nebo institucím, ale také nám vývojářům, počítat čím dál tím přesnější analýzy. Zahrnovat stále více vstupů, zvyšovat přesnost výsledků a postihnout multidisciplinaritu. Tedy kombinovat různé typy vstupů a výstupů a do finálního výsledku zahrnout současně výstupy mnoha různých analýz. Tady někde také začíná můstek do umělé inteligence, kdy potřebujeme obrovské množství výpočetního výkonu pro to, abychom mohli na oblasti, kde to smysl dává, paralelně učit neuronové sítě. Ty nám pak budou schopné pomáhat hledat zajímavé informace, souvislosti či objevy (ten zmiňovaný insight) v obrovském množství dat, jehož růst je do budoucna exponenciální.“ uzavírá Luboš Kolář.