Oracle és AMD AI-szuperfürtöt épít a felhőbe

datacenter, szerverközpontAz AI-piac robbanásszerű növekedése közepette az Oracle és az AMD újabb közös lépést tett, hogy kiszolgálja a nagyvállalati szintű mesterséges intelligencia (AI) felhasználókat. A két cég bejelentette, hogy az AMD vadonatúj Instinct MI355X GPU-i elérhetők lesznek az Oracle Cloud Infrastructure (OCI) platformon, ami nemcsak nagyobb választékot jelent az ügyfeleknek, hanem kétszeres ár-teljesítmény arányt is kínál a korábbi generációhoz képest.

A fejlesztéssel az Oracle olyan zettascale AI-szuperklasztert állít hadrendbe, amely akár 131 072 MI355X GPU-t is képes egyetlen rendszerbe fogni. Ezzel a felhasználók hatalmas nyelvi modellek és agentic AI-alkalmazások tanítására és futtatására kapnak új lehetőséget — olyan számítási kapacitással, ami eddig csak a világ legnagyobb szuperszámítógépein volt elérhető.

„Elkötelezettek vagyunk amellett, hogy a felhőben futó legkomplexebb AI-feladatokat is támogatni tudjuk, ezért folyamatosan bővítjük AI-infrastruktúra kínálatunkat” – mondta Mahesh Thiagarajan, az Oracle Cloud Infrastructure ügyvezető alelnöke. Hozzátette, az AMD Instinct GPU-i, az OCI nagy teljesítménye, fejlett hálózati megoldásai és rugalmas skálázhatósága együtt jelentős előnyt kínálnak az AI-inferálási és -tanítási feladatokban, valamint a legújabb agentic AI-megoldások fejlesztésében.

Régóta együtt dolgoznak

Az AI alkalmazások rohamosan növekvő számítása és adatigénye miatt a felhasználók olyan AI-számítási megoldásokat keresnek, amelyek kifejezetten a nagy léptékű AI-tréningekre lettek optimalizálva. Erre válaszként született meg az új OCI Supercluster, amely ultra-alacsony késleltetésű RDMA klaszterhálózatot kínál az MI355X GPU-k számára. Az új generációs GPU-k közel háromszoros számítási teljesítményt és ötven százalékkal nagyobb memóriasávszélességet biztosítanak az előző modellekhez képest.

„Az AMD és az Oracle régóta közösen dolgozik azon, hogy nyílt, nagy teljesítményű és rugalmas rendszereket kínáljon a vállalati ügyfeleknek” – mondta Forrest Norrod, az AMD adatközponti üzletágának ügyvezető alelnöke. Kiemelte: az AMD Instinct GPU-k és a Pollara hálózati kártyák együttesen új lehetőségeket teremtenek az AI-tréning, finomhangolás és inferálás terén.

Az új AMD Instinct MI355X-alapú felhőgépek több területen is jelentős előrelépést kínálnak

  • Akár 2,8-szoros teljesítménynövekedés AI-feladatokban, gyorsabb eredményekkel, alacsonyabb késleltetéssel és nagyobb modellkapacitással.
  • 288 GB HBM3 memória és akár 8 TB/s memóriasávszélesség, ami lehetővé teszi a legnagyobb AI-modellek teljes memóriában történő futtatását.
  • Új FP4 szabvány támogatás, amely ultra-hatékony és nagy sebességű inferálást kínál 4-bites lebegőpontos számítási formátummal, különösen generatív AI-modellekhez.
  • Sűrű, folyadékhűtéses rack-kialakítás, amely 125 kW teljesítménysűrűséget biztosít rackenként, 64 GPU-val és 1400 wattos fogyasztással GPU-nként.
  • Agentic AI-alkalmazásokra optimalizált rendszer, gyorsabb első tokenidővel (TTFT) és nagyobb token/másodperc teljesítménnyel.
  • Erőteljes head node AMD Turin processzorral és akár 3 TB rendszermemóriával, ami hatékony GPU-munkafolyamat vezérlést és adatfeldolgozást tesz lehetővé.
  • Teljesen nyílt forráskódú szoftverkörnyezet AMD ROCm platformmal, amely rugalmas architektúrát és vendor lock-in nélküli kódmigrációt kínál.
  • Innovatív AMD Pollara hálózati megoldás, amely fejlett RoCE funkciókat és nyílt iparági szabványokat támogat, különösen a Ultra Ethernet Consortium (UEC) specifikációinak megfelelően.

Érdekességként érdemes megjegyezni, hogy az AMD Instinct MI355X egyike azoknak a chipeknek, amelyek már a 4-bites FP4 lebegőpontos számítási szabványt is támogatják. Ez a formátum jelenleg az egyik legforróbb trend az AI-világban, mivel jelentősen csökkenti a modell futtatásához szükséges számítási kapacitást és energiafogyasztást, miközben megtartja a pontosságot. Az Nvidia saját H200 Hopper és a Blackwell AI-GPU-k is hasonló irányba léptek, így az AMD és Oracle együttműködése valós alternatívát kínálhat a felhőalapú AI-tréningek és inferálások piacán.

Az Oracle most az első felhőszolgáltató, amely bejelentette a Pollara AI NIC használatát a backend hálózatokon, ami azt jelenti, hogy a vállalat nemcsak a GPU-teljesítményben, hanem a hálózati infrastruktúrában is komolyan felkészül a zettascale AI-korszakra.

English summary

Oracle and AMD are collaborating to build an AI supercluster in the cloud. This initiative brings AMD’s Instinct MI355X GPUs to Oracle Cloud Infrastructure, offering enhanced performance and cost efficiency for enterprises. The new zettascale cluster will support up to 131,072 GPUs, enabling large-scale AI training and inferencing for advanced language models and agentic AI applications. This partnership provides a powerful, open-source alternative for cloud-based AI solutions.


Vélemény, hozzászólás?

Az e-mail címet nem tesszük közzé. A kötelező mezőket * karakterrel jelöltük