So profitieren CSP vom skalierbaren Intel Xeon Prozessor der 4. Generation

geschätzter Leseaufwand: 3 Minuten

Seit dem Erscheinen der vierten Generation des skalierbaren Intel Xeon Prozessors taucht immer wieder diese eine Frage auf: Worin unterscheidet sich die CPU von ihren Vorgängern, speziell aus der Sicht eines Cloud Service Providers? Dieser und weiterer Fragen soll der folgende Beitrag im Detail nachgehen. Inklusive zahlreicher Zahlen und Benchmarks, die zeigen, in welchen Disziplinen die neuen Intel Xeon Prozessoren denen aus der dritten Generation überlegen ist.

[irp posts=“168611″ ]

Intel AMX für schnellere KI-Trainings, schnellere Datentransfers, geringere Latenzen 

Spricht man über die Workloads und Anwendungen, die vom skalierbaren Intel Xeon Prozessor (4. Gen.) profitieren, ist schnell die Rede von Disziplinen wie dem Trainieren und Inferenzieren von KI-Modellen, von Netzwerkverbindungen, von Speicherapplikationen und dem weiten Feld des High-Performance Computing. In diesen Bereichen spielen vor allem die Intel Advanced Matrix Extensions (Intel AMX) eine wesentliche Rolle. Denn diese Befehlserweiterungen beschleunigen regelmäßig wiederkehrende Berechnungen, die in einer erheblich kürzeren Zeit verarbeitet werden können. Aber auch Datentransfers und das Komprimieren von Daten erfolgt mithilfe der Intel AMX-Befehlssätze deutlich schneller.

In Zahlen ausgedrückt, bedeutet das unter anderem einen zweieinhalbfach höheren Datendurchsatz sowie eine deutlich geringere Latenz beim Datenzugriff. Trotz dieser Leistungszuwächse wird die CPU um 12 Prozent weniger beansprucht, was sich in einer geringeren Energieaufnahme bemerkbar macht. (siehe Quelle, Abschnitt W5)

[irp posts=“161272″ ]

Intel AVX-512 sorgt ebenfalls für bessere Trainings- und Inferenzergebnisse

Neben Intel AMX sorgen auch die Intel Advanced Vector Extensions 512 (Intel AVX-512) für eine deutlich schnellere Berechnung von optimiertem Programmcode. Davon profitieren vor allem rechenintensive Anwendungen, bei deren Programmierung die Befehlsbibliothek Pytorch zum Einsatz kommt. Dort werden Inferenzierungsalgorithmen um den Faktor 5,7 bis 10 schneller ausgeführt. Ähnliches gilt für KI-Trainingssessions, die 3,5- bis 10-mal schneller absolviert werden als mit einem Vorgängermodell des skalierbaren Intel Xeon Prozessors. (siehe Quelle, Abschnitt A16)

[irp posts=“161074″ ]

Mehr Sicherheit durch Intel SGX und Intel TDX

Neben den Leistungssprüngen, die Applikationen und Workloads mithilfe des skalierbaren Intel Xeon Prozessors (4. Gen) erfahren, profitieren weitere Anwendungsfälle von der neuen CPU-Architektur. Dazu gehört beispielsweise das weite Feld des Confidential Computing. Hierbei steht vor allem die Datensicherheit und der Datenschutz im Vordergrund. Hierfür bietet der skalierbare Intel Xeon Prozessor der 4. Generation zwei wesentliche Funktionen, die für mehr Sicherheit sorgen. 

Die eine nennt Intel SGX (Software Guard Extensions), von der auf diesem Blog schon des öfteren die Rede war. Im Wesentlichen werden hierbei besonders sensible Daten in einer sogenannten Enklave verarbeitet, die sich in verschlüsselter Form im Arbeitsspeicher des Zentralrechners befinden. Damit liegen diese Daten in einer Art Hochsicherheitstrakt, wo sie gut behütet vor fremden Zugriffen geschützt sind. Selbst der Cloud Service Provider hat keine Möglichkeiten, auf diese Enklaven zuzugreifen.

Auf der anderen Seite sorgen die Intel Trust Domain Extensions (Intel TDX) für mehr Sicherheit von virtuellen Maschinen. Auf diese Art dürfen lediglich die VM-Anwendungen selbst auf die darin befindlichen Daten zugreifen.

[irp posts=“160196″ ]

Für schnelle und sichere Cloud-App-Updates

Speziell Cloud-basierte und Cloud-nahe Anwendungen erfordern regelmäßige Updates, und das in immer kürzeren Zeitabständen. Hierfür kommen sogenannte Microservices zum Einsatz, die sich um das kurzfristige und sichere Bereitstellen von Cloud-Apps und -Services kümmern. Das wird vor allem in Umgebungen wie Multi-Cloud und Hybrid-Cloud immer wichtiger. Hier kommt es vor allem auf ein optimales Zusammenspiel von Hard- und Software an, um einen bestmöglichen Datendurchsatz zu erzielen. 

Auch hierfür stehen mit den skalierbaren Intel Xeon Prozessoren der 4. Generation zwei Funktionen bereit, die genau diese Aufgaben übernehmen: Intel Data Streaming Accelerator (Intel DSA) und Intel Dynamic Load Balancer (Intel DLB). Intel DSA beschleunigt zum einen den Datentransfer zwischen CPU, Hauptspeicher und Cache-Einheiten, zum anderen sorgt die Funktion für geringere Latenzen beim Datenaustausch zwischen den vorhandenen Speicher- und Netzwerkeinheiten.

Intel DLB auf der anderen Seite kümmert sich um einen ausgewogenen Datentransfer, indem der Datenaustausch der jeweiligen CPU-Last der einzelnen Prozessorkerne angepasst wird. Darüber hinaus ist Intel DLB in der Lage, die Datenpakete je nach CPU-Last bestmöglich auf die vorhandenen Kerne „umzusortieren“. Das sorgt insgesamt für verbesserte Latenzzeiten um den Faktor 1 sowie um einen erhöhten Datendurchsatz auf einem einzigen Prozessor um den Faktor 2,33 bis 2,63. (siehe Quelle, Abschnitt W7)

[irp posts=“168661″ ]

Disclaimer: Diesen Blogbeitrag habe ich im Auftrag von Intel verfasst und veröffentlicht. Bei der Ausgestaltung hatte ich nahezu freie Hand.

Schreibe einen Kommentar