Mit der Markteinführung des Intel Xeon Prozessors der 5. Generation ging eine neue Webseite einher, auf der die aktuell verfügbaren CPU-Akzeleratoren und deren Anwendungsbereiche vorgestellt werden. Für mich eine schöne Gelegenheit, diese Beschleunigerfunktionen genauer anzusehen und ihren jeweiligen Zweck vorzustellen.
Vom Sinn und Zweck der Intel Accelerator Engines
Über die zahlreichen CPU-Funktionen der Intel Xeon Prozessoren habe ich schon hier und da gebloggt. Sie sind nämlich fest verdrahtet in den Mikroprozessor, stehen damit allen Anwendungen und Workloads vom Start weg zur Verfügung. Vorausgesetzt, der Quellcode der jeweiligen Applikation wurde dafür „fit“ gemacht. Sprich, an die Funktionen in geeigneter Art und Weise angepasst. Was das im Einzelnen bringt, zeigen zahlreiche Benchmarks, die auf den jeweils zugrunde liegenden Prozessoren durchgeführt wurden.
Das bringt zwei wesentliche Vorteile mit sich: Zum einen ist keine zusätzliche Hardware vonnöten, wie man das oft im Umfeld der Künstliche Intelligenz vorfindet (Stichwort: GPU-basierte Beschleuniger). Zum anderen lässt sich die Energieeffizient mithilfe der Intel Accelerator Engines deutlich verbessern, da häufig anfallende Aufgaben nicht von der Haupt-CPU, sondern von dem Beschleuniger selbst ausgeführt werden. In Folge dessen sinkt der Stromverbrauch, was das System insgesamt nachhaltiger macht.
Intel AI Engines: KI-Training und –Inferenz
Zu den maßgeblichen KI-Beschleunigerfunktionen gehören zwei tief in den Intel Xeon Prozessor integrierten Beschleunigerfunktionen: Intel Advanced Matrix Extensions (Intel AMX) und Intel Advanced Vektor Extensions 512 (Intel AVX.512). Im Bereich der künstlichen Intelligenz kommen die 2 Funktionen zum einen bei Machine-Learning–Training– und Inferenz-Workloads beschleunigend zum Einsatz. Zum anderen sorgt Intel AVX-512 für eine schnellere Datenverarbeitung, was beides zu einer ausgewogeneren Energiebilanz und zu geringeren Gesamtbetriebskosten führt (TCO).
Daraus resultieren bei bestimmten Anwendungen und Workloads eine 14-mal bessere Inferenzleistung bei der Echtzeit-Objekterkennung, gemessen mit dem SSD-ResNet34-Benchmark (Intel Xeon CPU 3. Generation vs. Intel Xeon Prozessor 5. Generation). Daraus ergibt sich eine deutlich höhere Leistung-pro-Watt-Ratio, was zu einer verbesserten Energieeffizienz führt.
Ein praktisches Beispiel stellt in diesem Kontext die Zusammenarbeit von Intel und Siemens Healthineers dar. In Verbindung mit dem Intel Distribution OpenVINO Toolkit und der Beschleunigerfunktion Intel AMX konnte die Inferenzleistung der zugrunde liegenden KI-basierten Healthcare-Anwendung um den Faktor 35 erhöht werden (Intel Xeon Prozessor der 4. Generation vs. 3. Generation).
Intel Security Engines: Schutz vor Malware & C Co.
Zu den Intel Security Engines gehören drei Intel-Akzeleratoren: Intel Software Guard Extensions (Intel SGX), Intel Trust Domain Extensions (Intel TDX) und Intel Crypto Acceleration.
Über Intel SGX habe ich hier schon das ein oder andere Mal berichtet. Hierbei stehen vor allem gegen Malware-Attacken geschützte Speicherbereiche im Fokus, die sich im Hauptspeicher des Rechnersystems befinden.
Intel TDX hingegen sorgt für sichere virtuelle Maschinen, was in Zeiten von Confidential Computing unerlässlich ist. Damit lassen sich beispielsweise bestehende Anwendungen mit relativ geringem Aufwand in eine vertrauenswürdige Laufzeitumgebung überführen (Trusted Execution Environment, TEE).
Intel Crypto-Akzeleratoren wiederum basieren auf der SIMD-Technik, die Intel 1990 mit der Einführung des Intel Pentium III-Prozessors etabliert hat. Damit lassen sich mehrere Verschlüsselungsoperationen gleichzeitig, also parallel ausführen. Das erhöht einerseits den Gesamtdurchsatz der einzelnen Anwendungen und entlastet andererseits den Hauptprozessor.
Intel HPC Engines: große Datenmengen im Griff
Im Bereich des High-Performance Computing (HPC) kommen die bereits behandelten CPU-Akzeleratoren namens Intel AVX-512 und Intel AMX bevorzugt zum Einsatz. Zusätzlich leisten die Intel Data Streaming Akzeleratoren (Intel DSA) in diesem Kontext wichtige Dienste.
Intel AMX wandeln große Matrix-Berechnungen in eine einzelne Operation um und speichert große Datenmengen in zweidimensionalen Registern. Beides beschleunigt zugehörige HPC-Workloads und -Anwendungen maßgeblich.
Intel DSA kommen immer dann zum Einsatz, wenn große Datenmengen via Netzwerk übertragen oder gespeichert werden sollen. Dies geschieht durch das Auslagern gängiger Datenübertragungsaufgaben.
Eine große Herausforderung großer Datenmengen und deren Verarbeitung stellt nach wie vor das Thema Energieeffizienz dar. Ein gutes Beispiel, wie sich der Spagat aus Hochleistungsmaschinen und Nachhaltigkeit bewältigen lässt, stellt die Zusammenarbeit von Intel und Verne Global dar, die seit vielen Jahren HPC-Infrastrukturen auf Island betreiben, die zu 100 Prozent aus erneuerbaren Energiequellen mit Strom versorgt werden.
Intel Network Engines: beschleunigte Kryptografie-Workloads
Zu den zwei Intel Network Engines gehört die Intel QuickAssist-Technik (Intel QAT) und der Intel Dynamic Load Balancer (Intel DLB). Die Intel QAT ist immer dann wichtig, wenn Krypografie-Workloads wie das Ver- und Entschlüsseln von Daten geht. Darüber hinaus lassen sich mit Intel QAT Daten effizienter und schneller komprimieren, was die Energieeffizient steigern kann.
Intel DLB hingegen sorgt bei der Datenübertragung für ein gleichmäßige Auslastung der vorhandenen Prozessorkerne. Zudem kümmert sich die Funktion um das „richtige“ Zusammenfügen der Datenpakete, die via Netzwerk transferiert werden. So zeigen NGINX-basierte Benchmarks, dass Systeme mit Intel Xeon Prozessor der 5. Generation ein deutlich höhere TLS-Handshake-Leistung bieten im Vergleich zur 3. Generation.
Intel Analytics Engine: In-Memory-Datenbanken unter Kontrolle
Zu dieser Kategorie Intel-Akzeleratoren gehören die zwei bereits beschriebenen Beschleunigerfunktionen Intel DSA und Intel QAT sowie Intel In-Memory Analytics Accelerator (Intel IAA).
Intel IAA kommt vor allem dann zum Einsatz, wenn es um die Analyse und das Speichern von Daten in sogenannten In-Memory-Datenbanken geht. Dazu gehören unter anderem RocksDB, Redis, Cassandra, ClickHouse und MySQL. Auch hier zeigen die Benchmarks, dass Systeme mit Intel Xeon Prozessor der 5. Generation im Vergleich zur 3. Generation Daten um den Faktor 3,7 (RocksDB) sowie 2,49 (Clickhouse; siehe [D2]).
Intel Storage Engines: mehr IOPS, höherer Datendurchsatz, virtuelle RAIDs
Zu den Intel Storage Engines zählen die bereits erwähnte Funktionen Intel QAT und Intel DSA sowie Intel Volume Management Device (Intel VMD).
Mithilfe des Intel DSA liefern Computersysteme mit Intel Xeon Prozessor der 5. Generation fast 2,5 Mal mehr IOPS (im Vergleich zur 3. Generation). Kleine Datenpakte hingegen werden um den Faktor 0,59 schneller gelesen (siehe [N16]).
Intel QAT wiederum bietet vor allem einen höheren Datendurchsatz, was das Komprimieren von Daten betrifft. Aber auch die NGINX TLS-Handshake-Leistung ist dank Intel QAT auf einem Intel Xeon der 5. Generation um den Faktor 2,17 höhere als ohne den Einsatz von Intel QAT (siehe [N15]).
Mithilfe von Intel VMD lassen sich NVMe-SSDs via PCIe-Bus ohne zusätzliche Hardware-Adapter verwalten. Obendrein stehen mit diesem Accelerator Funktionen wie bootbares RAID, Surprise-Hot-Plug und blinkende Status-LEDs zur Verfügung, woraus sich eine bessere Wartbarkeit ergibt. Praktisch an Intel VMD ist obendrein die Option Intel Virtual RAID on CPU (Intel VROC) zu nutzen. Damit steht eine virtuelle RAID-Lösung bereit, und das ohne die Komplexität, die Kosten und den Stromverbrauch herkömmlicher Hardware-RAID-HBA-Karten.
Disclaimer: Für das Verfassen und Veröffentlichen dieses Blogbeitrags hat mich die Firma Intel beauftragt. Bei der Ausgestaltung der Inhalte hatte ich nahezu freie Hand.