Spricht man mit Experten über das schnelle und leistungsfähige Berechnen und Bereitstellen von Trainingsdaten im KI-Kontext, scheint die passende Hardware ein wichtiger Aspekt zu sein. Welche weiteren Gesichtspunkte für den steigenden Bedarf an passenden KI-Beschleunigern sonst noch sprechen, verrät dieser Blogbeitrag.
Egal, ob es sich um das Trainieren von KI-Anwendungen handelt, wie sie bei der Qualitätssicherung in Produktionsumgebungen zum Einsatz kommen, oder einfach nur das blitzschnelle Erkennen einer roten Ampel ist (Stichwort: autonomes Fahren): Die zugehörigen Algorithmen liefern eine ganze Menge, wenn von einer möglichst leistungsfähigen und zuverlässigen KI-Lösung die Rede ist. Dabei spielt die zugrunde liegende Hardware, auf der die Berechnungen stattfinden, eine wesentliche Rolle. Doch worin unterscheiden sich die verfügbaren KI-Beschleuniger im Wesentlichen? Ein Erklärungsversuch.
[irp posts=“168685″ ]
Der zentrale Hauptprozessor: Der Anfang vom Ganzen
Klar, die Prozessoreinheit(en) einer Hochleistungsmaschine sollten vor allem eines können: Möglichst schnell rechnen. Allerdings, und das ist beispielsweise ein wesentliches Argument für die aktuellen skalierbaren Intel Xeon Prozessoren, sollten sie darüber hinaus Funktionen bieten, die das KI-Ergebnis entweder exakter machen oder die benötigten Ergebnisse schneller bereit stellen. So fasst beispielsweise die CPU-Funktion Intel Deep Learning Boost drei Befehle zu einem einzigen zusammen, womit der KI-Algorithmus schneller ausgeführt werden kann, ohne dass der Prozessor zusätzlich beansprucht wird.
[irp posts=“168611″ ]
Darüber hinaus lassen sich mithilfe spezieller Toolkits bessere Inferenz-Ergebnisse erzielen, die ansonsten nur sehr viel aufwändiger zur Verfügung stünden. Die Rede ist zum Beispiel von Intel OpenVINO. Dahinter verbirgt sich ein Cross-Plattform-Werkzeug, mit dessen Hilfe sich Deep-Learning-basierte Anwendungen schneller für eine Vielzahl von Endgeräten optimieren lassen. Hierfür stehen vorgefertigte KI-Modelle zur Verfügung, die bereits ein rudimentäres Training durchlaufen haben. Das erleichtert und beschleunigt die eigene KI-Anwendung.
FGPA-Beschleuniger für das Adaptieren von KI-Lösungen
Programmierbare Hardware-Bausteine wie FGPA-Komponenten ermöglichen neue Ansätze, was das Entwicklen von KI-Anwendungen betrifft. So kommt beispielsweise der Intel Stratix 10 NX FGPA-Baustein bei Myrtle.ai zum Einsatz. Damit kann deren KI-basierte Text-to-Speech-Anwendung namens WaveNet derart beschleunigt werden, dass 256 Livestreams parallel in Echtzeit möglich sind. Und das in einer sehr guten Soundqualität, die nahe an die menschliche Stimme heranreicht.
Der FGPA-Baustein befindet sich hierfür auf einem Intel Xeon-basierten Rechner, und das auf einer dedizierten PCI-Karte. Wie praktisch, dass für solch einen KI-Beschleuniger eigene Entwicklertools und spezielle Konfigurationskomponenten wie zum Beispiel das Intel Agilex F-Series FPGA Development Kit zur Verfügung stehen.
[irp posts=“169098″ ]
Maschinelles Sehen im Fokus: Vision Processing Units
Für das Aufbereiten von Wissen (der sogenannten Inferenz) hat Intel eine sogenannte VPU (Vision Processing Unit) im Programm. Der KI-Beschleuniger dazu nennt sich Intel Movidius Myriad X VPU, der mit einer neuronalen Compute-Einheit ausgestattet ist. Zu den Anwendungsgebieten dieser VPUs gehören unter anderem kameragestützte Applikationen, wie sie in Fabriken für die Qualitätssicherung zum Einsatz kommen. Auch hier lassen sich KI-Algorithmen bestmöglich nutzen.
Ein weiteres Anwendungsszenario von VPU-basierten Systemen sind Edge-Infrastrukturen, wo mithilfe der Künstlichen Intelligenz und stromsparender Computersysteme ein Maximum an Leistung und ein Minimum an Energieverbrauch gewährleistet werden kann. Also überall dort, wo schlanke, platzsparende Rechner ihren Aufgaben nachkommen, und das mit einem Höchstmaß an Rechenleistung.
[irp posts=“32147″ ]
Habana Gaudi und Intel Ponte Vecchio für aufwändigste Berechnungen im Supercomputing-Umfeld
Das Thema KI-Beschleuniger macht natürlich auch vor den sehr aufwändigen Deep Learning-Trainingssessions nicht halt, wie sie beispielsweise im Supercomputer-Umfeld vorkommen. So habe ich auf diesem Blog schon vor geraumer Zeit über Habana Gaudi AI Training Prozessoren und Goya AI Inference-Beschleuniger berichtet, die allesamt von Habana Labs stammen. Dieses Unternehmen gehört seit Dezember 2019 zu Intel und entwickelt gemeinsam mit dem Chiphersteller KI-Lösungen und -Technologien auf Höchstniveau.
[irp posts=“168502″ ]
In dieselbe Richtung zielt das GPU-Projekt „Ponte Vecchio“ alias Intel Xe HPC. Dieser GPU-Beschleuniger besteht aus einer Reihe zahlreicher Silizium-Chiplets und soll vor allem in Supercomputern zu KI-Zwecken zum Einsatz kommen. Als eine Art Referenzprojekt soll noch in diesem Jahr der Exascale-Supercomputer Aurora dem Energieministerium der USA enorme Dienste leisten. Hierbei ist die Rede von einer Rechenleistung, die bei einem exaFLOP liegen soll. Das entspricht einer Trillion Rechnungen pro Sekunde. Das ist eine Zahl mit 18 Nullen, oder auch eine Million Billionen.
Disclaimer: Für das Verfassen und Veröffentlichen dieses Blogbeitrags hat mich die Firma Intel beauftragt. Bei der Ausgestaltung der Inhalte hatte ich nahezu freie Hand.