Skip to main content

Lösung

Machine Learning und GPU

Deep Learning

Welche grundlegenden Rechenoperationen sind für ML Anwendungen wichtig?

Für maschinelles Lernen (ML) sind vor allem folgende grundlegende Rechenoperationen wichtig:

1. Addition und Subtraktion für Datenanpassungen und Fehlerkorrekturen.
2. Multiplikation und Division zur Skalierung und Normalisierung von Daten.
3. Matrixmultiplikation für Operationen in neuronalen Netzwerken und für die Darstellung von Transformationen.
4. Gradientenabstieg (eine Methode zur Optimierung) nutzt Differentialrechnung, um das Minimum einer Funktion zu finden.
5. Faltungsoperationen in Faltungsnetzwerken für die Bild- und Signalverarbeitung.

Diese Operationen sind die Bausteine für komplexere Algorithmen und Modelle im Bereich des maschinellen Lernens und der künstlichen Intelligenz.

Wieso können ML Anwendungen so stark parallelisiert werden?

ML Anwendungen können stark parallelisiert werden, weil sie oft aus vielen unabhängigen Berechnungen bestehen, besonders bei Operationen wie Matrixmultiplikationen und Faltungsoperationen, die in neuronalen Netzen häufig vorkommen. Diese Unabhängigkeit ermöglicht es, Berechnungen gleichzeitig auf mehreren Prozessoren oder Rechenkernen auszuführen. Zudem sind Daten oft in kleine, verarbeitbare Blöcke unterteilbar, die parallel analysiert und verarbeitet werden können, was zu einer erheblichen Beschleunigung des Lernprozesses führt.

How GPU Computing Works | GTC 2021

Wie Unterscheiden sich GPUs von CPUs?

GPUs (Graphics Processing Units) und CPUs (Central Processing Units) unterscheiden sich hauptsächlich in ihrer Architektur und Verarbeitungsfähigkeit. CPUs sind mit wenigen, aber leistungsstarken Kernen ausgestattet, die auf effiziente sequenzielle Verarbeitung ausgelegt sind, was sie ideal für eine Vielzahl von allgemeinen Rechenaufgaben macht. GPUs besitzen hingegen tausende von kleineren Kernen, die für die parallele Ausführung von Aufgaben konzipiert sind, was sie besonders geeignet für spezialisierte Anwendungen macht, die eine hohe Rechenleistung erfordern, wie Grafikrendering, wissenschaftliche Simulationen und maschinelles Lernen. Diese strukturelle Differenz führt dazu, dass GPUs in der Lage sind, viele Berechnungen gleichzeitig durchzuführen, während CPUs sich auf die schnelle Ausführung einer kleineren Anzahl von Prozessen konzentrieren.

Wie ermöglichen GPUs die hohe parallele Ausführung von Berechnungen?

GPUs ermöglichen die hohe parallele Ausführung von Berechnungen durch ihre Architektur, die aus Hunderten bis Tausenden von kleineren Verarbeitungseinheiten besteht. Diese Einheiten können viele Berechnungen gleichzeitig durchführen, da sie in der Lage sind, grosse Aufgaben in kleinere, parallel verarbeitbare Abschnitte zu unterteilen.

Cloud Computing

Wie ist der AWS Inferentia2 aufgebaut?

Der AWS Inferentia2 ist ein Beschleuniger für Deep-Learning-Inferenzen, der mit zwölf Geräten ausgestattet ist, die jeweils zwei NeuronCore-v2 Kerne enthalten. Die hohe Rechenleistung dieser Kerne wird durch einen hohen Bandbreitenspeicher mit signifikanter Bandbreite von 32 GiB unterstützt. Inferentia2 bietet erweiterte Funktionen für die Handhabung dynamischer Formen und Kontrollflüsse und unterstützt durch NeuronLink-v2 für optimierte Geräteverbindungen, um Datentransfers mit hoher Geschwindigkeit und Effizienz durchzuführen. Weitere Informationen finden Sie in der AWS Neuron Dokumentation. ​

Für welche Rechenoperationen ist der AWS Inferentia2 optimiert?

Der AWS Inferentia2 wurde entwickelt, um eine Vielzahl von Rechenoperationen wie INT8, FP16, BF16, cFP8, TF32 und FP32 zu unterstützen. Er bietet hohe Leistung für Deep-Learning-Inferenz-Aufgaben und wird durch spezialisierte Hardwarekomponenten wie NeuronCore-v2 Kerne, High-Bandwidth-Memory und NeuronLink-v2 unterstützt, um effiziente Geräteverbindungen zu gewährleisten. Inferentia2 kann aufgrund dieser Verbesserungen zahlreiche Machine-Learning-Modelle und Anwendungen effektiv unterstützen.

Wie unterscheiden sich die KI-Beschleuniger-Instanzen von herkömmlichen CPU-Instanzen?

KI-Beschleuniger-Instanzen sind speziell für KI- und ML-Aufgaben optimiert und bieten im Gegensatz zu herkömmlichen CPU-Instanzen deutlich höhere Rechenleistung bei solchen Anwendungen. Sie nutzen spezielle Hardware wie GPUs oder ASICs, die für parallele Datenverarbeitung und spezifische Rechenoperationen entwickelt wurden, die in KI-Modellen häufig vorkommen. Dies führt zu schnelleren Verarbeitungszeiten und effizienterem Ressourceneinsatz bei KI-Berechnungen, aber nicht so leistungsfähig bei spezialisierten KI-Aufgaben im Vergleich zu CPU-Instanzen, die für eine breitere Palette von Anwendungen konzipiert sind.

Wie sind die Preise für KI-Beschleuniger Instanzen?

AWS bietet eine Vielzahl von KI-Beschleunigerinstanzen für Deep-Learning-Inferenzen an. Die Inf2-Instanzen sind sehr leistungsfähig und kostengünstig. Aufgrund ihrer äußerst schnellen internen Verbindungen können sie verteilte Inferenzen über mehrere Beschleuniger hinweg durchführen und Modelle mit hunderten Milliarden Parametern ausführen. Inf2-Instanzen sind im Vergleich zu vergleichbaren EC2-Instanzen bis zu vierzig Prozent kosteneffizienter und liefern einen bis zu vierfach höheren Durchsatz und eine bis zu zehnfach niedrigere Latenz.

Inf2-Instanzen können mit der Integration in das AWS Neuron SDK gängige maschinelle Lernframeworks und Bibliotheken unterstützen, was optimale Ergebnisse für Modelle aus bekannten Quellen wie Hugging Face gewährleistet. Sie bieten herausragende Leistungen aufgrund ihrer beeindruckenden Rechenkapazität von bis zu 2,3 Petaflops, bis zu 384 GB Hochbandbreitenspeicher für Beschleuniger und NeuronLink-Verbindungen, die schnelle Interaktionen zwischen den Beschleunigern ermöglichen.

Beispielhafte Preise für Inf2-Instanzen in der AWS-Region US East (Nord-Virginia) reichen von 0,76 USD pro Stunde für eine inf2.xlarge-Instanz bis zu 12,98 USD pro Stunde für eine inf2.48xlarge-Instanz, je nach Konfiguration. AWS bietet auch die Möglichkeit, Geld zu sparen, indem Sie 1- oder 3-jährige Reservierungen abschließen. Kundenbewertungen zeigen, dass der Einsatz von Inf1- und Inf2-Instanzen im Vergleich zu herkömmlichen GPU-basierten Lösungen verbesserte Leistung pro Inferenz sowie erhebliche Kosten- und Latenzzeiten verringert.

 

Preise

Instance-Größe Inferentia2-Beschleuniger Beschleuniger
Arbeitsspeicher
(GB)
vCPU Arbeitsspeicher
(GiB)
Lokale
Speicherung
Inter-Beschleuniger
Interconnect
Netzwerk
Bandbreite
(Gbit/s)
EBS
Bandbreite
(Gbit/s)
On-Demand-Preise Reservierte Instance für 1 Jahr Reservierte Instance für 3 Jahre
inf2.xlarge 1 32 4 16 Nur EBS Bis zu 15 Bis zu 10 0,76 USD 0,45 USD 0,30 USD
inf2.8xlarge 1 32 32 128 Nur EBS Bis zu 25 10 1,97 USD 1,81 USD 0,79 USD
inf2.24xlarge 6 192 96 384 Nur EBS Ja 50 30 6,49 USD 3,89 USD 2,60 USD
inf2.48xlarge 12 384 192 768 Nur EBS Ja 100 60 12,98 USD 7,79 USD 5,19 USD