Cechy architektury Maia 100 SoC:
- Szybka jednostka tensorowa (16xRx16) umożliwia szybkie przetwarzanie na potrzeby treningu i wnioskowania, a jednocześnie obsługuje szeroką gamę typów danych, w tym typy danych o niskiej precyzji, takie jak format danych MX, wprowadzony po raz pierwszy przez firmę Microsoft za pośrednictwem MX Consortium w 2023 r.
- Procesor wektorowy to luźno powiązany silnik superskalarny zbudowany w oparciu o niestandardową architekturę zestawu instrukcji (ISA) w celu obsługi szerokiego zakresu typów danych, w tym FP32 i BF16.
- Silnik bezpośredniego dostępu do pamięci (DMA) obsługuje różne schematy partycjonowania tensora.
- Semafory sprzętowe umożliwiają asynchroniczne programowanie w systemie Maia.
Maia 100 wykorzystuje połączenie sieciowe oparte na Ethernet ze specjalnym protokołem podobnym do RoCE, który umożliwia bardzo szybkie przetwarzanie danych. Może obsłużyć do 4800 Gbps dla niektórych operacji danych i 1200 Gbps dla komunikacji all-to-all.
Specyfikacja Maia 100:
- Rozmiar chipa: 820 mm²
- Projekt do TDP: 700 W
- Zapewnij TDP: 500 W
- Opakowanie: proces TSMC N5 z technologią interposera COWOS-S
- HBM BW/Cap: 1,8 TB/s przy 64 GB HBM2E
- Gęsty tensor szczytowy POPS: 6 bitów: 3, 9 bitów: 1,5, BF16: 0,8
- Poziom 1/poziom 2: 500 MB
- Sieć zaplecza BW: 600 GB/s (12X400gbe)
- Host BW (PCIe): 32 GB/s PCIe Gen5X8
Maia Software Development Kit (SDK) pomaga programistom dostosować modele PyTorch i Triton do użytku z Maia. SDK zawiera różne narzędzia ułatwiające korzystanie z tych modeli za pomocą usług Azure OpenAI Services. Programiści mogą pisać kod dla systemu Maia, używając Triton, języka DSL (domenowego języka źródłowego) dla głębokich sieci neuronowych, lub Maia API, niestandardowego modelu, który oferuje wysoką wydajność i szczegółową kontrolę. Maia bezpośrednio obsługuje PyTorch, więc programiści mogą uruchamiać modele PyTorch, wprowadzając jedynie drobne zmiany w kodzie. Będzie ciekawie zobaczyć, czy Microsoft zdecyduje się udostępnić dostęp do akceleratorów Maia 100 innym organizacjom, podobnie jak Google i Amazon zrobiły to ze swoimi układami AI.