Firma Intel opublikowała post na blogu szczegółowo opisujący sposób uruchomienia dużego modelu językowego Llama 2 Meta AI na karcie graficznej Arc „Alchemist” A770. Model wymaga 14 GB pamięci RAM GPU, dlatego rekomendowana jest wersja A770 z 16 GB. Rozwój ten można postrzegać jako bezpośrednią reakcję na narzędzie NVIDIA Chat with RTX, które umożliwia użytkownikom GeForce wyposażonym w procesory graficzne RTX z serii 30 „Ampere” i RTX 40 z serii „Ada” o pojemności > 8 GB na uruchamianie modeli PyTorch-LLM na swoich kartach graficznych . NVIDIA osiąga mniejsze zużycie pamięci VRAM poprzez dystrybucję wersji modeli skwantowanych na poziomie INT4, podczas gdy Intel wykorzystuje bardziej precyzyjną wersję FP16. Teoretycznie nie powinno to mieć większego wpływu na wyniki. Ten wpis na blogu firmy Intel zawiera instrukcje dotyczące konfigurowania wnioskowania Llama 2 za pomocą PyTorch (IPEX) na A770.