NVIDIA zagłębia się w funkcjonalność VRAM kart GeForce RTX z serii 40


Otrzymujemy wiele pytań dotyczących pamięci graficznej, znanej również jako bufor ramki, pamięć wideo lub „VRAM”, dlatego wraz z prezentacją naszej nowej rodziny kart graficznych GeForce RTX 4060 chcieliśmy podzielić się kilkoma spostrzeżeniami, aby gracze mogli podejmować najlepsze decyzje zakupowe dla swoich potrzeb związanych z grami. Co to jest pamięć VRAM? VRAM to szybka pamięć umieszczona na karcie graficznej.

Jest to jeden ze składników większego podsystemu pamięci, który pomaga upewnić się, że GPU ma dostęp do danych potrzebnych do płynnego przetwarzania i wyświetlania obrazów. W tym artykule opiszemy innowacje w podsystemie pamięci w naszej architekturze GPU Ada Lovelace najnowszej generacji, a także opiszemy, w jaki sposób szybkość i rozmiar pamięci podręcznej GPU i pamięci VRAM wpływają na wydajność i rozgrywkę.

Podsystem pamięci kart graficznych GeForce RTX z serii 40: poprawa wydajności i efektywności

Nowoczesne gry to graficzne wizytówki, a rozmiary ich instalacji mogą teraz przekraczać 100 GB. Dostęp do tej ogromnej ilości danych odbywa się z różną szybkością, określoną przez specyfikacje karty graficznej i do pewnego stopnia innych komponentów systemu. W kartach graficznych GeForce RTX z serii 40 nowe innowacje przyspieszają proces płynnej gry i większej liczby klatek na sekundę, pomagając uniknąć strumieniowania tekstur lub innych problemów.

Znaczenie pamięci podręcznej
Układy GPU obejmują szybkie pamięci podręczne, które znajdują się blisko rdzeni przetwarzających GPU, w których przechowywane są dane, które mogą być potrzebne. Jeśli GPU może przywołać dane z pamięci podręcznej, zamiast żądać ich z pamięci VRAM (dalej) lub systemowej pamięci RAM (jeszcze dalej), dostęp do danych i przetwarzanie danych będą szybsze, co zwiększy wydajność i płynność gry oraz zmniejszy zużycie energii .

Układy GPU GeForce są wyposażone w pamięć podręczną poziomu 1 (L1) (najbliższą i najszybszą pamięć podręczną) w każdym multiprocesorze strumieniowym (SM), z czego do dwunastu można znaleźć w każdym klastrze przetwarzania grafiki GeForce RTX z serii 40 (GPC). Następnie dostępna jest szybka, większa, współdzielona pamięć podręczna poziomu 2 (L2), do której można szybko uzyskać dostęp przy minimalnych opóźnieniach.

Dostęp do każdego poziomu pamięci podręcznej wiąże się z opóźnieniem, a kompromisem jest większa pojemność. Podczas projektowania naszych układów GPU GeForce RTX z serii 40 stwierdziliśmy, że pojedyncza, duża pamięć podręczna L2 jest szybsza i bardziej wydajna niż inne alternatywy, takie jak te z małą pamięcią podręczną L2 i dużą, wolniej dostępną pamięcią podręczną L3.

Reklama

Układy GPU GeForce poprzedniej generacji miały znacznie mniejsze pamięci podręczne L2, co skutkowało niższą wydajnością i wydajnością w porównaniu z dzisiejszymi układami GPU GeForce RTX z serii 40.

Podczas użytkowania GPU najpierw wyszukuje dane w pamięci podręcznej danych L1 w SM, a jeśli dane zostaną znalezione w L1, nie ma potrzeby uzyskiwania dostępu do pamięci podręcznej danych L2. Jeśli dane nie zostaną znalezione w L1, nazywa się to „chybieniem pamięci podręcznej”, a wyszukiwanie jest kontynuowane w pamięci podręcznej L2. Jeśli dane zostaną znalezione w warstwie L2, jest to nazywane „trafieniem w pamięć podręczną” warstwy L2 (patrz wskaźniki „H” na powyższym diagramie), a dane są dostarczane do warstwy L1, a następnie do rdzeni przetwarzających.

Jeśli dane nie zostaną znalezione w pamięci podręcznej L2, co oznacza brak pamięci podręcznej L2, GPU próbuje teraz uzyskać dane z pamięci VRAM. Na powyższym diagramie, który przedstawia podsystem pamięci naszej wcześniejszej architektury, można zobaczyć liczbę braków w pamięci podręcznej L2, co powoduje szereg dostępów do pamięci VRAM.

Jeśli brakuje danych w pamięci VRAM, GPU żąda ich z pamięci twojego systemu. Jeśli dane nie znajdują się w pamięci systemowej, zazwyczaj można je załadować do pamięci systemowej z urządzenia pamięci masowej, takiego jak dysk SSD lub dysk twardy. Dane są następnie kopiowane do VRAM, L2, L1 i ostatecznie przekazywane do rdzeni przetwarzających. Należy zauważyć, że istnieją różne strategie oparte na sprzęcie i oprogramowaniu, aby zachować najbardziej przydatne i najczęściej ponownie wykorzystywane dane w pamięciach podręcznych.

Każda dodatkowa operacja odczytu lub zapisu danych w hierarchii pamięci spowalnia wydajność i zużywa więcej energii, więc zwiększając częstotliwość trafień w pamięci podręcznej, zwiększamy liczbę klatek na sekundę i wydajność.

W porównaniu z procesorami graficznymi poprzedniej generacji ze 128-bitowym interfejsem pamięci, podsystem pamięci nowej architektury NVIDIA Ada Lovelace zwiększa rozmiar pamięci podręcznej L2 o 16 razy, znacznie zwiększając współczynnik trafień pamięci podręcznej. W powyższych przykładach, reprezentujących 128-bitowe procesory graficzne firmy Ada i architektury poprzedniej generacji, wskaźnik trafień jest znacznie wyższy w przypadku Ady. Ponadto przepustowość pamięci podręcznej L2 w procesorach graficznych Ada została znacznie zwiększona w porównaniu z poprzednimi procesorami graficznymi. Pozwala to na jak najszybsze przesyłanie większej ilości danych między rdzeniami a pamięcią podręczną L2.

Jak pokazano na poniższym diagramie, inżynierowie firmy NVIDIA przetestowali kartę RTX 4060 Ti z 32 MB pamięci podręcznej L2 w porównaniu ze specjalną wersją testową RTX 4060 Ti, używając tylko 2 MB pamięci L2, co odpowiada rozmiarowi pamięci podręcznej L2 128-bitowych procesorów graficznych poprzedniej generacji (gdzie 512 KB pamięci podręcznej L2 było powiązane z każdym 32-bitowym kontrolerem pamięci).

W testach z różnymi grami i syntetycznymi testami porównawczymi pamięć podręczna L2 o pojemności 32 MB zmniejszyła ruch na szynie pamięci średnio o nieco ponad 50% w porównaniu z wydajnością pamięci podręcznej L2 o pojemności 2 MB. Zobacz zredukowany dostęp do VRAM na diagramie Ada Memory Subsystem powyżej.

Ta redukcja ruchu o 50% pozwala procesorowi graficznemu na dwukrotnie wydajniejsze wykorzystanie przepustowości pamięci. W rezultacie w tym scenariuszu, pomijając wydajność pamięci, procesor graficzny Ada o szczytowej przepustowości pamięci 288 GB/s działałby podobnie do procesora graficznego Ampere o szczytowej przepustowości pamięci 554 GB/s. W wielu grach i testach syntetycznych znacznie zwiększona liczba trafień poprawia liczbę klatek na sekundę nawet o 34%.

Szerokość magistrali pamięci jest jednym z aspektów podsystemu pamięci

W przeszłości szerokość magistrali pamięci była ważnym wskaźnikiem określającym szybkość i klasę wydajności nowego procesora graficznego. Jednak sama szerokość magistrali nie jest wystarczającym wskaźnikiem wydajności podsystemu pamięci. Zamiast tego warto zrozumieć szerszy projekt podsystemu pamięci i jego ogólny wpływ na wydajność gier.

Dzięki postępom w architekturze Ada, w tym nowym rdzeniom RT i Tensor, wyższym częstotliwościom taktowania, nowemu silnikowi OFA i możliwościom DLSS 3 firmy Ada, karta GeForce RTX 4060 Ti jest szybsza niż poprzednie generacje, 256-bitowe karty GeForce RTX 3060 Karty graficzne Ti i RTX 2060 SUPER, a wszystko to przy mniejszym zużyciu energii.

W sumie specyfikacja techniczna zapewnia świetny procesor graficzny klasy 60 o wysokiej wydajności dla graczy 1080p, którzy stanowią większość użytkowników Steam.

Ilość pamięci VRAM zależy od architektury GPU

Gracze często zastanawiają się, dlaczego karta graficzna ma określoną ilość pamięci VRAM. Pamięć GDDR6X i GDDR6 obecnej generacji jest dostarczana w gęstościach 8 GB (1 GB danych) i 16 Gb (2 GB danych) na układ. Każdy układ wykorzystuje dwa oddzielne 16-bitowe kanały do ​​połączenia z pojedynczym 32-bitowym kontrolerem pamięci Ada. Tak więc 128-bitowy procesor graficzny może obsługiwać 4 układy pamięci, a 384-bitowy układ GPU może obsługiwać 12 układów (obliczonych jako szerokość magistrali podzieloną przez 32). Chipy o większej pojemności kosztują więcej, więc optymalizacja cen wymaga równowagi.

W naszych nowych procesorach graficznych GeForce RTX 4060 Ti z 128-bitową magistralą pamięci model 8 GB wykorzystuje cztery układy pamięci GDDR6 16 Gb, a model 16 GB wykorzystuje osiem układów 16 Gb. Mieszanie gęstości nie jest możliwe, co uniemożliwia na przykład utworzenie modelu o pojemności 12 GB. Dlatego też GeForce RTX 4060 Ti ma opcję z większą pamięcią (16 GB) niż GeForce RTX 4070 Ti i 4070, które mają 192-bitowe interfejsy pamięci, a więc 12 GB VRAM.

Nasze procesory graficzne klasy 60 zostały starannie opracowane, aby zapewnić optymalne połączenie wydajności, ceny i energooszczędności, dlatego wybraliśmy 128-bitowy interfejs pamięci. Krótko mówiąc, procesory graficzne o większej pojemności z tą samą szerokością magistrali zawsze mają dwukrotnie większą pamięć.

Czy narzędzia ekranowe (OSD) dokładnie raportują wykorzystanie pamięci VRAM?
Gracze często powołują się na metrykę „wykorzystanie pamięci VRAM” w narzędziach do pomiaru wydajności wyświetlanych na ekranie. Ale ta liczba nie jest całkowicie dokładna, ponieważ wszystkie gry i silniki gier działają inaczej. W większości przypadków gra sama przydziela pamięć VRAM, mówiąc systemowi: „Chcę ją, gdybym jej potrzebował”. Ale tylko dlatego, że przechowuje VRAM, nie oznacza, że ​​​​tak naprawdę potrzebuje tego wszystkiego. W rzeczywistości gry często wymagają więcej pamięci, jeśli jest dostępna.

Ze względu na sposób, w jaki działa pamięć, nie można dokładnie wiedzieć, co jest aktywnie używane, chyba że jesteś programistą gry z dostępem do narzędzi programistycznych. Niektóre gry oferują przewodnik w menu opcji, ale nawet to nie zawsze jest dokładne. Ilość faktycznie potrzebnej pamięci VRAM będzie się zmieniać w czasie rzeczywistym w zależności od sceny i tego, co widzi gracz.

Co więcej, zachowanie gier może się różnić, gdy pamięć VRAM jest naprawdę wykorzystana do maksimum. W niektórych przypadkach pamięć jest czyszczona, co powoduje zauważalny spadek wydajności, podczas gdy bieżąca scena jest ponownie ładowana do pamięci. W innych tylko wybrane dane będą ładowane i usuwane, bez widocznego wpływu. W niektórych przypadkach nowe zasoby mogą ładować się wolniej, ponieważ są teraz pobierane z systemowej pamięci RAM.

Dla graczy gra jest jedynym sposobem, aby naprawdę sprawdzić zachowanie gry. Ponadto gracze mogą spojrzeć na pomiary liczby klatek na sekundę przy „niskim 1%”, co może pomóc w analizie rzeczywistych wrażeń z gry. Metryka 1% Low — znaleziona w nakładce wydajności i dziennikach darmowej karty NVIDIA Widok ramki app, a także inne popularne narzędzia pomiarowe – mierzy średnią z 1% najwolniejszych klatek w określonym przedziale czasu.

Zautomatyzuj wybór ustawień dzięki oprogramowaniu GeForce Experience i pobierz najnowsze poprawki
Ostatnio niektóre nowe gry wydały łatki, aby lepiej zarządzać zużyciem pamięci, bez obniżania jakości obrazu. Upewnij się, że pobierasz najnowsze poprawki dla nowych premier, ponieważ często naprawiają one błędy i optymalizują wydajność wkrótce po uruchomieniu.

Dodatkowo, Doświadczenie GeForce’a obsługuje większość nowych gier, oferując zoptymalizowane ustawienia dla każdej obsługiwanej konfiguracji GPU GeForce i VRAM, zapewniając graczom najlepsze możliwe wrażenia dzięki zrównoważeniu wydajności i jakości obrazu. Jeśli nie znasz żargonu związanego z opcjami gier i po prostu chcesz cieszyć się grami od momentu ich załadowania, oprogramowanie GeForce Experience może automatycznie dostroić ustawienia gry, zapewniając za każdym razem wspaniałe wrażenia.

Technologie NVIDIA mogą pomóc programistom zmniejszyć zużycie pamięci VRAM
Gry są bogatsze i bardziej szczegółowe niż kiedykolwiek wcześniej, co wymaga instalacji ponad 100 GB. Aby pomóc programistom zoptymalizować wykorzystanie pamięci, firma NVIDIA udostępnia kilka bezpłatnych narzędzi programistycznych i zestawów SDK, w tym:

To tylko niektóre z narzędzi i technologii udostępnianych bezpłatnie przez firmę NVIDIA, aby pomóc programistom zoptymalizować ich gry pod kątem wszystkich procesorów graficznych, platform i konfiguracji pamięci.

Niektóre aplikacje mogą wykorzystywać więcej pamięci VRAM
Poza grami karty graficzne GeForce RTX są używane na całym świecie do animacji 3D, edycji wideo, animacji, fotografii, projektowania graficznego, wizualizacji architektury, STEM, transmisji i sztucznej inteligencji. Niektóre aplikacje używane w tych branżach mogą korzystać z dodatkowej pamięci VRAM. Na przykład podczas edytowania osi czasu 4K lub 8K w programie Premiere lub tworzenia ogromnej sceny architektonicznej w programie D5 Render.

Jeśli chodzi o gry, wysokie rozdzielczości zwykle wymagają zwiększenia pamięci VRAM. Czasami gra może zostać uruchomiona z opcjonalnym bardzo dużym pakietem tekstur i przydzielić więcej pamięci VRAM. Jest też kilka gier, które działają najlepiej przy ustawieniach „High” na 4060 Ti (8 GB) i maksymalnych ustawieniach „Ultra” na 4060 Ti (16 GB). W większości gier obie wersje karty GeForce RTX 4060 Ti (8 GB i 16 GB) mogą grać na maksymalnych ustawieniach i zapewnią taką samą wydajność.

Zaletą platformy PC jest jej otwartość, konfigurowalność i możliwość rozbudowy, dlatego oferujemy dwie konfiguracje pamięci dla karty GeForce RTX 4060 Ti; jeśli potrzebujesz dodatkowej pamięci VRAM, będzie ona dostępna w lipcu.

Karta graficzna dla każdego gracza
Po uruchomieniu ww Rodzina GeForce RTX 4060, dostępne będą zoptymalizowane karty graficzne dla każdej z trzech głównych rozdzielczości gier. Jakkolwiek grasz, wszystkie układy GPU GeForce RTX z serii 40 zapewnią najlepsze w swojej klasie wrażenia, z wiodącą wydajnością energetyczną, wspieraną przez szeroką gamę technologii usprawniających grę, w tym NVIDIA DLSS 3NVIDIA OdruchNVIDIA G-SYNCNVIDIA AudycjaI Remiks RTX.

Aby być na bieżąco z najnowszymi wiadomościami na temat wszystkich nowych gier i aplikacji wykorzystujących pełne możliwości kart graficznych GeForce RTX GeForce.com.



Source link

Advertisment

Więcej

ZOSTAW ODPOWIEDŹ

Proszę wpisać swój komentarz!
Proszę podać swoje imię tutaj

Advertisment

Podobne

Advertisment

Najnowsze

Jak oglądać Nintendo Indie World kwiecień 2024

W środę, 17 kwietnia Nintendo wyemituje nową prezentację Indie World, która obiecuje „około 20 minut ogłoszeń i aktualizacji na temat gier...

Uchwyt Rode MagSafe – podłącz lampy wideo i mikrofony do swojego iPhone’a

Podczas nagrywania filmów o profesjonalnym standardzie możliwe jest użycie formatu iPhone'azazwyczaj wymaga użycia akcesoriów, takich jak oświetlenie i mikrofony zewnętrzne. Nowy Rod...

Sony chce „ulepszonych” gier na PS5 Pro w 60 klatkach na sekundę, ale chętnie zadowala się mniejszą kwotą

Sony pracuje nad nową „zaawansowaną wersją” PS5 o nazwie kodowej Trinity, która prawdopodobnie zadebiutuje jako PS5 Pro jeszcze w tym roku. Krawędź potwierdziła...
Advertisment