Dobór stacji pod lokalne AI | Cz. 2: GPU i akceleratory NVIDIA

29.06.2026 How to Studia przypadków Informacje produktowe Product news Case studies
Dobór stacji pod lokalne AI | Cz. 2: GPU i akceleratory NVIDIA
Wizerunek autora
Producent: Advantech, Neousys Technology, MSI IPC, MSI EPS

Seria: dobór stacji pod lokalne AI · Część 02 / 06

GPU to serce stacji do AI i zwykle jej najdroższy element. To też wybór, w którym najłatwiej przepłacić albo kupić kartę, która nie udźwignie modelu. Ta część jest praktycznym przewodnikiem: jak czytać specyfikację akceleratora pod inferencję i agentów, jak rozumieć architektury oraz formaty precyzji NVIDIA i jak dobrać konkretny układ do modelu i obciążenia.

W części 1 ustaliliśmy trzy liczby rządzące lokalnym AI: pojemność pamięci (VRAM), jej przepustowość i moc obliczeniową. Teraz przykładamy je do realnych kart NVIDIA, od stacji roboczych po centrum danych. Skupiamy się na NVIDIA, bo to ekosystem CUDA i sprzęt, który faktycznie trafia do stacji oraz serwerów AI u naszych klientów.

Komputery przemysłowe AI Elmatic z kartami NVIDIA RTX

Komputery AI Elmatic z kartami NVIDIA RTX. Zobacz platformy RTX

01 Co naprawdę liczy się w karcie do AI

Karta do gier i karta do AI to dwa różne kryteria zakupu. Co więcej, samo „AI" to nie jeden workload: inne parametry decydują przy generowaniu tekstu, inne przy treningu, a jeszcze inne przy renderingu. Patrzymy na cztery rzeczy: pojemność VRAM, przepustowość pamięci, rdzenie CUDA (FP32) oraz rdzenie Tensor (niska precyzja FP8/FP4). Poniższa macierz pokazuje, które z nich są decydujące, istotne lub drugorzędne w zależności od zastosowania.

decydujące istotne drugorzędne
AplikacjaVRAM (pojemność)Przepustowość (GB/s)CUDA (FP32)Tensor (FP4/FP8)
Inferencja LLM: dekodowanie (mały batch)decydującedecydującedrugorzędneistotne
Inferencja LLM: prefill, duży batch, wielu userówdecydującedecydującedrugorzędnedecydujące
Trening i fine-tuning modelidecydująceistotnedrugorzędnedecydujące
Generacja obrazów i wideo (dyfuzja)istotneistotneistotnedecydujące
Rendering 3D, path tracingdecydująceistotnedecydującedrugorzędne
CAD, wizualizacja, viewportistotnedrugorzędnedecydującedrugorzędne
Symulacje naukowe (CFD/FEA/MD)istotnedecydującedecydującedrugorzędne
Analityka danych, RAPIDSdecydującedecydująceistotnedrugorzędne

Wniosek dla lokalnych agentów LLM jest jednoznaczny. Przy dekodowaniu, czyli generowaniu odpowiedzi token po tokenie, decydują VRAM i przepustowość pamięci, a rdzenie CUDA schodzą na drugi plan. Rola rdzeni Tensor i niskiej precyzji rośnie dopiero przy dużym batchu, wielu użytkownikach i treningu. To dlatego karta z dużą i szybką pamięcią potrafi bić kartę z samymi wysokimi TFLOPS-ami.

02 Typy pamięci: GDDR, HBM, LPDDR

Akceleratory NVIDIA używają dziś trzech rodzajów pamięci, a różnice w przepustowości między nimi są ogromne. GDDR (GDDR6, GDDR7) trafia do kart konsumenckich i stacji roboczych. HBM (HBM3, HBM3e) to pamięć układana w stos, montowana tuż przy rdzeniu w kartach do centrum danych. LPDDR5x to pamięć unified, współdzielona z procesorem.

Typ pamięciGdzie spotykanaTypowa przepustowośćCharakterystyka
GDDR6workstation Ada, L4 / L40S0,3–0,96 TB/ssprawdzona i tania, bez FP4
GDDR7Blackwell PRO (RTX PRO)0,9–1,8 TB/sszybsza, ECC, obsługa FP4
HBM3Hopper (H100)~3,35 TB/sstos przy rdzeniu, bardzo droga
HBM3eH200, Blackwell DC (B200/B300)4,8–8 TB/snajwyższa przepustowość
LPDDR5x (unified)Grace Blackwell (DGX Spark, GB200)0,27–0,4 TB/sduża pojemność, wspólna z CPU

W praktyce różnicę najlepiej widać na wykresie przepustowości kilku reprezentatywnych układów:

DGX Spark (unified)273 GB/s
L40S (GDDR6)864 GB/s
RTX PRO 6000 (GDDR7)1,79 TB/s
H200 (HBM3e)4,8 TB/s
B200 (HBM3e)8 TB/s
unified (LPDDR5x) GDDR HBM

HBM bywa kilkukrotnie szybsze od GDDR i to ono napędza najszybszą generację tokenów oraz obsługę dużej liczby równoległych sesji. GDDR7 w kartach RTX PRO jest jednak bardzo dobre dla pojedynczego użytkownika i niewielkich zespołów, przy ułamku ceny i poboru mocy układów HBM. Pamięć unified stawia na pojemność kosztem przepustowości.

03 Pamięć unified kontra dedykowany VRAM

W klasycznej karcie każdy układ ma własną, dedykowaną pamięć (GDDR lub HBM). W architekturze Grace Blackwell (układ GB10 w DGX Spark czy GB200) CPU i GPU współdzielą jedną, dużą pulę pamięci unified. To zupełnie inny kompromis.

DEDYKOWANY VRAM

GDDR lub HBM na karcie

Najwyższa przepustowość, czyli najszybsza generacja tokenów. Ograniczeniem jest pojemność pojedynczej karty (od 24 do 288 GB) oraz cena, zwłaszcza przy HBM.

PAMIĘĆ UNIFIED

Wspólna pula CPU i GPU

Bardzo duża pojemność niskim kosztem (np. 128 GB w DGX Spark), kosztem przepustowości. Mieści ogromne modele, ale generuje wolniej niż HBM.

Tu wraca wątek modeli MoE z części 1. Skoro przy każdym tokenie aktywuje się tylko ułamek parametrów, niższa przepustowość pamięci unified mniej przeszkadza, a jej duża pojemność pozwala w ogóle zmieścić model. Dlatego DGX Spark ze 128 GB unified uruchamia modele rzędu 200 mld parametrów, których nie zmieści żadna pojedyncza karta z dedykowanym VRAM. To świetna platforma do prototypowania i pracy z dużymi modelami przy biurku, choć nie do maksymalnej przepustowości produkcyjnej.

04 Architektury i compute capability

Każda generacja NVIDIA dokłada nowe możliwości, zwłaszcza w obsłudze niskiej precyzji. „Compute capability" (CC, oznaczenie sm_) to wersja architektury, od której zależy, jakie formaty i instrukcje karta wspiera natywnie. To ważne, bo nie każda karta „rozumie" FP8 czy FP4.

ArchitekturaCC (sm_)PrzykładyKluczowe funkcje
Ampere8.0 / 8.6A100, RTX A6000FP16 / BF16 / TF32, sparsity 2:4
Ada Lovelace8.9RTX 6000 Ada, L40S+ FP8
Hopper9.0H100, H200+ FP8 Transformer Engine, TMA, async
Blackwell (data-center)10.0B100, B200, B300+ FP4 / FP6, tcgen05, TMEM, 2-SM MMA
Blackwell (konsumencki)12.0RTX 50, RTX PRO Blackwell+ FP4, model rdzeni Tensor bliższy Ampere
Blackwell (zintegrowany)12.1GB10 (DGX Spark)+ FP4, SoC Grace Blackwell (sm_121)

Najważniejsze skoki dla AI to FP8 (Ada, Hopper) oraz FP4 (Blackwell). Ciekawostka: konsumencki Blackwell (RTX 50, RTX PRO Blackwell) ma compute capability 12.0, a zintegrowany GB10 z DGX Spark to 12.1. Oba obsługują FP4, ale ich model rdzeni Tensor jest bliższy generacji Ampere niż wersji data-center. W praktyce: FP4 owszem, lecz część najnowszych usprawnień wydajnościowych zarezerwowano dla układów data-center (B200, B300).

05 Formaty precyzji: od FP32 do FP4

W części 1 patrzyliśmy na kwantyzację od strony „ile zajmie VRAM". Tu spojrzymy od strony sprzętu, czyli które formaty karta liczy natywnie. Zasada jest prosta: mniej bitów to mniej pamięci i większa szybkość, kosztem dokładności. Nowoczesne karty potrafią mieszać formaty, trzymając wagi w niskiej precyzji, a wrażliwe operacje w wyższej.

ciężkie (dużo pamięci) średnie lekkie (mało pamięci)
FormatBity (wykł. / mant.)Pamięć / wartośćMocna stronaTypowe użycieSprzęt min.
FP3232 (8 / 23)4 Bpełna dokładnośćHPC, grafika, wagi-masterkażdy
TF3219 (8 / 10)n/dtrening bez zmian kodumatmul w treninguAmpere+
BF1616 (8 / 7)2 Bzakres FP32, łatwy treningstandard treninguAmpere+
FP1616 (5 / 10)2 Bprecyzyjniejszy niż BF16trening i inferencjawszystkie
FP88 (E4M3 / E5M2)1 Bpołowa pamięci vs FP16, ~2× szybciejinferencja i treningHopper / Ada / Blackwell
FP660,75 Bkrok pośredniinferencjaBlackwell
FP4 / NVFP44 (E2M1) + skala0,5 Bpołowa pamięci vs FP8, ~2× szybciejinferencja, maks. throughputtylko Blackwell

Dla lokalnej inferencji w 2026 punktem wyjścia jest FP8 (Hopper, Ada, Blackwell), a FP4 (tylko Blackwell) daje maksymalny throughput tam, gdzie liczy się przepustowość. BF16 i FP16 zostają głównie do treningu oraz jako format referencyjny. To bezpośredni powód, dla którego generacja Blackwell jest dziś tak atrakcyjna do lokalnego AI.

06 Mapa układów NVIDIA: pełny przegląd

Poniższa tabela porządkuje aktualną ofertę według roli i generacji. Kolor komórki przepustowości odpowiada klasie pamięci: czerwony poniżej 1 TB/s, bursztynowy od 1 do 3 TB/s, zielony powyżej 3 TB/s (HBM).

UkładArchitekturaVRAMPamięć i przepustowośćCUDAFP4NVLinkTDP
Edge · Grace Blackwell (pamięć unified)
GB10 / DGX SparkBlackwell 2025128 GBLPDDR5x · 273 GB/s6 144C2C140 W
Workstation · Ada (GDDR6, bez FP4, bez NVLink, PCIe Gen4)
RTX 4000 AdaAda 202320 GBGDDR6 · 360 GB/s6 144130 W
RTX 4500 AdaAda 202324 GBGDDR6 · 432 GB/s7 680210 W
RTX 5000 AdaAda 202332 GBGDDR6 · 576 GB/s12 800250 W
RTX 6000 AdaAda 202248 GBGDDR6 · 960 GB/s18 176300 W
Workstation i serwer · Blackwell PRO (GDDR7, FP4, bez NVLink, PCIe Gen5)
RTX PRO 4000Blackwell 202524 GBGDDR7 · 672 GB/s8 960140 W
RTX PRO 4500Blackwell 202532 GBGDDR7 · 896 GB/s10 496200 W
RTX PRO 5000Blackwell 202548 GBGDDR7 · 1,34 TB/s14 080300 W
RTX PRO 6000Blackwell 202596 GBGDDR7 · 1,79 TB/s24 064600/300 W
Data-center · Ada L-series (pasywne, bez FP4)
L4Ada 202324 GBGDDR6 · 300 GB/s7 42472 W
L40SAda 202348 GBGDDR6 · 864 GB/s18 176350 W
Data-center · Hopper (HBM, NVLink 900 GB/s)
H100 SXMHopper 202380 GBHBM3 · 3,35 TB/s16 896700 W
H200 SXMHopper 2024141 GBHBM3e · 4,8 TB/s16 896700 W
Data-center · Blackwell (HBM3e, FP4, NVLink 1,8 TB/s)
B100Blackwell 2025192 GBHBM3e · 8 TB/sdual-die700 W
B200Blackwell 2025192 GBHBM3e · 8 TB/sdual-die1000 W
B300 (Ultra)Blackwell 2026288 GBHBM3e · 8 TB/sdual-die1400 W
GB200 (NVL72)Grace + 2× B200384 GBHBM3e · 16 TB/s2× dual-dieNVL72rack

Widać tu wyraźny podział. Karty RTX (Ada i Blackwell PRO) nie mają NVLink i łączą się przez PCIe Gen5, co dla jednej lub dwóch kart w stacji jest w zupełności wystarczające. NVLink i NVSwitch to domena układów HBM w centrum danych. FP4 pojawia się dopiero w generacji Blackwell i to ona wyznacza dziś kierunek dla najwydajniejszej inferencji.

Gdy jedna karta przestaje wystarczać, wiele GPU trzeba ze sobą połączyć. Sposób połączenia decyduje o tym, jak dobrze skalują się duże modele rozłożone na kilka kart (tzw. tensor parallelism), w którym karty muszą bardzo szybko wymieniać dane przy każdej warstwie.

  • PCIe Gen5: uniwersalna magistrala, którą łączą się karty RTX. Wystarcza do obsługi wielu użytkowników i do 2–4 kart, ale ma niższą przepustowość między GPU niż NVLink.
  • NVLink: bezpośredni, szybki most między kartami HBM. W Hopperze to 900 GB/s, w Blackwellu 1,8 TB/s na GPU. Pozwala wielu kartom pracować niemal jak jedna.
  • NVSwitch i NVL72: przełącznik łączący wiele GPU w jeden, spójny pool pamięci. W GB200 NVL72 aż 72 układy działają jak jeden gigantyczny akcelerator.
Zasada

Jedna karta niemal zawsze wygrywa z dwiema, jeśli model się na niej mieści. Multi-GPU wchodzi w grę dopiero wtedy, gdy model nie mieści się w jednej karcie albo gdy potrzebujesz większej przepustowości dla wielu równoczesnych użytkowników. Dla samej inferencji RTX po PCIe radzą sobie dobrze; po NVLink i wspólną pamięć wielu GPU sięgamy w centrum danych.

08 Ta sama karta w różnych edycjach

Jeden i ten sam układ graficzny NVIDIA często trafia na rynek w kilku edycjach. Nie różnią się one krzemem ani pamięcią, lecz środowiskiem pracy: zasilaniem, chłodzeniem i formatem. To powtarzalny wzorzec w całej ofercie profesjonalnej, więc warto zrozumieć go raz. Najlepiej widać go na RTX PRO 6000 Blackwell, który występuje w trzech edycjach dzielących ten sam krzem (GB202, 24 064 rdzenie CUDA, 752 rdzenie Tensor 5. generacji, 96 GB GDDR7 ECC, 1,79 TB/s, FP4, PCIe Gen5, bez NVLink):

CechaWorkstationMax-QServer
Moc (TGP)600 W300 Wkonfig. do 600 W
Chłodzenie2 wentylatory, flow-throughblower, wydmuch do tyłupasywne, airflow serwera
Formatfull-height, 2-slotstd-height, 2-slotstd-height, 2-slot
Mieści się w 2U
Wyjścia graficzne4× DisplayPort 2.1DisplayPortbrak (headless)
Gęste multi-GPU (2–4)odradzanetak, 2–4 na 1 zasilaczutak, w serwerze
Wydajność (vs WS)100%~88–95%między Max-Q a WS
Wydajność na watbazowa~2× lepszawysoka, regulowana
MIG / vGPUMIG do 4MIG do 4, vGPUMIG do 4, vGPU
NVIDIA AI Enterprisezwykle osobnozwykle osobnopozycjonowana pod NVAIE
Idealne wdrożenie1 karta, desktop z dobrym airflow2–4 GPU, limit zasilaczarack 24/7, headless

W praktyce: Workstation daje maksimum z jednej karty na biurku, Max-Q jest stworzona do gęstego upakowania 2 do 4 kart przy najlepszej efektywności energetycznej, a Server trafia do szaf rack pracujących bez przerwy. Ten sam podział na edycje obejmuje też inne karty RTX PRO Blackwell (np. RTX PRO 4500 i 5000, a w wariantach oszczędnych RTX PRO 4000 SFF i RTX PRO 2000).

Liczy się też fizyczny format karty

Edycja to jedno, ale przy zabudowie równie ważny jest format fizyczny: wysokość, liczba zajmowanych slotów i sposób montażu. Ta sama klasa układu bywa dostępna w wersji do dużej wieży i w niskoprofilowej do obudowy SFF (Small Form Factor) albo serwera 1U. Najczęstsze formaty zebraliśmy w tabeli.

FormatOpisPrzykłady kart
Full-height, 2-slot (aktywna)standard do wieży workstation, aktywne chłodzenieRTX PRO 6000 (WS), RTX 6000 Ada, RTX 4000 Ada
Low-profile / SFF, 70 Wniski profil, do małych obudów (SFF, ITX) i 1URTX PRO 4000 SFF, RTX 4000 SFF Ada, RTX 2000 Ada
HHHL pasywnapółwysokości, 1 slot, chłodzona przepływem serweraL4
Pełnowymiarowa pasywnabez wentylatora, airflow serweraL40S, RTX PRO 6000 Server, H100 PCIe
Moduł SXMgniazdo na płycie HGX, maks. moc i pełny NVLinkH100 / H200 SXM, B200
NVL (parowane PCIe)dwie karty PCIe spięte mostkami NVLinkH100 NVL, H200 NVL

Dlatego ten sam układ miewa kilka wcieleń. H100 występuje aż w trzech formatach: moduł SXM (700 W, pełny NVLink), karta PCIe (350 W) oraz parowana NVL (dwie karty spięte mostkami). Workstationowa RTX 4000 Ada ma z kolei niskoprofilową odmianę SFF o połowie poboru mocy (70 W zamiast 130 W). Wniosek praktyczny: przy wyborze patrz nie tylko na nazwę i pamięć karty, ale też na edycję i format dopasowane do Twojej obudowy oraz chłodzenia.

09 Platformy: od DGX Spark po MGX

Te same układy trafiają do bardzo różnych obudów, od mini-komputera na biurko po szafę w serwerowni. Poniżej te platformy w ujęciu „jaki GPU i jaka pamięć". Szczegóły dotyczące zasilania, chłodzenia, sieci i kosztu rozwiniemy w częściach 3 do 6.

CechaDGX SparkDGX StationStacja RTXSerwer RTXSerwer MGX
Pozycjonowanieosobisty dev box, edgedeskside superkomputerworkstation AI i wizualizacjainference on-prem 24/7building block AI factory
GPUGB10 (Blackwell)GB300 Blackwell Ultra1–4× RTX PRO 60002–8× RTX PRO 6000 ServerH200 / B200 / B300 dowolne
Pamięć GPU128 GB unified252 GB HBM3e + 496 LPDDR96 GB/kartę (do 384)96 GB/kartę (do 768)H200 141 / B300 288 GB
Przepustowość273 GB/s7,1 TB/s~1,8 TB/s/kartę~1,8 TB/s/kartę4,8–8 TB/s
Moc AI (FP4)~1 PFLOP~20 PFLOPS~3,5–4 PFLOPS/kartę~3,5–4 PFLOPS/kartęB300 ~15 PFLOPS
Maks. model LLM~200B (1 szt.)do ~1 blnwg VRAM 96–384 GBwg VRAM do 768 GBbln+ (klaster)
Poziom kosztunajniższybardzo wysokiśredniwysokinajwyższy
Idealne zastosowanieprototyp, fine-tuning do 70Blokalny trening, duże modeledev, inference, renderinghosting LLM, multi-tenant, RAGprodukcja na skalę

Widać prawidłowość z poprzednich sekcji: im bliżej centrum danych, tym szybsza pamięć (HBM), więcej kart i wyższa moc, ale też wyższy koszt i pobór energii. DGX Spark wygrywa pojemnością unified i ceną wejścia, stacje i serwery RTX skalują się kartami RTX PRO 6000, a MGX to modularny fundament pod dowolne układy data-center.

10 NVIDIA AI Enterprise: co daje licencja

Sama karta wystarczy, by uruchomić CUDA, PyTorch czy vLLM. NVIDIA AI Enterprise (NVAIE) to płatna warstwa produkcyjna: wsparcie z gwarancją, wirtualizacja, orkiestracja i długoterminowe łatki. Część kart (np. edycja Server, H200 NVL) bywa sprzedawana w pakiecie z licencją. Pełne rozważania kosztowe zostawiamy do części 6, tu pokazujemy, co konkretnie dokłada licencja.

Obszar / możliwośćBez licencjiZ NVIDIA AI Enterprise
Grafika, CAD, rendering, ISV to samo to samo
CUDA, PyTorch, TensorRT-LLM, vLLM pełny dostęp to samo + wsparcie
NIM: pobranie, dev i test (do 16 GPU) za darmo za darmo
NIM: produkcja wymaga licencji objęte
vGPU: wirtualizacja GPU niedostępne objęte
MIG-backed vGPU niedostępne objęte
Run:ai: orkiestracja floty GPU niedostępne w pakiecie
Wsparcie z SLA forum / community enterprise z SLA
Production Branch (łatki 9 mies.) brak objęte
Long-Term Support Branch (36 mies.) brak objęte

Krótko: do prototypu i pracy deweloperskiej licencja nie jest potrzebna. Staje się istotna, gdy wchodzisz na produkcję dla realnych użytkowników, wirtualizujesz GPU między zespołami albo potrzebujesz wsparcia z gwarancją i stabilnych, długo wspieranych wersji sterowników.

11 Jak dobrać GPU do modelu i obciążenia

Dobór zaczyna się od wzoru z części 1: VRAM ≈ wagi modelu + (KV cache na sesję × liczba sesji) + ~15% narzutu. Najpierw liczysz, ile pamięci potrzebujesz, a potem dobierasz klasę karty i platformę. Poniżej praktyczna ściąga dla typowych scenariuszy.

ScenariuszModel i precyzjaSugerowana karta lub platforma
Prototyp, jeden deweloperdo ~30B (Q4 / FP8)DGX Spark (128 GB unified) lub 1× RTX PRO 6000
Stacja zespołu (dev i wizualizacja)70B w FP81–2× RTX PRO 6000 (96 GB)
Serwer inferencyjny on-prem, wielu userów70B FP8, duża współbieżnośćH200 (141 GB HBM) lub 2× RTX PRO 6000 Server
Duże modele MoE i reasoning200B+ parametrówB200 / B300 (HBM) lub multi-GPU z NVLink
Edge, hala produkcyjnado ~30BBoxPC z RTX PRO Blackwell lub DGX Spark

To punkt wyjścia, a nie ostateczna recepta. Realny dobór zależy jeszcze od długości kontekstu, liczby równoczesnych sesji, wymagań co do czasu odpowiedzi oraz budżetu. Tu właśnie warto skorzystać z konsultacji, żeby nie przepłacić ani nie kupić za małej karty.

Zobacz też nasz wpis Jaka karta graficzna do AI oraz platformy Elmatic z NVIDIA RTX.

Co dalej w serii

Mamy już serce stacji. W części 3 zajmiemy się resztą węzła wokół GPU: CPU, RAM i platformą. Pokażemy, ile rdzeni i pamięci systemowej naprawdę potrzeba, czym są linie PCIe i dlaczego zbyt słaby procesor albo za mało RAM potrafią zmarnować potencjał nawet najdroższej karty.

Jeśli chcesz dobrać akcelerator pod konkretny model i obciążenie, nasi inżynierowie pomogą przejść od wymagań do gotowej konfiguracji.

Skontaktuj się z ekspertem
Telefonicznie +48 22 773 79 37
Przez formularz Wypełnij formularz