Lokalna stacja dla deweloperów AI oparta o NVIDIA DGX™ Spark. Produkowana przez MSI.
Koszyk
Seria: dobór stacji pod lokalne AI · Część 02 / 06
GPU to serce stacji do AI i zwykle jej najdroższy element. To też wybór, w którym najłatwiej przepłacić albo kupić kartę, która nie udźwignie modelu. Ta część jest praktycznym przewodnikiem: jak czytać specyfikację akceleratora pod inferencję i agentów, jak rozumieć architektury oraz formaty precyzji NVIDIA i jak dobrać konkretny układ do modelu i obciążenia.
W części 1 ustaliliśmy trzy liczby rządzące lokalnym AI: pojemność pamięci (VRAM), jej przepustowość i moc obliczeniową. Teraz przykładamy je do realnych kart NVIDIA, od stacji roboczych po centrum danych. Skupiamy się na NVIDIA, bo to ekosystem CUDA i sprzęt, który faktycznie trafia do stacji oraz serwerów AI u naszych klientów.
Komputery AI Elmatic z kartami NVIDIA RTX. Zobacz platformy RTX
Karta do gier i karta do AI to dwa różne kryteria zakupu. Co więcej, samo „AI" to nie jeden workload: inne parametry decydują przy generowaniu tekstu, inne przy treningu, a jeszcze inne przy renderingu. Patrzymy na cztery rzeczy: pojemność VRAM, przepustowość pamięci, rdzenie CUDA (FP32) oraz rdzenie Tensor (niska precyzja FP8/FP4). Poniższa macierz pokazuje, które z nich są decydujące, istotne lub drugorzędne w zależności od zastosowania.
| Aplikacja | VRAM (pojemność) | Przepustowość (GB/s) | CUDA (FP32) | Tensor (FP4/FP8) |
|---|---|---|---|---|
| Inferencja LLM: dekodowanie (mały batch) | decydujące | decydujące | drugorzędne | istotne |
| Inferencja LLM: prefill, duży batch, wielu userów | decydujące | decydujące | drugorzędne | decydujące |
| Trening i fine-tuning modeli | decydujące | istotne | drugorzędne | decydujące |
| Generacja obrazów i wideo (dyfuzja) | istotne | istotne | istotne | decydujące |
| Rendering 3D, path tracing | decydujące | istotne | decydujące | drugorzędne |
| CAD, wizualizacja, viewport | istotne | drugorzędne | decydujące | drugorzędne |
| Symulacje naukowe (CFD/FEA/MD) | istotne | decydujące | decydujące | drugorzędne |
| Analityka danych, RAPIDS | decydujące | decydujące | istotne | drugorzędne |
Wniosek dla lokalnych agentów LLM jest jednoznaczny. Przy dekodowaniu, czyli generowaniu odpowiedzi token po tokenie, decydują VRAM i przepustowość pamięci, a rdzenie CUDA schodzą na drugi plan. Rola rdzeni Tensor i niskiej precyzji rośnie dopiero przy dużym batchu, wielu użytkownikach i treningu. To dlatego karta z dużą i szybką pamięcią potrafi bić kartę z samymi wysokimi TFLOPS-ami.
Akceleratory NVIDIA używają dziś trzech rodzajów pamięci, a różnice w przepustowości między nimi są ogromne. GDDR (GDDR6, GDDR7) trafia do kart konsumenckich i stacji roboczych. HBM (HBM3, HBM3e) to pamięć układana w stos, montowana tuż przy rdzeniu w kartach do centrum danych. LPDDR5x to pamięć unified, współdzielona z procesorem.
| Typ pamięci | Gdzie spotykana | Typowa przepustowość | Charakterystyka |
|---|---|---|---|
| GDDR6 | workstation Ada, L4 / L40S | 0,3–0,96 TB/s | sprawdzona i tania, bez FP4 |
| GDDR7 | Blackwell PRO (RTX PRO) | 0,9–1,8 TB/s | szybsza, ECC, obsługa FP4 |
| HBM3 | Hopper (H100) | ~3,35 TB/s | stos przy rdzeniu, bardzo droga |
| HBM3e | H200, Blackwell DC (B200/B300) | 4,8–8 TB/s | najwyższa przepustowość |
| LPDDR5x (unified) | Grace Blackwell (DGX Spark, GB200) | 0,27–0,4 TB/s | duża pojemność, wspólna z CPU |
W praktyce różnicę najlepiej widać na wykresie przepustowości kilku reprezentatywnych układów:
HBM bywa kilkukrotnie szybsze od GDDR i to ono napędza najszybszą generację tokenów oraz obsługę dużej liczby równoległych sesji. GDDR7 w kartach RTX PRO jest jednak bardzo dobre dla pojedynczego użytkownika i niewielkich zespołów, przy ułamku ceny i poboru mocy układów HBM. Pamięć unified stawia na pojemność kosztem przepustowości.
W klasycznej karcie każdy układ ma własną, dedykowaną pamięć (GDDR lub HBM). W architekturze Grace Blackwell (układ GB10 w DGX Spark czy GB200) CPU i GPU współdzielą jedną, dużą pulę pamięci unified. To zupełnie inny kompromis.
Najwyższa przepustowość, czyli najszybsza generacja tokenów. Ograniczeniem jest pojemność pojedynczej karty (od 24 do 288 GB) oraz cena, zwłaszcza przy HBM.
Bardzo duża pojemność niskim kosztem (np. 128 GB w DGX Spark), kosztem przepustowości. Mieści ogromne modele, ale generuje wolniej niż HBM.
Tu wraca wątek modeli MoE z części 1. Skoro przy każdym tokenie aktywuje się tylko ułamek parametrów, niższa przepustowość pamięci unified mniej przeszkadza, a jej duża pojemność pozwala w ogóle zmieścić model. Dlatego DGX Spark ze 128 GB unified uruchamia modele rzędu 200 mld parametrów, których nie zmieści żadna pojedyncza karta z dedykowanym VRAM. To świetna platforma do prototypowania i pracy z dużymi modelami przy biurku, choć nie do maksymalnej przepustowości produkcyjnej.
Każda generacja NVIDIA dokłada nowe możliwości, zwłaszcza w obsłudze niskiej precyzji. „Compute capability" (CC, oznaczenie sm_) to wersja architektury, od której zależy, jakie formaty i instrukcje karta wspiera natywnie. To ważne, bo nie każda karta „rozumie" FP8 czy FP4.
| Architektura | CC (sm_) | Przykłady | Kluczowe funkcje |
|---|---|---|---|
| Ampere | 8.0 / 8.6 | A100, RTX A6000 | FP16 / BF16 / TF32, sparsity 2:4 |
| Ada Lovelace | 8.9 | RTX 6000 Ada, L40S | + FP8 |
| Hopper | 9.0 | H100, H200 | + FP8 Transformer Engine, TMA, async |
| Blackwell (data-center) | 10.0 | B100, B200, B300 | + FP4 / FP6, tcgen05, TMEM, 2-SM MMA |
| Blackwell (konsumencki) | 12.0 | RTX 50, RTX PRO Blackwell | + FP4, model rdzeni Tensor bliższy Ampere |
| Blackwell (zintegrowany) | 12.1 | GB10 (DGX Spark) | + FP4, SoC Grace Blackwell (sm_121) |
Najważniejsze skoki dla AI to FP8 (Ada, Hopper) oraz FP4 (Blackwell). Ciekawostka: konsumencki Blackwell (RTX 50, RTX PRO Blackwell) ma compute capability 12.0, a zintegrowany GB10 z DGX Spark to 12.1. Oba obsługują FP4, ale ich model rdzeni Tensor jest bliższy generacji Ampere niż wersji data-center. W praktyce: FP4 owszem, lecz część najnowszych usprawnień wydajnościowych zarezerwowano dla układów data-center (B200, B300).
W części 1 patrzyliśmy na kwantyzację od strony „ile zajmie VRAM". Tu spojrzymy od strony sprzętu, czyli które formaty karta liczy natywnie. Zasada jest prosta: mniej bitów to mniej pamięci i większa szybkość, kosztem dokładności. Nowoczesne karty potrafią mieszać formaty, trzymając wagi w niskiej precyzji, a wrażliwe operacje w wyższej.
| Format | Bity (wykł. / mant.) | Pamięć / wartość | Mocna strona | Typowe użycie | Sprzęt min. |
|---|---|---|---|---|---|
| FP32 | 32 (8 / 23) | 4 B | pełna dokładność | HPC, grafika, wagi-master | każdy |
| TF32 | 19 (8 / 10) | n/d | trening bez zmian kodu | matmul w treningu | Ampere+ |
| BF16 | 16 (8 / 7) | 2 B | zakres FP32, łatwy trening | standard treningu | Ampere+ |
| FP16 | 16 (5 / 10) | 2 B | precyzyjniejszy niż BF16 | trening i inferencja | wszystkie |
| FP8 | 8 (E4M3 / E5M2) | 1 B | połowa pamięci vs FP16, ~2× szybciej | inferencja i trening | Hopper / Ada / Blackwell |
| FP6 | 6 | 0,75 B | krok pośredni | inferencja | Blackwell |
| FP4 / NVFP4 | 4 (E2M1) + skala | 0,5 B | połowa pamięci vs FP8, ~2× szybciej | inferencja, maks. throughput | tylko Blackwell |
Dla lokalnej inferencji w 2026 punktem wyjścia jest FP8 (Hopper, Ada, Blackwell), a FP4 (tylko Blackwell) daje maksymalny throughput tam, gdzie liczy się przepustowość. BF16 i FP16 zostają głównie do treningu oraz jako format referencyjny. To bezpośredni powód, dla którego generacja Blackwell jest dziś tak atrakcyjna do lokalnego AI.
Poniższa tabela porządkuje aktualną ofertę według roli i generacji. Kolor komórki przepustowości odpowiada klasie pamięci: czerwony poniżej 1 TB/s, bursztynowy od 1 do 3 TB/s, zielony powyżej 3 TB/s (HBM).
| Układ | Architektura | VRAM | Pamięć i przepustowość | CUDA | FP4 | NVLink | TDP |
|---|---|---|---|---|---|---|---|
| Edge · Grace Blackwell (pamięć unified) | |||||||
| GB10 / DGX Spark | Blackwell 2025 | 128 GB | LPDDR5x · 273 GB/s | 6 144 | ✓ | C2C | 140 W |
| Workstation · Ada (GDDR6, bez FP4, bez NVLink, PCIe Gen4) | |||||||
| RTX 4000 Ada | Ada 2023 | 20 GB | GDDR6 · 360 GB/s | 6 144 | ✗ | ✗ | 130 W |
| RTX 4500 Ada | Ada 2023 | 24 GB | GDDR6 · 432 GB/s | 7 680 | ✗ | ✗ | 210 W |
| RTX 5000 Ada | Ada 2023 | 32 GB | GDDR6 · 576 GB/s | 12 800 | ✗ | ✗ | 250 W |
| RTX 6000 Ada | Ada 2022 | 48 GB | GDDR6 · 960 GB/s | 18 176 | ✗ | ✗ | 300 W |
| Workstation i serwer · Blackwell PRO (GDDR7, FP4, bez NVLink, PCIe Gen5) | |||||||
| RTX PRO 4000 | Blackwell 2025 | 24 GB | GDDR7 · 672 GB/s | 8 960 | ✓ | ✗ | 140 W |
| RTX PRO 4500 | Blackwell 2025 | 32 GB | GDDR7 · 896 GB/s | 10 496 | ✓ | ✗ | 200 W |
| RTX PRO 5000 | Blackwell 2025 | 48 GB | GDDR7 · 1,34 TB/s | 14 080 | ✓ | ✗ | 300 W |
| RTX PRO 6000 | Blackwell 2025 | 96 GB | GDDR7 · 1,79 TB/s | 24 064 | ✓ | ✗ | 600/300 W |
| Data-center · Ada L-series (pasywne, bez FP4) | |||||||
| L4 | Ada 2023 | 24 GB | GDDR6 · 300 GB/s | 7 424 | ✗ | ✗ | 72 W |
| L40S | Ada 2023 | 48 GB | GDDR6 · 864 GB/s | 18 176 | ✗ | ✗ | 350 W |
| Data-center · Hopper (HBM, NVLink 900 GB/s) | |||||||
| H100 SXM | Hopper 2023 | 80 GB | HBM3 · 3,35 TB/s | 16 896 | ✗ | ✓ | 700 W |
| H200 SXM | Hopper 2024 | 141 GB | HBM3e · 4,8 TB/s | 16 896 | ✗ | ✓ | 700 W |
| Data-center · Blackwell (HBM3e, FP4, NVLink 1,8 TB/s) | |||||||
| B100 | Blackwell 2025 | 192 GB | HBM3e · 8 TB/s | dual-die | ✓ | ✓ | 700 W |
| B200 | Blackwell 2025 | 192 GB | HBM3e · 8 TB/s | dual-die | ✓ | ✓ | 1000 W |
| B300 (Ultra) | Blackwell 2026 | 288 GB | HBM3e · 8 TB/s | dual-die | ✓ | ✓ | 1400 W |
| GB200 (NVL72) | Grace + 2× B200 | 384 GB | HBM3e · 16 TB/s | 2× dual-die | ✓ | NVL72 | rack |
Widać tu wyraźny podział. Karty RTX (Ada i Blackwell PRO) nie mają NVLink i łączą się przez PCIe Gen5, co dla jednej lub dwóch kart w stacji jest w zupełności wystarczające. NVLink i NVSwitch to domena układów HBM w centrum danych. FP4 pojawia się dopiero w generacji Blackwell i to ona wyznacza dziś kierunek dla najwydajniejszej inferencji.
Gdy jedna karta przestaje wystarczać, wiele GPU trzeba ze sobą połączyć. Sposób połączenia decyduje o tym, jak dobrze skalują się duże modele rozłożone na kilka kart (tzw. tensor parallelism), w którym karty muszą bardzo szybko wymieniać dane przy każdej warstwie.
Jedna karta niemal zawsze wygrywa z dwiema, jeśli model się na niej mieści. Multi-GPU wchodzi w grę dopiero wtedy, gdy model nie mieści się w jednej karcie albo gdy potrzebujesz większej przepustowości dla wielu równoczesnych użytkowników. Dla samej inferencji RTX po PCIe radzą sobie dobrze; po NVLink i wspólną pamięć wielu GPU sięgamy w centrum danych.
Jeden i ten sam układ graficzny NVIDIA często trafia na rynek w kilku edycjach. Nie różnią się one krzemem ani pamięcią, lecz środowiskiem pracy: zasilaniem, chłodzeniem i formatem. To powtarzalny wzorzec w całej ofercie profesjonalnej, więc warto zrozumieć go raz. Najlepiej widać go na RTX PRO 6000 Blackwell, który występuje w trzech edycjach dzielących ten sam krzem (GB202, 24 064 rdzenie CUDA, 752 rdzenie Tensor 5. generacji, 96 GB GDDR7 ECC, 1,79 TB/s, FP4, PCIe Gen5, bez NVLink):
| Cecha | Workstation | Max-Q | Server |
|---|---|---|---|
| Moc (TGP) | 600 W | 300 W | konfig. do 600 W |
| Chłodzenie | 2 wentylatory, flow-through | blower, wydmuch do tyłu | pasywne, airflow serwera |
| Format | full-height, 2-slot | std-height, 2-slot | std-height, 2-slot |
| Mieści się w 2U | ✗ | ✓ | ✓ |
| Wyjścia graficzne | 4× DisplayPort 2.1 | DisplayPort | brak (headless) |
| Gęste multi-GPU (2–4) | odradzane | tak, 2–4 na 1 zasilaczu | tak, w serwerze |
| Wydajność (vs WS) | 100% | ~88–95% | między Max-Q a WS |
| Wydajność na wat | bazowa | ~2× lepsza | wysoka, regulowana |
| MIG / vGPU | MIG do 4 | MIG do 4, vGPU | MIG do 4, vGPU |
| NVIDIA AI Enterprise | zwykle osobno | zwykle osobno | pozycjonowana pod NVAIE |
| Idealne wdrożenie | 1 karta, desktop z dobrym airflow | 2–4 GPU, limit zasilacza | rack 24/7, headless |
W praktyce: Workstation daje maksimum z jednej karty na biurku, Max-Q jest stworzona do gęstego upakowania 2 do 4 kart przy najlepszej efektywności energetycznej, a Server trafia do szaf rack pracujących bez przerwy. Ten sam podział na edycje obejmuje też inne karty RTX PRO Blackwell (np. RTX PRO 4500 i 5000, a w wariantach oszczędnych RTX PRO 4000 SFF i RTX PRO 2000).
Edycja to jedno, ale przy zabudowie równie ważny jest format fizyczny: wysokość, liczba zajmowanych slotów i sposób montażu. Ta sama klasa układu bywa dostępna w wersji do dużej wieży i w niskoprofilowej do obudowy SFF (Small Form Factor) albo serwera 1U. Najczęstsze formaty zebraliśmy w tabeli.
| Format | Opis | Przykłady kart |
|---|---|---|
| Full-height, 2-slot (aktywna) | standard do wieży workstation, aktywne chłodzenie | RTX PRO 6000 (WS), RTX 6000 Ada, RTX 4000 Ada |
| Low-profile / SFF, 70 W | niski profil, do małych obudów (SFF, ITX) i 1U | RTX PRO 4000 SFF, RTX 4000 SFF Ada, RTX 2000 Ada |
| HHHL pasywna | półwysokości, 1 slot, chłodzona przepływem serwera | L4 |
| Pełnowymiarowa pasywna | bez wentylatora, airflow serwera | L40S, RTX PRO 6000 Server, H100 PCIe |
| Moduł SXM | gniazdo na płycie HGX, maks. moc i pełny NVLink | H100 / H200 SXM, B200 |
| NVL (parowane PCIe) | dwie karty PCIe spięte mostkami NVLink | H100 NVL, H200 NVL |
Dlatego ten sam układ miewa kilka wcieleń. H100 występuje aż w trzech formatach: moduł SXM (700 W, pełny NVLink), karta PCIe (350 W) oraz parowana NVL (dwie karty spięte mostkami). Workstationowa RTX 4000 Ada ma z kolei niskoprofilową odmianę SFF o połowie poboru mocy (70 W zamiast 130 W). Wniosek praktyczny: przy wyborze patrz nie tylko na nazwę i pamięć karty, ale też na edycję i format dopasowane do Twojej obudowy oraz chłodzenia.
Te same układy trafiają do bardzo różnych obudów, od mini-komputera na biurko po szafę w serwerowni. Poniżej te platformy w ujęciu „jaki GPU i jaka pamięć". Szczegóły dotyczące zasilania, chłodzenia, sieci i kosztu rozwiniemy w częściach 3 do 6.
| Cecha | DGX Spark | DGX Station | Stacja RTX | Serwer RTX | Serwer MGX |
|---|---|---|---|---|---|
| Pozycjonowanie | osobisty dev box, edge | deskside superkomputer | workstation AI i wizualizacja | inference on-prem 24/7 | building block AI factory |
| GPU | GB10 (Blackwell) | GB300 Blackwell Ultra | 1–4× RTX PRO 6000 | 2–8× RTX PRO 6000 Server | H200 / B200 / B300 dowolne |
| Pamięć GPU | 128 GB unified | 252 GB HBM3e + 496 LPDDR | 96 GB/kartę (do 384) | 96 GB/kartę (do 768) | H200 141 / B300 288 GB |
| Przepustowość | 273 GB/s | 7,1 TB/s | ~1,8 TB/s/kartę | ~1,8 TB/s/kartę | 4,8–8 TB/s |
| Moc AI (FP4) | ~1 PFLOP | ~20 PFLOPS | ~3,5–4 PFLOPS/kartę | ~3,5–4 PFLOPS/kartę | B300 ~15 PFLOPS |
| Maks. model LLM | ~200B (1 szt.) | do ~1 bln | wg VRAM 96–384 GB | wg VRAM do 768 GB | bln+ (klaster) |
| Poziom kosztu | najniższy | bardzo wysoki | średni | wysoki | najwyższy |
| Idealne zastosowanie | prototyp, fine-tuning do 70B | lokalny trening, duże modele | dev, inference, rendering | hosting LLM, multi-tenant, RAG | produkcja na skalę |
Widać prawidłowość z poprzednich sekcji: im bliżej centrum danych, tym szybsza pamięć (HBM), więcej kart i wyższa moc, ale też wyższy koszt i pobór energii. DGX Spark wygrywa pojemnością unified i ceną wejścia, stacje i serwery RTX skalują się kartami RTX PRO 6000, a MGX to modularny fundament pod dowolne układy data-center.
Sama karta wystarczy, by uruchomić CUDA, PyTorch czy vLLM. NVIDIA AI Enterprise (NVAIE) to płatna warstwa produkcyjna: wsparcie z gwarancją, wirtualizacja, orkiestracja i długoterminowe łatki. Część kart (np. edycja Server, H200 NVL) bywa sprzedawana w pakiecie z licencją. Pełne rozważania kosztowe zostawiamy do części 6, tu pokazujemy, co konkretnie dokłada licencja.
| Obszar / możliwość | Bez licencji | Z NVIDIA AI Enterprise |
|---|---|---|
| Grafika, CAD, rendering, ISV | ✓ to samo | ✓ to samo |
| CUDA, PyTorch, TensorRT-LLM, vLLM | ✓ pełny dostęp | ✓ to samo + wsparcie |
| NIM: pobranie, dev i test (do 16 GPU) | ✓ za darmo | ✓ za darmo |
| NIM: produkcja | ✗ wymaga licencji | ✓ objęte |
| vGPU: wirtualizacja GPU | ✗ niedostępne | ✓ objęte |
| MIG-backed vGPU | ✗ niedostępne | ✓ objęte |
| Run:ai: orkiestracja floty GPU | ✗ niedostępne | ✓ w pakiecie |
| Wsparcie z SLA | ✗ forum / community | ✓ enterprise z SLA |
| Production Branch (łatki 9 mies.) | ✗ brak | ✓ objęte |
| Long-Term Support Branch (36 mies.) | ✗ brak | ✓ objęte |
Krótko: do prototypu i pracy deweloperskiej licencja nie jest potrzebna. Staje się istotna, gdy wchodzisz na produkcję dla realnych użytkowników, wirtualizujesz GPU między zespołami albo potrzebujesz wsparcia z gwarancją i stabilnych, długo wspieranych wersji sterowników.
Dobór zaczyna się od wzoru z części 1: VRAM ≈ wagi modelu + (KV cache na sesję × liczba sesji) + ~15% narzutu. Najpierw liczysz, ile pamięci potrzebujesz, a potem dobierasz klasę karty i platformę. Poniżej praktyczna ściąga dla typowych scenariuszy.
| Scenariusz | Model i precyzja | Sugerowana karta lub platforma |
|---|---|---|
| Prototyp, jeden deweloper | do ~30B (Q4 / FP8) | DGX Spark (128 GB unified) lub 1× RTX PRO 6000 |
| Stacja zespołu (dev i wizualizacja) | 70B w FP8 | 1–2× RTX PRO 6000 (96 GB) |
| Serwer inferencyjny on-prem, wielu userów | 70B FP8, duża współbieżność | H200 (141 GB HBM) lub 2× RTX PRO 6000 Server |
| Duże modele MoE i reasoning | 200B+ parametrów | B200 / B300 (HBM) lub multi-GPU z NVLink |
| Edge, hala produkcyjna | do ~30B | BoxPC z RTX PRO Blackwell lub DGX Spark |
To punkt wyjścia, a nie ostateczna recepta. Realny dobór zależy jeszcze od długości kontekstu, liczby równoczesnych sesji, wymagań co do czasu odpowiedzi oraz budżetu. Tu właśnie warto skorzystać z konsultacji, żeby nie przepłacić ani nie kupić za małej karty.
Zobacz też nasz wpis Jaka karta graficzna do AI oraz platformy Elmatic z NVIDIA RTX.
Mamy już serce stacji. W części 3 zajmiemy się resztą węzła wokół GPU: CPU, RAM i platformą. Pokażemy, ile rdzeni i pamięci systemowej naprawdę potrzeba, czym są linie PCIe i dlaczego zbyt słaby procesor albo za mało RAM potrafią zmarnować potencjał nawet najdroższej karty.
Jeśli chcesz dobrać akcelerator pod konkretny model i obciążenie, nasi inżynierowie pomogą przejść od wymagań do gotowej konfiguracji.
