Lokalna stacja dla deweloperów AI oparta o NVIDIA DGX™ Spark. Produkowana przez MSI.
Koszyk
Seria: dobór stacji pod lokalne AI · Część 01 / 06
Coraz więcej firm chce uruchamiać modele językowe i systemy agentowe u siebie: w serwerowni, na brzegu sieci albo na biurku zespołu. Powód jest zwykle ten sam, czyli prywatność danych, przewidywalne koszty i niezależność od chmury. Pada wtedy pytanie: „jaki sprzęt będzie do tego potrzebny?".
Dobra odpowiedź nigdy nie zaczyna się od nazwy karty graficznej. Zaczyna się od zrozumienia, co właściwie obciąża sprzęt podczas pracy modelu. Dopiero wtedy wybór GPU, procesora czy platformy przestaje być zgadywanką, a staje się prostą konsekwencją wymagań.
To pierwszy z sześciu artykułów, w których rozkładamy dobór stacji pod lokalne AI na czynniki pierwsze, od pojedynczej stacji deweloperskiej po serwer w standardzie MGX. Zaczynamy od fundamentów, bo cała seria opiera się na trzech liczbach, które poznasz poniżej.
DGX Spark (MSI EdgeXpert): moc data center na biurku. Zobacz DGX Spark
Trening modelu i jego późniejsze używanie (inferencja) to dwa różne światy obciążeń. Trening to maraton: tygodnie pełnego obciążenia wielu GPU, ogromne wymagania co do pamięci i mocy, realizowane zwykle w chmurze lub dużych klastrach. Systemy agentowe, które wdraża większość firm, to przede wszystkim inferencja, czyli model już istnieje, a my „odpytujemy" go tysiące razy dziennie.
Ta różnica jest kluczowa, bo inferencja stawia inne wymagania. Nie potrzebujesz farmy GPU do uczenia. Potrzebujesz sprzętu, który zmieści model w pamięci i będzie go obsługiwał szybko, stabilnie i wielowątkowo. I właśnie pod tym kątem dobiera się stację do lokalnego AI, dlatego w całej serii skupiamy się na inferencji.
Niezależnie od tego, czy mówimy o mini-komputerze, czy o serwerze w szafie rack, o wydajności decydują trzy parametry. Będą wracać w każdym kolejnym artykule tej serii.
Decyduje, czy model wraz z kontekstem w ogóle zmieści się na karcie. Gdy zabraknie VRAM, model nie ruszy albo dramatycznie zwolni, przerzucając dane do wolniejszej pamięci systemowej.
Limit: rozmiar modeluPrzy generowaniu odpowiedzi liczy się, jak szybko GPU czyta wagi modelu z pamięci. To ona, a nie liczba rdzeni, wyznacza realną liczbę tokenów na sekundę.
Limit: tokeny / sFLOPS i TOPS liczą się przy przetwarzaniu długiego promptu oraz przy wsadowej obsłudze wielu zapytań naraz. Tu przewagę dają formaty FP8 i FP4 na nowych kartach.
Limit: czas do 1. tokenaPodczas generowania odpowiedzi wąskim gardłem nie jest moc obliczeniowa, lecz przepustowość pamięci. Przy każdym tokenie model musi przeczytać swoje wagi z pamięci, więc im szybsza pamięć, tym więcej tokenów na sekundę. Dlatego karta z szybką pamięcią HBM generuje tekst szybciej niż karta o wyższych „papierowych" FLOPS-ach, ale wolniejszej pamięci.
Każda odpowiedź ma przy tym dwie fazy. Prefill to przetworzenie promptu wejściowego, faza obliczeniowa, która obciąża rdzenie tensorowe i decyduje o czasie do pierwszego tokena. Decode to generowanie kolejnych tokenów i tutaj wąskim gardłem jest przepustowość pamięci. W systemach agentowych z długim kontekstem ważne są obie fazy, ale to decode najczęściej decyduje o odczuwalnej płynności pracy.
Model „70B" to 70 miliardów parametrów. W pełnej precyzji (FP16) każdy zajmuje 2 bajty, czyli około 140 GB, więcej niż pamięć którejkolwiek pojedynczej karty. Z pomocą przychodzi kwantyzacja, czyli zapis parametrów z mniejszą precyzją, tak by model zajmował mniej miejsca i czytał się szybciej, przy minimalnej utracie jakości.
W 2026 roku standardem produkcyjnym jest FP8, połowa rozmiaru FP16 przy spadku jakości rzędu zaledwie 0,5–2%. Najnowsze karty Blackwell dokładają FP4 (NVFP4), jeszcze około 1,8 raza oszczędniejszy, choć narzędzia wciąż dojrzewają. Tam, gdzie liczy się zmieszczenie modelu w ciasnej pamięci, sprawdza się też INT4 (np. AWQ). Praktyczna reguła kciuka dla zapotrzebowania na VRAM wygląda tak:
| Precyzja | Bajty / parametr | Model 7B | Model 14B | Model 70B | Jakość |
|---|---|---|---|---|---|
| FP16 (pełna) | 2 B | ~14 GB | ~28 GB | ~140 GB | bazowa (100%) |
| FP8standard 2026 | 1 B | ~7 GB | ~14 GB | ~70 GB | ~98–99% |
| INT4 / Q4 | ~0,5 B | ~4 GB | ~8 GB | ~40 GB | ~95% |
Do wartości z tabeli trzeba doliczyć pamięć na kontekst (o tym za chwilę) oraz około 15% narzutu. Dlatego „model 70B w FP8" i karta z 80 GB pamięci to dopiero punkt wyjścia, a nie gotowa konfiguracja.
Tu zaczyna się specyfika systemów agentowych. Agent nie zadaje jednego pytania, tylko prowadzi wielokrokowe rozmowy, gromadzi wyniki narzędzi, historię i kontekst. Wszystko to ląduje w tzw. KV cache, czyli pamięci podręcznej kontekstu, która rośnie z każdą turą i z każdą równoległą sesją. Pojedyncze zadanie badawcze agenta potrafi nagromadzić od 32 do 128 tys. tokenów kontekstu.
Realny budżet pamięci wygląda więc tak:
VRAM ≈ wagi modelu + (KV cache na sesję × liczba sesji) + ~15% narzutu
Przykład z życia: model 13B w FP8 to około 26 GB wag. Ale przy 50 równoczesnych sesjach po 8 tys. tokenów sam KV cache to około 64 GB, łącznie ponad 90 GB. Pojedyncza karta 80 GB już nie wystarczy, trzeba sięgnąć po kartę 141 GB albo dwie karty. To dlatego w systemach agentowych pojemność pamięci często okazuje się ważniejsza niż surowa moc obliczeniowa.
Ten apetyt da się okiełznać. Współdzielenie prefiksu, gdy wiele sesji ma wspólny prompt systemowy i liczy się go tylko raz, potrafi podnieść przepustowość nawet kilkunastokrotnie. Z kolei batching, czyli obsługa wielu zapytań w jednej partii, lepiej wykorzystuje GPU. Do obu mechanizmów wrócimy przy doborze GPU i oprogramowania.
W 2026 roku najciekawsze modele open-weight, takie jak Qwen 3.5, DeepSeek V4 czy Llama 4, to architektury MoE (Mixture of Experts). Mają ogromną liczbę parametrów, ale przy każdym tokenie aktywują tylko ich ułamek. Przykład: Qwen 3.5 ma około 122 mld parametrów, z czego aktywnych jest tylko ~10 mld.
Co to znaczy dla sprzętu? Wszystkie parametry muszą zmieścić się w pamięci (więc VRAM lub RAM nadal musi być duży), ale obciążenie obliczeniowe i przepustowościowe odpowiada jedynie części aktywnej. Dlatego model „122B" potrafi działać zaskakująco sprawnie nawet na sprzęcie z dużą, lecz niekoniecznie najszybszą pamięcią, na przykład na zunifikowanej pamięci mini-stacji. To jeden z powodów, dla których platformy pokroju DGX Spark ze 128 GB pamięci unified stały się sensowną opcją dla lokalnego AI.
Te same trzy liczby, czyli pojemność, przepustowość i moc, skalują się od urządzenia na biurko po szafę w serwerowni. W kolejnych artykułach przejdziemy całe to spektrum:
W każdym przypadku wybór zaczyna się od tego samego pytania: jaki model, w jakiej precyzji i dla ilu użytkowników. Czyli ile pamięci, jak szybkiej i ile mocy.
W kolejnej części bierzemy na warsztat serce każdej stacji do AI, czyli GPU i akceleratory: ile realnie potrzeba VRAM, czym różni się pamięć GDDR od HBM, kiedy ma sens NVLink i jak czytać specyfikacje kart od RTX po układy data-center.
Jeśli planujesz wdrożenie lokalnego AI i chcesz dobrać konfigurację pod konkretny model i obciążenie, nasi inżynierowie pomogą przejść od wymagań do gotowej platformy.
