Dobór stacji pod lokalne AI | Cz. 1: Co naprawdę obciąża sprzęt

29.06.2026 How to Studia przypadków Informacje produktowe Product news Case studies

Producent: Advantech, Neousys Technology, MSI IPC, MSI EPS

Seria: dobór stacji pod lokalne AI · Część 01 / 06

Coraz więcej firm chce uruchamiać modele językowe i systemy agentowe u siebie: w serwerowni, na brzegu sieci albo na biurku zespołu. Powód jest zwykle ten sam, czyli prywatność danych, przewidywalne koszty i niezależność od chmury. Pada wtedy pytanie: „jaki sprzęt będzie do tego potrzebny?".

Dobra odpowiedź nigdy nie zaczyna się od nazwy karty graficznej. Zaczyna się od zrozumienia, co właściwie obciąża sprzęt podczas pracy modelu. Dopiero wtedy wybór GPU, procesora czy platformy przestaje być zgadywanką, a staje się prostą konsekwencją wymagań.

To pierwszy z sześciu artykułów, w których rozkładamy dobór stacji pod lokalne AI na czynniki pierwsze, od pojedynczej stacji deweloperskiej po serwer w standardzie MGX. Zaczynamy od fundamentów, bo cała seria opiera się na trzech liczbach, które poznasz poniżej.

DGX Spark (MSI EdgeXpert): moc data center na biurku. Zobacz DGX Spark

01 Inferencja, nie trening: dlaczego to zmienia wszystko

Trening modelu i jego późniejsze używanie (inferencja) to dwa różne światy obciążeń. Trening to maraton: tygodnie pełnego obciążenia wielu GPU, ogromne wymagania co do pamięci i mocy, realizowane zwykle w chmurze lub dużych klastrach. Systemy agentowe, które wdraża większość firm, to przede wszystkim inferencja, czyli model już istnieje, a my „odpytujemy" go tysiące razy dziennie.

Ta różnica jest kluczowa, bo inferencja stawia inne wymagania. Nie potrzebujesz farmy GPU do uczenia. Potrzebujesz sprzętu, który zmieści model w pamięci i będzie go obsługiwał szybko, stabilnie i wielowątkowo. I właśnie pod tym kątem dobiera się stację do lokalnego AI, dlatego w całej serii skupiamy się na inferencji.

02 Trzy liczby, które rządzą lokalnym AI

Niezależnie od tego, czy mówimy o mini-komputerze, czy o serwerze w szafie rack, o wydajności decydują trzy parametry. Będą wracać w każdym kolejnym artykule tej serii.

01 / POJEMNOŚĆ

VRAM

Decyduje, czy model wraz z kontekstem w ogóle zmieści się na karcie. Gdy zabraknie VRAM, model nie ruszy albo dramatycznie zwolni, przerzucając dane do wolniejszej pamięci systemowej.

Limit: rozmiar modelu

02 / PRĘDKOŚĆ

Przepustowość pamięci

Przy generowaniu odpowiedzi liczy się, jak szybko GPU czyta wagi modelu z pamięci. To ona, a nie liczba rdzeni, wyznacza realną liczbę tokenów na sekundę.

Limit: tokeny / s

03 / OBLICZENIA

Moc obliczeniowa

FLOPS i TOPS liczą się przy przetwarzaniu długiego promptu oraz przy wsadowej obsłudze wielu zapytań naraz. Tu przewagę dają formaty FP8 i FP4 na nowych kartach.

Limit: czas do 1. tokena

Klucz

Podczas generowania odpowiedzi wąskim gardłem nie jest moc obliczeniowa, lecz przepustowość pamięci. Przy każdym tokenie model musi przeczytać swoje wagi z pamięci, więc im szybsza pamięć, tym więcej tokenów na sekundę. Dlatego karta z szybką pamięcią HBM generuje tekst szybciej niż karta o wyższych „papierowych" FLOPS-ach, ale wolniejszej pamięci.

Każda odpowiedź ma przy tym dwie fazy. Prefill to przetworzenie promptu wejściowego, faza obliczeniowa, która obciąża rdzenie tensorowe i decyduje o czasie do pierwszego tokena. Decode to generowanie kolejnych tokenów i tutaj wąskim gardłem jest przepustowość pamięci. W systemach agentowych z długim kontekstem ważne są obie fazy, ale to decode najczęściej decyduje o odczuwalnej płynności pracy.

03 Kwantyzacja: jak zmieścić model w pamięci

Model „70B" to 70 miliardów parametrów. W pełnej precyzji (FP16) każdy zajmuje 2 bajty, czyli około 140 GB, więcej niż pamięć większości kart graficznych. Z pomocą przychodzi kwantyzacja, czyli zapis parametrów z mniejszą precyzją, tak by model zajmował mniej miejsca i czytał się szybciej, przy minimalnej utracie jakości.

W 2026 roku standardem produkcyjnym jest FP8, połowa rozmiaru FP16 przy spadku jakości rzędu zaledwie 0,5–2%. Najnowsze karty Blackwell dokładają FP4 (NVFP4), jeszcze około 1,8 raza oszczędniejszy, choć narzędzia wciąż dojrzewają. Tam, gdzie liczy się zmieszczenie modelu w ciasnej pamięci, sprawdza się też INT4 (np. AWQ). Praktyczna reguła kciuka dla zapotrzebowania na VRAM wygląda tak:

Precyzja	Bajty / parametr	Model 7B	Model 14B	Model 70B	Jakość
FP16 (pełna)	2 B	~14 GB	~28 GB	~140 GB	bazowa (100%)
FP8standard 2026	1 B	~7 GB	~14 GB	~70 GB	~98–99%
INT4 / Q4	~0,5 B	~4 GB	~8 GB	~40 GB	~95%

Do wartości z tabeli trzeba doliczyć pamięć na kontekst (o tym za chwilę) oraz około 15% narzutu. Dlatego „model 70B w FP8" i karta z 80 GB pamięci to dopiero punkt wyjścia, a nie gotowa konfiguracja.

04 KV cache i współbieżność: ukryty pożeracz pamięci

Tu zaczyna się specyfika systemów agentowych. Agent nie zadaje jednego pytania, tylko prowadzi wielokrokowe rozmowy, gromadzi wyniki narzędzi, historię i kontekst. Wszystko to ląduje w tzw. KV cache, czyli pamięci podręcznej kontekstu, która rośnie z każdą turą i z każdą równoległą sesją. Pojedyncze zadanie badawcze agenta potrafi nagromadzić od 32 do 128 tys. tokenów kontekstu.

Wagi modelu

KV cache

Narzut

zależą od modelu i precyzji rośnie z kontekstem i liczbą sesji ~15%

Realny budżet pamięci wygląda więc tak:

VRAM ≈ wagi modelu + (KV cache na sesję × liczba sesji) + ~15% narzutu

Przykład z życia: model 13B w FP8 to około 26 GB wag. Ale przy 50 równoczesnych sesjach po 8 tys. tokenów sam KV cache to około 64 GB, łącznie ponad 90 GB. Większość kart już nie wystarczy, trzeba sięgnąć po karty 96/141 GB albo dwie karty. To dlatego w systemach agentowych pojemność pamięci często okazuje się ważniejsza niż surowa moc obliczeniowa.

Ten apetyt da się okiełznać. Współdzielenie prefiksu, gdy wiele sesji ma wspólny prompt systemowy i liczy się go tylko raz, potrafi podnieść przepustowość nawet kilkunastokrotnie. Z kolei batching, czyli obsługa wielu zapytań w jednej partii, lepiej wykorzystuje GPU. Do obu mechanizmów wrócimy przy doborze GPU i oprogramowania.

05 Pułapka liczby parametrów: modele MoE

W 2026 roku najciekawsze modele open-weight, takie jak Qwen 3.5, DeepSeek V4 czy Llama 4, to architektury MoE (Mixture of Experts). Mają ogromną liczbę parametrów, ale przy każdym tokenie aktywują tylko ich ułamek. Przykład: Qwen 3.5 ma około 122 mld parametrów, z czego aktywnych jest tylko ~10 mld.

Co to znaczy dla sprzętu? Wszystkie parametry muszą zmieścić się w pamięci (więc VRAM lub RAM nadal musi być duży), ale obciążenie obliczeniowe i przepustowościowe odpowiada jedynie części aktywnej. Dlatego model „122B" potrafi działać zaskakująco sprawnie nawet na sprzęcie z dużą, lecz niekoniecznie najszybszą pamięcią, na przykład na zunifikowanej pamięci mini-stacji. To jeden z powodów, dla których platformy pokroju DGX Spark ze 128 GB pamięci unified stały się sensowną opcją dla lokalnego AI.

06 Sprzęt to spektrum: od DGX Spark po MGX

Te same trzy liczby, czyli pojemność, przepustowość i moc, skalują się od urządzenia na biurko po szafę w serwerowni. W kolejnych artykułach przejdziemy całe to spektrum:

DGX Spark / stacja deweloperska: prototyp i fine-tuning przy biurku,
BoxPC: kompaktowe, odporne AI na brzegu sieci, np. na hali produkcyjnej,
desktop / workstation: pojedyncze i podwójne GPU dla zespołu,
serwer rack: inferencja on-premise 24/7 dla wielu użytkowników,
platforma MGX: modularny fundament „fabryki AI" w centrum danych.

W każdym przypadku wybór zaczyna się od tego samego pytania: jaki model, w jakiej precyzji i dla ilu użytkowników. Czyli ile pamięci, jak szybkiej i ile mocy.

Co dalej w serii

W kolejnej części bierzemy na warsztat serce każdej stacji do AI, czyli GPU i akceleratory: ile realnie potrzeba VRAM, czym różni się pamięć GDDR od HBM, kiedy ma sens NVLink i jak czytać specyfikacje kart od RTX po układy data-center.

Jeśli planujesz wdrożenie lokalnego AI i chcesz dobrać konfigurację pod konkretny model i obciążenie, nasi inżynierowie pomogą przejść od wymagań do gotowej platformy.

Poznaj rozwiązania AI Elmatic