Lokalna stacja dla deweloperów AI oparta o NVIDIA DGX™ Spark. Produkowana przez MSI.
Koszyk
Seria: dobór stacji pod lokalne AI · Część 03 / 06
GPU robi inferencję, ale nie pracuje w próżni. To procesor i pamięć systemowa karmią kartę danymi, obsługują logikę agenta i decydują, czy GPU pracuje pełną parą, czy się „głodzi". Źle dobrany CPU albo za mało RAM potrafią zmarnować potencjał najdroższej karty, a dobrze dobrane pozwalają wycisnąć z niej wszystko.
W częściach 1 i 2 ustaliliśmy, że o wydajności lokalnego AI decydują pojemność i przepustowość pamięci GPU. Teraz schodzimy o poziom niżej, do węzła wokół karty: ile rdzeni i pamięci systemowej naprawdę potrzeba, czym są linie PCIe i kiedy CPU faktycznie staje się wąskim gardłem.
Stacje i serwery Elmatic z kartami NVIDIA RTX. Zobacz platformy RTX
W samej generacji tokenów GPU robi większość pracy, a procesor jest stosunkowo mało obciążony. Łatwo z tego wyciągnąć błędny wniosek, że CPU i RAM są drugorzędne. W rzeczywistości to one ładują model do karty, przygotowują dane, obsługują całą „maszynerię" wokół modelu i w systemie agentowym potrafią zdecydować o płynności działania. Zbyt słaby węzeł sprawia, że droga karta czeka, zamiast liczyć.
Różnica między prostą inferencją a systemem agentowym jest tu kluczowa. Agent nie tylko generuje tekst, lecz prowadzi wielokrokowe pętle: wywołuje narzędzia, czyta i zapisuje pliki, odpytuje bazy, uruchamia kod. Cała ta logika dzieje się na CPU.
Wywołania narzędzi (tool-calls), uruchamianie kodu, obsługa API i sterowanie całą pętlą rozumowania to zadania procesora, nie GPU.
Tokenizacja, wyszukiwanie w bazie wektorowej, pre- i post-processing oraz podawanie danych do karty obciążają CPU i pamięć systemową.
Kolejkowanie żądań, routing i logika serwera inferencyjnego rosną wraz z liczbą równoczesnych sesji i użytkowników.
Im bardziej „agentowe" obciążenie, tym więcej dzieje się poza modelem. W prostym chatbocie CPU nudzi się, w rozbudowanym agencie z narzędziami i RAG potrafi być realnym ograniczeniem.
Do inferencji na GPU liczba rdzeni rzadko jest wąskim gardłem, bo o tempie generacji decyduje pamięć karty. Ważniejsze bywają trzy inne rzeczy: wysokie taktowanie (responsywność w pracy interaktywnej, IDE, notebookach), liczba obsługiwanych GPU (każda karta to dodatkowe operacje wejścia-wyjścia i obsługa pętli) oraz współbieżność na serwerze. Dlatego do stacji deweloperskiej lepszym wyborem bywa szybko taktowany Intel Core Ultra lub Xeon w niż układ z większą liczbą wolniejszych rdzeni.
Do inferencji na GPU nie dobieraj procesora „na rdzenie". Liczą się: wystarczająca liczba linii PCIe, szybka i wielokanałowa pamięć oraz dobre taktowanie. Mnóstwo rdzeni docenisz dopiero przy treningu, dużej liczbie GPU albo inferencji na samym CPU.
Każde GPU najlepiej czuje się w slocie PCIe 5.0 x16. Co ważne dla lokalnego AI: przy samej generacji tokenów przepustowość PCIe nie jest wąskim gardłem i karta w slocie x8 poradzi sobie niemal tak samo. Szerokość łącza zaczyna się liczyć dopiero przy ładowaniu dużych modeli, treningu oraz przy multi-GPU, gdzie karty wymieniają dane między sobą.
Tu pojawia się różnica między platformami. Płyty konsumenckie (Ryzen, Core) mają tylko około 24–28 linii, więc dwie karty zwykle dzielą pasmo na x8/x8. Platformy workstation i serwerowe oferują dziesiątki, a nawet setki linii, co pozwala obsadzić kilka kart z pełną przepustowością. Z pomocą przychodzi też bifurkacja, czyli podział jednego slotu x16 na dwa x8.
| Platforma | Rdzenie (maks.) | Linie PCIe 5.0 | Kanały pamięci | Klasa | Typowe zastosowanie |
|---|---|---|---|---|---|
| Intel Core Ultra | do 24 | 20–24 | 2× DDR5 | konsumencka | 1 GPU, prototyp |
| Intel Xeon w (W790) | do 60 | 112 | 8× DDR5 ECC | workstation | 1–4 GPU, stacja AI |
| Intel Xeon 6 (Granite Rapids) | do 128 | ~96 / socket | 8–12× DDR5 / MRDIMM | serwer | 4–8 GPU, produkcja, AMX |
| AMD Threadripper PRO 9000WX | 96 | 128 | 8× DDR5 ECC | workstation (alt.) | gdy maks. linie PCIe |
| AMD EPYC 9005 | do 192 | 160 / socket | 12× DDR5 ECC | serwer (alt.) | wyższe linie, maks. rdzenie |
| Grace (ARM, superchip) | 72 | NVLink-C2C | LPDDR5x | edge / serwer | DGX Spark, Station, MGX |
Dla pojedynczej karty wystarczy Intel Core Ultra na dobrej płycie. Przy 2 kartach warto sięgnąć po Intel Xeon w (platforma W790, 112 linii PCIe 5.0, 8 kanałów), a do serwerów inferencyjnych po Intel Xeon 6, który dokłada akcelerator AMX przyspieszający obliczenia AI. Tam, gdzie liczy się maksymalna liczba linii PCIe albo rdzeni, alternatywą w wyższych liniach pozostają AMD Threadripper PRO i EPYC.
Pamięć systemowa ma dwa wymiary: pojemność i szybkość. Pojemność powinna z zapasem mieścić model w trakcie ładowania, bufory i system. Praktyczna reguła to co najmniej tyle RAM, ile masz VRAM, a komfortowo 1,5 do 2 razy więcej. Do awaryjnego zrzucania modelu 70B do RAM potrzeba minimum 32 GB, a komfortowo 64 GB. Na KV cache dolicz około 25% przy kontekście 8K i nawet 100% przy 32K.
Szybkość (przepustowość) liczy się przede wszystkim przy inferencji na CPU oraz przy zrzucaniu warstw modelu do RAM. Im więcej kanałów pamięci, tym większa przepustowość. Różnica względem pamięci GPU jest jednak ogromna, co dobrze widać na wykresie:
| Scenariusz | Rekomendowany RAM | Uwagi |
|---|---|---|
| 1 GPU, modele do 30B | 32–64 GB | wygodny zapas na system i dane |
| 1–2 GPU, 70B w FP8 | 128 GB | miejsce na ładowanie i KV cache |
| Serwer multi-GPU, produkcja | 256 GB – 1 TB+ | proporcjonalnie do łącznego VRAM, ECC RDIMM |
| Inferencja CPU-only | 2× rozmiar modelu | szybka, wielokanałowa DDR5 |
Zrzucanie warstw modelu z VRAM do RAM systemowego to ostatnia deska ratunku, nie strategia. Pamięć GPU bywa 12 do 15 razy szybsza od DDR5, więc model 70B z offloadem potrafi spaść z 25 do zaledwie 3–5 tokenów na sekundę. Niemal zawsze lepiej dołożyć VRAM, niż liczyć na pamięć systemową.
Model można uruchomić również bez karty graficznej, narzędziami takimi jak llama.cpp i w formacie GGUF. Wąskim gardłem jest tu, podobnie jak na GPU, przepustowość pamięci, a nie liczba rdzeni. Dlatego decydują dwie rzeczy: liczba kanałów DDR5 oraz wsparcie instrukcji wektorowo-macierzowych. Intel AMX i AVX-512 potrafią przyspieszyć obliczenia w niskiej precyzji tak, że 8-bit bywa szybki jak 4-bit.
W praktyce: wielokanałowy Intel Xeon z akceleratorem AMX, a także Apple Silicon z pamięcią unified, dają sensowne tempo dla mniejszych modeli. Intel pozycjonuje zresztą Xeon 6 wprost jako procesor zdolny obsłużyć agentów AI bez GPU. Ośmiokanałowy DDR5 (około 270 GB/s) potrafi wygenerować kilkanaście tokenów na sekundę na modelu 70B, podczas gdy dwukanałowy desktop ledwie kilka. Duże modele na samym CPU pozostają wolne, więc to rozwiązanie do tańszych wdrożeń, zadań wsadowych i sytuacji, gdy niska latencja nie jest krytyczna.
Najczęstsze błędy doboru węzła wokół karty, które potrafią obniżyć realną wydajność:
Procesor i pamięć dobieramy do liczby kart i charakteru obciążenia. Poniżej praktyczna ściąga dla typowych konfiguracji.
| Scenariusz | CPU / platforma | RAM |
|---|---|---|
| Stacja deweloperska, 1 GPU | Intel Core Ultra lub Xeon w, wysokie taktowanie | 32–64 GB |
| Stacja AI zespołu, 2–4 GPU | Intel Xeon w (W790, 112 linii, 8 kanałów) | 128–256 GB ECC |
| Serwer inferencyjny, 4–8 GPU | Intel Xeon 6 (AMX); AMD EPYC w wyższych liniach | 256 GB – 1 TB ECC |
| Inferencja CPU-only | Intel Xeon z AMX lub Apple Silicon | 2× rozmiar modelu |
| Edge / BoxPC | Intel (BoxPC) lub zintegrowany SoC (Grace w DGX Spark) | wg platformy |
To punkt wyjścia, a nie sztywna recepta. W praktyce liczy się jeszcze charakter agenta, liczba użytkowników i plany rozbudowy. Jeśli chcesz mieć pewność, że procesor i pamięć nie zwiążą rąk karcie, nasi inżynierowie pomogą dobrać spójną platformę.
Mamy już GPU oraz węzeł, który je obsługuje. W części 4 zajmiemy się pamięcią masową i siecią: jak szybkie NVMe przyspiesza ładowanie modeli, ile miejsca zjadają bazy wektorowe pod RAG i kiedy pojedynczy serwer przestaje wystarczać, a do gry wchodzi sieć łącząca wiele węzłów.
Planujesz stację albo serwer pod lokalne AI? Pomożemy dobrać procesor, pamięć i platformę dopasowane do Twoich kart i obciążenia.
