Dobór stacji pod lokalne AI | Cz. 3: CPU, RAM i platforma

29.06.2026 How to Studia przypadków Informacje produktowe Product news Case studies

Producent: Advantech, Elmatic, Neousys Technology, MSI IPC, MSI EPS

Seria: dobór stacji pod lokalne AI · Część 03 / 06

GPU robi inferencję, ale nie pracuje w próżni. To procesor i pamięć systemowa karmią kartę danymi, obsługują logikę agenta i decydują, czy GPU pracuje pełną parą, czy się „głodzi". Źle dobrany CPU albo za mało RAM potrafią zmarnować potencjał najdroższej karty, a dobrze dobrane pozwalają wycisnąć z niej wszystko.

W częściach 1 i 2 ustaliliśmy, że o wydajności lokalnego AI decydują pojemność i przepustowość pamięci GPU. Teraz schodzimy o poziom niżej, do węzła wokół karty: ile rdzeni i pamięci systemowej naprawdę potrzeba, czym są linie PCIe i kiedy CPU faktycznie staje się wąskim gardłem.

W tym artykule

01 Po co CPU i RAM, skoro liczy GPU 02 Rola CPU w systemie agentowym 03 Ile rdzeni naprawdę potrzeba 04 Linie PCIe i platforma 05 RAM systemowy: ile i jak szybki 06 Inferencja na samym CPU 07 Pułapki: jak nie zmarnować GPU 08 Jak dobrać CPU, RAM i platformę

Stacje i serwery Elmatic z kartami NVIDIA RTX. Zobacz platformy RTX

01 Po co CPU i RAM, skoro liczy GPU

W samej generacji tokenów GPU robi większość pracy, a procesor jest stosunkowo mało obciążony. Łatwo z tego wyciągnąć błędny wniosek, że CPU i RAM są drugorzędne. W rzeczywistości to one ładują model do karty, przygotowują dane, obsługują całą „maszynerię" wokół modelu i w systemie agentowym potrafią zdecydować o płynności działania. Zbyt słaby węzeł sprawia, że droga karta czeka, zamiast liczyć.

02 Rola CPU w systemie agentowym

Różnica między prostą inferencją a systemem agentowym jest tu kluczowa. Agent nie tylko generuje tekst, lecz prowadzi wielokrokowe pętle: wywołuje narzędzia, czyta i zapisuje pliki, odpytuje bazy, uruchamia kod. Cała ta logika dzieje się na CPU.

ORKIESTRACJA

Pętla agenta i narzędzia

Wywołania narzędzi (tool-calls), uruchamianie kodu, obsługa API i sterowanie całą pętlą rozumowania to zadania procesora, nie GPU.

DANE

Tokenizacja i RAG

Tokenizacja, wyszukiwanie w bazie wektorowej, pre- i post-processing oraz podawanie danych do karty obciążają CPU i pamięć systemową.

WSPÓŁBIEŻNOŚĆ

Serwer i wielu użytkowników

Kolejkowanie żądań, routing i logika serwera inferencyjnego rosną wraz z liczbą równoczesnych sesji i użytkowników.

Im bardziej „agentowe" obciążenie, tym więcej dzieje się poza modelem. W prostym chatbocie CPU nudzi się, w rozbudowanym agencie z narzędziami i RAG potrafi być realnym ograniczeniem.

03 Ile rdzeni naprawdę potrzeba

Do inferencji na GPU liczba rdzeni rzadko jest wąskim gardłem, bo o tempie generacji decyduje pamięć karty. Ważniejsze bywają trzy inne rzeczy: wysokie taktowanie (responsywność w pracy interaktywnej, IDE, notebookach), liczba obsługiwanych GPU (każda karta to dodatkowe operacje wejścia-wyjścia i obsługa pętli) oraz współbieżność na serwerze. Dlatego do stacji deweloperskiej lepszym wyborem bywa szybko taktowany Intel Core Ultra lub Xeon w niż układ z większą liczbą wolniejszych rdzeni.

Klucz

Do inferencji na GPU nie dobieraj procesora „na rdzenie". Liczą się: wystarczająca liczba linii PCIe, szybka i wielokanałowa pamięć oraz dobre taktowanie. Mnóstwo rdzeni docenisz dopiero przy treningu, dużej liczbie GPU albo inferencji na samym CPU.

04 Linie PCIe i platforma

Każde GPU najlepiej czuje się w slocie PCIe 5.0 x16. Co ważne dla lokalnego AI: przy samej generacji tokenów przepustowość PCIe nie jest wąskim gardłem i karta w slocie x8 poradzi sobie niemal tak samo. Szerokość łącza zaczyna się liczyć dopiero przy ładowaniu dużych modeli, treningu oraz przy multi-GPU, gdzie karty wymieniają dane między sobą.

Tu pojawia się różnica między platformami. Płyty konsumenckie (Ryzen, Core) mają tylko około 24–28 linii, więc dwie karty zwykle dzielą pasmo na x8/x8. Platformy workstation i serwerowe oferują dziesiątki, a nawet setki linii, co pozwala obsadzić kilka kart z pełną przepustowością. Z pomocą przychodzi też bifurkacja, czyli podział jednego slotu x16 na dwa x8.

Platforma	Rdzenie (maks.)	Linie PCIe 5.0	Kanały pamięci	Klasa	Typowe zastosowanie
Intel Core Ultra	do 24	20–24	2× DDR5	konsumencka	1 GPU, prototyp
Intel Xeon w (W790)	do 60	112	8× DDR5 ECC	workstation	1–4 GPU, stacja AI
Intel Xeon 6 (Granite Rapids)	do 128	~96 / socket	8–12× DDR5 / MRDIMM	serwer	4–8 GPU, produkcja, AMX
AMD Threadripper PRO 9000WX	96	128	8× DDR5 ECC	workstation (alt.)	gdy maks. linie PCIe
AMD EPYC 9005	do 192	160 / socket	12× DDR5 ECC	serwer (alt.)	wyższe linie, maks. rdzenie
Grace (ARM, superchip)	72	NVLink-C2C	LPDDR5x	edge / serwer	DGX Spark, Station, MGX

Dla pojedynczej karty wystarczy Intel Core Ultra na dobrej płycie. Przy 2 kartach warto sięgnąć po Intel Xeon w (platforma W790, 112 linii PCIe 5.0, 8 kanałów), a do serwerów inferencyjnych po Intel Xeon 6, który dokłada akcelerator AMX przyspieszający obliczenia AI. Tam, gdzie liczy się maksymalna liczba linii PCIe albo rdzeni, alternatywą w wyższych liniach pozostają AMD Threadripper PRO i EPYC.

05 RAM systemowy: ile i jak szybki

Pamięć systemowa ma dwa wymiary: pojemność i szybkość. Pojemność powinna z zapasem mieścić model w trakcie ładowania, bufory i system. Praktyczna reguła to co najmniej tyle RAM, ile masz VRAM, a komfortowo 1,5 do 2 razy więcej. Do awaryjnego zrzucania modelu 70B do RAM potrzeba minimum 32 GB, a komfortowo 64 GB. Na KV cache dolicz około 25% przy kontekście 8K i nawet 100% przy 32K.

Szybkość (przepustowość) liczy się przede wszystkim przy inferencji na CPU oraz przy zrzucaniu warstw modelu do RAM. Im więcej kanałów pamięci, tym większa przepustowość. Różnica względem pamięci GPU jest jednak ogromna, co dobrze widać na wykresie:

GPU GDDR7 (RTX PRO 6000)1,79 TB/s

DDR5 12-kanałowy (EPYC)576 GB/s

DDR5 8-kanałowy (TR PRO)270 GB/s

DDR5 2-kanałowy (desktop)90 GB/s

pamięć GPU RAM systemowy (DDR5)

Scenariusz	Rekomendowany RAM	Uwagi
1 GPU, modele do 30B	32–64 GB	wygodny zapas na system i dane
1–2 GPU, 70B w FP8	128 GB	miejsce na ładowanie i KV cache
Serwer multi-GPU, produkcja	256 GB – 1 TB+	proporcjonalnie do łącznego VRAM, ECC RDIMM
Inferencja CPU-only	2× rozmiar modelu	szybka, wielokanałowa DDR5

Uwaga

Zrzucanie warstw modelu z VRAM do RAM systemowego to ostatnia deska ratunku, nie strategia. Pamięć GPU bywa 12 do 15 razy szybsza od DDR5, więc model 70B z offloadem potrafi spaść z 25 do zaledwie 3–5 tokenów na sekundę. Niemal zawsze lepiej dołożyć VRAM, niż liczyć na pamięć systemową.

06 Inferencja na samym CPU

Model można uruchomić również bez karty graficznej, narzędziami takimi jak llama.cpp i w formacie GGUF. Wąskim gardłem jest tu, podobnie jak na GPU, przepustowość pamięci, a nie liczba rdzeni. Dlatego decydują dwie rzeczy: liczba kanałów DDR5 oraz wsparcie instrukcji wektorowo-macierzowych. Intel AMX i AVX-512 potrafią przyspieszyć obliczenia w niskiej precyzji tak, że 8-bit bywa szybki jak 4-bit.

W praktyce: wielokanałowy Intel Xeon z akceleratorem AMX, a także Apple Silicon z pamięcią unified, dają sensowne tempo dla mniejszych modeli. Intel pozycjonuje zresztą Xeon 6 wprost jako procesor zdolny obsłużyć agentów AI bez GPU. Ośmiokanałowy DDR5 (około 270 GB/s) potrafi wygenerować kilkanaście tokenów na sekundę na modelu 70B, podczas gdy dwukanałowy desktop ledwie kilka. Duże modele na samym CPU pozostają wolne, więc to rozwiązanie do tańszych wdrożeń, zadań wsadowych i sytuacji, gdy niska latencja nie jest krytyczna.

07 Pułapki: jak nie zmarnować GPU

Najczęstsze błędy doboru węzła wokół karty, które potrafią obniżyć realną wydajność:

Za mało linii PCIe: dwie karty na płycie konsumenckiej dzielą pasmo. Dla samej generacji tokenów to mniej istotne, ale boli przy ładowaniu modeli i treningu.
Za mało RAM: brak miejsca na model w trakcie ładowania i na KV cache sprawia, że system zaczyna korzystać z dysku, a wydajność leci na łeb.
Pamięć jedno- lub dwukanałowa: zabójcza dla inferencji na CPU i dla zrzucania warstw do RAM.
Za słaby CPU dla agenta: pętla narzędzi, RAG i wiele równoczesnych sesji potrafią obciążyć procesor bardziej niż sam model.
Brak ECC w produkcji: przy pracy ciągłej błędy pamięci kumulują się i potrafią wywrócić długie zadania.

08 Jak dobrać CPU, RAM i platformę

Procesor i pamięć dobieramy do liczby kart i charakteru obciążenia. Poniżej praktyczna ściąga dla typowych konfiguracji.

Scenariusz	CPU / platforma	RAM
Stacja deweloperska, 1 GPU	Intel Core Ultra lub Xeon w, wysokie taktowanie	32–64 GB
Stacja AI zespołu, 2–4 GPU	Intel Xeon w (W790, 112 linii, 8 kanałów)	128–256 GB ECC
Serwer inferencyjny, 4–8 GPU	Intel Xeon 6 (AMX); AMD EPYC w wyższych liniach	256 GB – 1 TB ECC
Inferencja CPU-only	Intel Xeon z AMX lub Apple Silicon	2× rozmiar modelu
Edge / BoxPC	Intel (BoxPC) lub zintegrowany SoC (Grace w DGX Spark)	wg platformy

To punkt wyjścia, a nie sztywna recepta. W praktyce liczy się jeszcze charakter agenta, liczba użytkowników i plany rozbudowy. Jeśli chcesz mieć pewność, że procesor i pamięć nie zwiążą rąk karcie, nasi inżynierowie pomogą dobrać spójną platformę.

Co dalej w serii

Mamy już GPU oraz węzeł, który je obsługuje. W części 4 zajmiemy się pamięcią masową i siecią: jak szybkie NVMe przyspiesza ładowanie modeli, ile miejsca zjadają bazy wektorowe pod RAG i kiedy pojedynczy serwer przestaje wystarczać, a do gry wchodzi sieć łącząca wiele węzłów.

Planujesz stację albo serwer pod lokalne AI? Pomożemy dobrać procesor, pamięć i platformę dopasowane do Twoich kart i obciążenia.

Poznaj rozwiązania AI Elmatic