Dobór stacji pod lokalne AI | Cz. 6: W praktyce, scenariusze i TCO

29.06.2026 How to Studia przypadków Informacje produktowe Product news Case studies

Seria: dobór stacji pod lokalne AI · Część 06 / 06

Czas złożyć całą serię w jedną, praktyczną całość. Wiemy już, co obciąża sprzęt, jak dobrać GPU, procesor, pamięć, dysk, sieć i chłodzenie. Teraz przekładamy to na gotowe konfiguracje pod konkretne zastosowania, liczymy realny koszt posiadania i zostawiamy checklistę, która przeprowadzi Cię od wymagań do zamówienia.

To ostatnia część przewodnika. Jeśli dołączasz w tym miejscu, wcześniejsze odcinki tłumaczą każdy podzespół z osobna. Tu skupiamy się na decyzji końcowej: co kupić, w jakim układzie i czy w ogóle budować u siebie, czy wynająć w chmurze.

W tym artykule

01 Ścieżka decyzji w siedmiu krokach 02 Wzór i przykład doboru 03 Gotowe scenariusze i konfiguracje 04 Stack programowy 05 Chmura ma swoje problemy 06 Rachunek po stronie lokalnego AI 07 Podsumowanie serii

01 Ścieżka decyzji w siedmiu krokach

Dobór stacji pod lokalne AI to nie zgadywanie, lecz prosta sekwencja. Każdy krok wynika z poprzedniego, a całość streszcza dotychczasowe części serii.

1. Model i precyzja: jaki model i w jakim formacie (FP8, FP4, INT4) chcesz uruchomić. To wyznacza, ile model waży (część 1).
2. VRAM: wagi modelu plus KV cache (kontekst razy liczba sesji) plus około 15% narzutu. Tak liczysz potrzebną pamięć GPU (część 1).
3. GPU: dobierasz klasę karty pod ten VRAM i obciążenie, od RTX PRO 6000 po H200 i Blackwell (część 2).
4. CPU, RAM, platforma: dość rdzeni, linii PCIe i szybkiej pamięci, by nie głodzić karty. U nas Intel-first (część 3).
5. Dysk i sieć: szybkie NVMe pod modele i bazy RAG; sieć dopiero, gdy skalujesz na wiele węzłów (część 4).
6. Zasilanie, chłodzenie, forma: budżet mocy, powietrze czy ciecz, obudowa dopasowana do środowiska (część 5).
7. Model wdrożenia: on-premise czy chmura, w zależności od wykorzystania, prywatności i kosztu (ta część).

02 Wzór i przykład doboru

Sercem całej decyzji jest jeden wzór na zapotrzebowanie na pamięć GPU, który poznaliśmy w części 1:

VRAM ≈ wagi modelu + (KV cache na sesję × liczba sesji) + ~15% narzutu

Prześledźmy go na konkretnym przykładzie. Załóżmy model 70B w precyzji FP8 dla zespołu, z około 20 równoczesnymi sesjami.

Przykład

Wagi modelu 70B w FP8 to około 70 GB. Doliczając KV cache dla 20 sesji i narzut, realnie potrzeba 90 do 110 GB pamięci. Mieści się to na jednej lub dwóch kartach RTX PRO 6000 (96 GB) albo na H200 (141 GB). Do tego procesor Intel Xeon w, 256 GB RAM ECC, macierz NVMe, sieć 25 GbE i obudowa rack 2U z redundantnym zasilaniem. Pobór mocy rzędu 2 do 3 kW.

Ten sam tok rozumowania działa w obie strony: mniejszy model albo mniej użytkowników to mniejsze wymagania, większy model MoE albo dłuższy kontekst to skok zapotrzebowania na pamięć. Wszystko zaczyna się od pierwszego kroku, czyli wyboru modelu i precyzji.

03 Gotowe scenariusze i konfiguracje

Poniższa tabela spina całą serię: dla każdego typowego wdrożenia podajemy spójny zestaw podzespołów, od karty po zasilanie. Traktuj ją jako punkt startowy, który potem dopina się do konkretnych wymagań.

Profil wdrożenia	GPU	CPU i RAM	Dysk i sieć	Forma	Pobór
Prototyp, 1 deweloper	DGX Spark lub 1× RTX PRO 6000	Intel Core Ultra / Xeon w, 64 GB	NVMe Gen5, 1/10 GbE	mini / tower	~1 kW
Stacja AI zespołu	2–4× RTX PRO 6000	Intel Xeon w, 128–256 GB ECC	NVMe U.2 (RAID), 10/25 GbE	wieża workstation	2–3 kW
Serwer inferencyjny on-prem	H200 lub 2–8× RTX PRO 6000 Server	Intel Xeon 6 (AMX), 256 GB–1 TB ECC	macierz NVMe + GDS, 25/100 GbE	rack 2–4U	3–10 kW
Edge / hala produkcyjna	BoxPC z RTX Blackwell lub Jetson	Intel, pamięć unified / 64 GB	NVMe lokalnie	fanless BoxPC	60–300 W
Skala / klaster	B200 / B300, platforma MGX	Grace lub Xeon 6 / EPYC	NVMe rack-scale, InfiniBand / Spectrum-X	MGX, chłodzenie cieczą	30–140 kW / szafa

Serwerowa platforma AI Elmatic pod karty NVIDIA RTX, do pracy 24/7. Zobacz model

Widać tu wszystkie zasady z poprzednich części w działaniu: im większa skala, tym szybsza pamięć, więcej kart, mocniejsza sieć i poważniejsze chłodzenie, ale też wyższy koszt. Najczęstszy wybór u klientów to wiersz wyróżniony, czyli serwer inferencyjny on-premise. Zobacz gotowe komputery Elmatic z kartami NVIDIA RTX.

04 Stack programowy

Sprzęt to połowa sukcesu. Ta sama karta potrafi obsłużyć dwa razy więcej użytkowników albo dwa razy mniej, w zależności od oprogramowania. Warto znać kluczowe elementy stosu.

CUDA i sterowniki: fundament całego ekosystemu NVIDIA, podstawa pod wszystkie biblioteki.
Silniki inferencyjne: vLLM i TensorRT-LLM dają maksymalną wydajność dzięki batchingowi i współdzieleniu prefiksu; Ollama i llama.cpp to proste wdrożenie lokalne, także na samym CPU.
NVIDIA AI Enterprise: produkcyjne mikroserwisy NIM, wsparcie z SLA, wirtualizacja vGPU i orkiestracja, gdy wdrażasz dla realnych użytkowników (szczegóły w części 2).
Intel AMX: akcelerator macierzowy w procesorach Xeon, który przyspiesza inferencję na samym CPU (część 3).

Dobór oprogramowania idzie w parze ze sprzętem. Serwer z vLLM, współdzieleniem prefiksu i właściwą kwantyzacją obsłuży znacznie więcej zapytań niż naiwna konfiguracja na tej samej karcie.

05 Chmura ma swoje problemy

Gdy konfiguracja jest już dobrana, pojawia się kuszące pytanie: po co w ogóle kupować sprzęt, skoro moc można wziąć z chmury. Chmura ma swoje miejsce, ale niesie też ograniczenia, które w lokalnym AI po prostu znikają.

CHMURA: RYZYKA

Zależność i niepewność

Płacisz za czas i tokeny, a rachunek rośnie z użyciem i bywa trudny do zaplanowania. Dochodzi zależność od dostawcy oraz dane firmowe poza Twoją infrastrukturą.

LOKALNIE: KONTROLA

Twój sprzęt, twoje zasady

Dane nie opuszczają firmy, koszt jest stały i policzalny, a o tym, jaki model i jak długo działa, decydujesz Ty. Niezależność od cudzych cenników i polityk.

Najczęstsze problemy chmury, które warto rozważyć, zanim oprze się na niej produkcję:

Nieprzewidywalne i rosnące ceny: stawki za godzinę i za token potrafią się zmieniać, a koszt skaluje się wprost z użyciem. Trudno zaplanować budżet na rok.
Zależność od dostawcy: zmiany API, limitów, dostępności GPU czy wycofanie modelu dzieją się poza Twoją kontrolą i potrafią wymusić przerabianie wdrożenia.
Prywatność i suwerenność danych: wrażliwe dane firmowe trafiają do zewnętrznego operatora. To realne wyzwanie dla RODO, tajemnicy handlowej i wymogów branżowych.
Latencja i zależność od łącza: każde zapytanie wędruje przez internet, a brak łącza oznacza brak AI. Na hali produkcyjnej czy na brzegu sieci to często dyskwalifikuje chmurę.
Brak pełnej kontroli: współdzielone zasoby, kolejki i limity w godzinach szczytu oznaczają zmienną wydajność, na którą nie masz wpływu.

Sedno

W lokalnym AI te problemy znikają u źródła. Dane zostają u Ciebie, koszt jest przewidywalny, a kontrola pełna. To nie tylko kwestia ceny, lecz niezależności i bezpieczeństwa, które dla wielu firm są warunkiem wejścia w AI.

06 Rachunek po stronie lokalnego AI

Do argumentów o kontroli i prywatności dochodzi twardy rachunek. Przy stałym, dużym ruchu inferencyjnym sprzęt u siebie jest po prostu tańszy, a kluczową zmienną jest wykorzystanie, czyli jak intensywnie maszyna realnie pracuje.

Wykorzystanie	Zwrot z inwestycji on-premise	Najlepszy wybór
90%+ (produkcja 24/7)	7–14 miesięcy	lokalnie
60–80% (aktywny development)	14–24 miesiące	lokalnie przeważnie
40–60% (okresowo)	24–36+ miesięcy	zależnie
poniżej 40% / zrywami	dłużej	chmura na start

Owszem, lokalny sprzęt ma swoje koszty: energia (serwer rzędu 10 kW pobiera prąd bez przerwy), chłodzenie, sieć i utrzymanie. Mimo to przy stałym, dużym obciążeniu rachunek wychodzi korzystnie, a koszt wygenerowania miliona tokenów bywa wielokrotnie niższy niż w API chmurowym.

Reguła

Im stabilniejsze i większe obciążenie, tym wyraźniej wygrywa sprzęt u siebie. Chmura zostaje sensowna do prototypów i nagłych pików, ale serce produkcyjnego lokalnego AI najlepiej trzymać na własnym sprzęcie: taniej w dłuższym horyzoncie i bez oddawania danych na zewnątrz.

07 Podsumowanie serii

Przeszliśmy całą drogę doboru stacji pod lokalne AI, od fundamentów po gotową konfigurację:

Część 1: fundamenty, czyli trzy liczby (VRAM, przepustowość, moc) i KV cache.
Część 2: GPU i akceleratory NVIDIA, od RTX po Blackwell.
Część 3: CPU, RAM i platforma, z naciskiem na Intela.
Część 4: pamięć masowa i sieć, łącznie z układami komunikacyjnymi.
Część 5: zasilanie, chłodzenie i form factor, od BoxPC po MGX.
Część 6: dobór w praktyce, scenariusze i TCO (ta część).

Myśl przewodnia całej serii jest prosta: w lokalnym AI najpierw liczą się pojemność i przepustowość pamięci, a reszta podzespołów to konsekwencje tej decyzji. Kto rozumie te zależności, nie przepłaca ani nie kupuje sprzętu, który nie udźwignie modelu.

Jeśli planujesz wdrożenie lokalnego AI, nie musisz przechodzić tej drogi sam. Nasi inżynierowie pomogą przełożyć Twoje wymagania na konkretną, sprawdzoną konfigurację, od pojedynczej stacji po klaster. Przejrzyj ofertę Elmatic albo zacznij od naszego centrum wiedzy.

Poznaj rozwiązania AI Elmatic

Skontaktuj się z ekspertem

Mailowo elmark@elmark.com.pl

Telefonicznie +48 22 773 79 37

Przez formularz Wypełnij formularz