Dobór stacji pod lokalne AI | Cz. 4: Pamięć masowa i sieć

29.06.2026 How to Studia przypadków Informacje produktowe Product news Case studies

Producent: Advantech, Elmatic, Neousys Technology, MSI IPC, MSI EPS

Seria: dobór stacji pod lokalne AI · Część 04 / 06

GPU liczy, CPU steruje, ale to dysk i sieć decydują, jak szybko dane trafiają do modelu i czy w ogóle da się rozłożyć obciążenie na wiele maszyn. W lokalnym AI łatwo o nich zapomnieć, a potrafią być wąskim gardłem: od ślimaczącego się ładowania modeli po niewydolną wymianę danych w klastrze.

W tej części patrzymy na dwie warstwy infrastruktury wokół obliczeń: pamięć masową (NVMe, pojemność, formaty, dostęp GPU do dysku) oraz sieć (kiedy pojedynczy serwer wystarcza, a kiedy trzeba spiąć wiele węzłów i czym). Sieć omawiamy na sprzęcie NVIDIA, bo to on tworzy dziś standard fabryk AI.

W tym artykule

01 Dlaczego dysk i sieć w ogóle się liczą 02 NVMe: szybki dysk skraca ładowanie modeli 03 GPUDirect Storage: dysk prosto do GPU 04 Ile miejsca naprawdę potrzeba 05 Formaty i klasy dysków 06 Sieć: trzy poziomy łączności 07 InfiniBand kontra Ethernet 08 Układy komunikacyjne NVIDIA 09 Jak dobrać dysk i sieć w praktyce

01 Dlaczego dysk i sieć w ogóle się liczą

Model żyje w pamięci GPU, ale najpierw musi się tam znaleźć, a jego dane skądś pochodzą. Dysk decyduje, jak szybko model wczytuje się przy starcie i przy przełączaniu, oraz jak sprawnie agent sięga do bazy wiedzy (RAG). Sieć wkracza wtedy, gdy jeden serwer przestaje wystarczać i obciążenie trzeba rozłożyć na wiele maszyn. Oba elementy łatwo zaniedbać, a potrafią zmienić drogą stację w sprzęt, który czeka, zamiast pracować.

02 NVMe: szybki dysk skraca ładowanie modeli

Wagi modelu trzeba wczytać z dysku do VRAM przy każdym uruchomieniu usługi i przy każdej zmianie modelu. Przy plikach liczących dziesiątki, a nawet setki gigabajtów prędkość dysku przekłada się wprost na czas oczekiwania. Różnice między klasami nośników są ogromne:

SATA SSD0,55 GB/s

NVMe PCIe Gen47 GB/s

NVMe PCIe Gen514 GB/s

SATA NVMe

Przykład

Wczytanie modelu o wadze 140 GB zajmuje z dysku SATA około 4 minut, a z NVMe PCIe Gen5 (~14 GB/s) około 10 sekund. Przy częstym przełączaniu modeli, restartach usług czy wielu modelach na jednej maszynie ta różnica decyduje o komforcie i wydajności pracy.

W serwerze kilka dysków NVMe można też połączyć, osiągając setki GB/s zagregowanej przepustowości. Warto pamiętać, że szybki dysk pomaga przy ładowaniu i pracy z danymi, ale nie zastąpi VRAM: gdy model nie mieści się w pamięci GPU, dysk nie uratuje wydajności.

03 GPUDirect Storage: dysk prosto do GPU

Klasycznie dane z dysku wędrują najpierw do pamięci systemowej (RAM), a dopiero stamtąd do GPU, obciążając procesor i dodając opóźnienie. NVIDIA GPUDirect Storage (część pakietu Magnum IO) pozwala karcie sięgać po dane wprost z NVMe, z pominięciem CPU i RAM. Efekt to wyższa przepustowość i niższe opóźnienie przy ładowaniu modeli oraz strumieniowaniu dużych zbiorów danych.

To rozwiązanie nabiera znaczenia przy bardzo dużych modelach, checkpointach treningowych i potokach RAG, gdzie dane liczone są w terabajtach. W mniejszych, pojedynczych stacjach efekt jest mniej odczuwalny, ale w serwerach i klastrach potrafi realnie skrócić czas ładowania.

04 Ile miejsca naprawdę potrzeba

Pojemność dysku łatwo niedoszacować, bo modele i dane szybko się mnożą. Miejsce zjadają nie tylko wagi jednego modelu, ale cała biblioteka modeli pod różne zadania, bazy wektorowe na potrzeby RAG, zbiory do dostrajania oraz checkpointy. Poniżej rzędy wielkości, z którymi warto się liczyć.

Co przechowujesz	Rząd wielkości	Uwagi
Pojedynczy model (70B w FP8)	~70 GB	duże modele MoE: 200–500 GB
Biblioteka kilku modeli	0,5–2 TB	różne modele i precyzje pod różne zadania
Baza wektorowa (RAG)	od GB do wielu TB	zależnie od liczby dokumentów i embeddingów
Zbiory do fine-tuningu	rzędu TB	dane treningowe i ich wersje
Checkpointy i kopie	rzędu TB	przy treningu i dostrajaniu modeli

Praktyczna rada: zaplanuj wyraźny zapas pojemności na szybkim nośniku. Modele przybywają, a baza wiedzy RAG z czasem tylko puchnie. Wolniejszy, pojemny dysk może służyć jako warstwa archiwalna, ale modele i dane „gorące" trzymaj na NVMe.

05 Formaty i klasy dysków

Nie każdy NVMe nadaje się do pracy ciągłej. Dyski konsumenckie M.2 są tanie, ale mają ograniczoną trwałość i gorzej znoszą wysokie temperatury w serwerze. Nośniki klasy enterprise oferują wyższą wytrzymałość (parametr DWPD, czyli ile razy dziennie można zapisać cały dysk), zabezpieczenie zasilania i wymianę na gorąco.

Format / klasa	Gdzie	Uwagi
M.2 (konsumencki)	desktop, stacja 1 GPU	tani, ograniczona trwałość i chłodzenie
M.2 / U.2 enterprise	workstation, serwer	wyższe DWPD, ochrona zasilania, ECC
U.2, E1.S, E3 (EDSFF)	serwery rack	hot-swap, gęstość, chłodzenie serwerowe
Macierz NVMe (kilka dysków)	serwer, storage	RAID, setki GB/s, duża pojemność

W środowisku produkcyjnym 24/7 stawiaj na dyski enterprise i redundancję (RAID lub kopie), bo to na nich leżą modele i firmowe dane. W stacji deweloperskiej w zupełności wystarczy dobry dysk M.2 PCIe Gen5.

06 Sieć: trzy poziomy łączności

Łączność w AI ma trzy poziomy, a sieć w klasycznym rozumieniu to dopiero ten najszerszy. Zrozumienie tej hierarchii pomaga nie przepłacić tam, gdzie nie trzeba, i nie oszczędzać tam, gdzie to boli.

W serwerze (NVLink / PCIe): karty łączą się bezpośrednio. NVLink daje do 1,8 TB/s na GPU, rzędy wielkości więcej niż jakakolwiek sieć. Tu łączność zewnętrzna nie jest wąskim gardłem, a do zarządzania wystarcza zwykły 10/25 GbE.
Między serwerami (scale-out): gdy model albo liczba użytkowników przerastają jeden węzeł, między maszynami wędrują KV cache, aktywacje i gradienty. Wchodzi szybka sieć: InfiniBand albo Ethernet w wersji dla AI.
W klastrze (fabryka AI): dziesiątki lub setki GPU spina spójna tkanina z przełączników, kart i DPU, projektowana jako całość, z naciskiem na najniższą latencję.

Dla większości wdrożeń on-premise liczą się dwa pierwsze poziomy. Pełna fabryka AI to domena dużych centrów danych, ale jej elementy (karty, DPU, przełączniki) opisujemy niżej, bo coraz częściej trafiają też do mniejszych serwerów.

07 InfiniBand kontra Ethernet

Do spinania węzłów AI służą dwie technologie, obie oparte na RDMA, czyli bezpośrednim dostępie do pamięci zdalnego węzła z pominięciem procesora, co minimalizuje opóźnienia. InfiniBand (przełączniki NVIDIA Quantum) to de facto standard treningu: najniższa, przewidywalna latencja i mechanizm SHARP, który przenosi część obliczeń redukcji na przełącznik. Ethernet, zwłaszcza w wersji NVIDIA Spectrum-X, jest tańszy i znajomy, a dzięki adaptacyjnemu routingowi oraz kontroli przeciążeń dorównuje InfiniBandowi w około 95% wydajności. Łączność zapewniają karty ConnectX-8 (800G) i ConnectX-9 (1,6 Tb/s) oraz jednostki DPU BlueField.

Cecha	InfiniBand (Quantum)	Ethernet / Spectrum-X
Przepustowość na port	NDR 400G, XDR 800G	400 / 800 GbE
Latencja	najniższa, deterministyczna	bardzo niska (z tuningiem)
RDMA	natywne	RoCEv2
Odciążanie w sieci	SHARP (redukcje na switchu)	routing adaptacyjny
Ekosystem i koszt	niszowy, droższy	szeroki, tańszy
Najlepsze do	trening, duże klastry	inferencja, chmura, wdrożenia mieszane

Zasada

Z grubsza: InfiniBand do treningu i największych klastrów, Ethernet (Spectrum-X) do inferencji. Dla pojedynczego serwera inferencyjnego, czyli większości wdrożeń on-premise, w zupełności wystarcza zwykły 10/25/100 GbE. InfiniBand rzadko opłaca się przy samej inferencji.

08 Układy komunikacyjne NVIDIA

Sieć AI to dziś nie tylko kable i pojedyncze karty, lecz cała rodzina wyspecjalizowanych układów. NVIDIA buduje pełny stos komunikacyjny: od kart sieciowych dla ruchu GPU, przez procesory DPU odciążające serwer, po przełączniki i mosty NVLink spinające karty w jeden organizm. Warto znać ich role, bo to one decydują, jak dobrze klaster się skaluje i jak bezpieczny jest serwer współdzielony.

Modularne serwery NVIDIA MGX do skalowania infrastruktury AI. Zobacz serwery MGX

Układ	Rola	Przykłady (2026)
SuperNIC (ConnectX)	karta sieciowa dla ruchu GPU, RDMA / RoCE	ConnectX-8 (800G), ConnectX-9 (1,6 Tb/s)
DPU (BlueField)	odciąża sieć, storage i bezpieczeństwo z CPU, izoluje najemców	BlueField-3 (400G), BlueField-4 (800G)
Switch Ethernet (Spectrum)	fabryka Ethernet dla AI (Spectrum-X)	Spectrum-4, Spectrum-6 (optyka CPO)
Switch InfiniBand (Quantum)	przełącznik IB z mechanizmem SHARP	Quantum-2 (NDR), Quantum-X800 (XDR)
NVLink Switch (NVSwitch)	spina GPU w jeden pool pamięci w racku	NVL72, NVLink 6 (Vera Rubin)

Na szczególną uwagę zasługuje DPU. BlueField to w praktyce „serwer w serwerze": przejmuje obsługę sieci, pamięci masowej, szyfrowania i bezpieczeństwa, którą normalnie zajmowałby się procesor. Dzięki temu CPU może w całości liczyć, a ruch sieciowy, firewall, inspekcja pakietów i izolacja najemców (multi-tenancy) dzieją się na dedykowanym układzie, bez obciążania rdzeni. W serwerach inferencyjnych, zwłaszcza współdzielonych przez wiele zespołów, DPU podnosi i wydajność, i bezpieczeństwo.

Na poziomie największych klastrów NVIDIA integruje już optykę wprost z przełącznikami (co-packaged optics w Spectrum-6 i Quantum-X), obniżając pobór mocy oraz opóźnienia. Najnowsza platforma Vera Rubin spina to w komplet: SuperNIC ConnectX-9, DPU BlueField-4, switch Spectrum-6 i NVLink 6.

09 Jak dobrać dysk i sieć w praktyce

Pamięć masową i sieć dobieramy do skali wdrożenia. Poniżej praktyczna ściąga dla typowych przypadków.

Scenariusz	Pamięć masowa	Sieć
Stacja deweloperska, 1 GPU	1–2× NVMe Gen5 M.2	zwykła 1 / 10 GbE
Stacja lub serwer AI, 2–4 GPU	NVMe enterprise U.2, RAID	10 / 25 GbE
Serwer inferencyjny on-prem, wielu userów	macierz NVMe, GPUDirect Storage	25 / 100 GbE (Ethernet)
Multi-node inferencja, RAG na skalę	szybkie NVMe + storage współdzielony	Spectrum-X, 100–400 GbE
Klaster treningowy, duże modele	NVMe + storage równoległy	InfiniBand NDR / XDR

To punkt wyjścia, a nie sztywna recepta. W praktyce liczy się jeszcze charakter danych, wymagania backupu i plany rozbudowy. Jeśli chcesz, by dysk i sieć nadążały za kartami, pomożemy dobrać spójną całość, od pojedynczej stacji po klaster.

Co dalej w serii

Mamy już komplet podzespołów: GPU, węzeł CPU i RAM oraz dysk i sieć. W części 5 zajmiemy się tym, co spina je w działającą maszynę: zasilaniem, chłodzeniem i form factorem, od kompaktowego BoxPC, przez stację i rack, aż po modularne platformy MGX. Pokażemy, ile prądu i chłodzenia naprawdę potrzeba i jak dobrać obudowę do środowiska.

Planujesz infrastrukturę pod lokalne AI? Pomożemy dobrać pamięć masową i sieć dopasowane do skali Twojego wdrożenia.

Poznaj rozwiązania AI Elmatic