Dobór stacji pod lokalne AI | Cz. 4: Pamięć masowa i sieć

29.06.2026 How to Studia przypadków Informacje produktowe Product news Case studies
Dobór stacji pod lokalne AI | Cz. 4: Pamięć masowa i sieć
Wizerunek autora
Producent: Advantech, Elmatic, Neousys Technology, MSI IPC, MSI EPS

Seria: dobór stacji pod lokalne AI · Część 04 / 06

GPU liczy, CPU steruje, ale to dysk i sieć decydują, jak szybko dane trafiają do modelu i czy w ogóle da się rozłożyć obciążenie na wiele maszyn. W lokalnym AI łatwo o nich zapomnieć, a potrafią być wąskim gardłem: od ślimaczącego się ładowania modeli po niewydolną wymianę danych w klastrze.

W tej części patrzymy na dwie warstwy infrastruktury wokół obliczeń: pamięć masową (NVMe, pojemność, formaty, dostęp GPU do dysku) oraz sieć (kiedy pojedynczy serwer wystarcza, a kiedy trzeba spiąć wiele węzłów i czym). Sieć omawiamy na sprzęcie NVIDIA, bo to on tworzy dziś standard fabryk AI.

01 Dlaczego dysk i sieć w ogóle się liczą

Model żyje w pamięci GPU, ale najpierw musi się tam znaleźć, a jego dane skądś pochodzą. Dysk decyduje, jak szybko model wczytuje się przy starcie i przy przełączaniu, oraz jak sprawnie agent sięga do bazy wiedzy (RAG). Sieć wkracza wtedy, gdy jeden serwer przestaje wystarczać i obciążenie trzeba rozłożyć na wiele maszyn. Oba elementy łatwo zaniedbać, a potrafią zmienić drogą stację w sprzęt, który czeka, zamiast pracować.

02 NVMe: szybki dysk skraca ładowanie modeli

Wagi modelu trzeba wczytać z dysku do VRAM przy każdym uruchomieniu usługi i przy każdej zmianie modelu. Przy plikach liczących dziesiątki, a nawet setki gigabajtów prędkość dysku przekłada się wprost na czas oczekiwania. Różnice między klasami nośników są ogromne:

SATA SSD0,55 GB/s
NVMe PCIe Gen47 GB/s
NVMe PCIe Gen514 GB/s
SATA NVMe
Przykład

Wczytanie modelu o wadze 140 GB zajmuje z dysku SATA około 4 minut, a z NVMe PCIe Gen5 (~14 GB/s) około 10 sekund. Przy częstym przełączaniu modeli, restartach usług czy wielu modelach na jednej maszynie ta różnica decyduje o komforcie i wydajności pracy.

W serwerze kilka dysków NVMe można też połączyć, osiągając setki GB/s zagregowanej przepustowości. Warto pamiętać, że szybki dysk pomaga przy ładowaniu i pracy z danymi, ale nie zastąpi VRAM: gdy model nie mieści się w pamięci GPU, dysk nie uratuje wydajności.

03 GPUDirect Storage: dysk prosto do GPU

Klasycznie dane z dysku wędrują najpierw do pamięci systemowej (RAM), a dopiero stamtąd do GPU, obciążając procesor i dodając opóźnienie. NVIDIA GPUDirect Storage (część pakietu Magnum IO) pozwala karcie sięgać po dane wprost z NVMe, z pominięciem CPU i RAM. Efekt to wyższa przepustowość i niższe opóźnienie przy ładowaniu modeli oraz strumieniowaniu dużych zbiorów danych.

To rozwiązanie nabiera znaczenia przy bardzo dużych modelach, checkpointach treningowych i potokach RAG, gdzie dane liczone są w terabajtach. W mniejszych, pojedynczych stacjach efekt jest mniej odczuwalny, ale w serwerach i klastrach potrafi realnie skrócić czas ładowania.

04 Ile miejsca naprawdę potrzeba

Pojemność dysku łatwo niedoszacować, bo modele i dane szybko się mnożą. Miejsce zjadają nie tylko wagi jednego modelu, ale cała biblioteka modeli pod różne zadania, bazy wektorowe na potrzeby RAG, zbiory do dostrajania oraz checkpointy. Poniżej rzędy wielkości, z którymi warto się liczyć.

Co przechowujeszRząd wielkościUwagi
Pojedynczy model (70B w FP8)~70 GBduże modele MoE: 200–500 GB
Biblioteka kilku modeli0,5–2 TBróżne modele i precyzje pod różne zadania
Baza wektorowa (RAG)od GB do wielu TBzależnie od liczby dokumentów i embeddingów
Zbiory do fine-tuningurzędu TBdane treningowe i ich wersje
Checkpointy i kopierzędu TBprzy treningu i dostrajaniu modeli

Praktyczna rada: zaplanuj wyraźny zapas pojemności na szybkim nośniku. Modele przybywają, a baza wiedzy RAG z czasem tylko puchnie. Wolniejszy, pojemny dysk może służyć jako warstwa archiwalna, ale modele i dane „gorące" trzymaj na NVMe.

05 Formaty i klasy dysków

Nie każdy NVMe nadaje się do pracy ciągłej. Dyski konsumenckie M.2 są tanie, ale mają ograniczoną trwałość i gorzej znoszą wysokie temperatury w serwerze. Nośniki klasy enterprise oferują wyższą wytrzymałość (parametr DWPD, czyli ile razy dziennie można zapisać cały dysk), zabezpieczenie zasilania i wymianę na gorąco.

Format / klasaGdzieUwagi
M.2 (konsumencki)desktop, stacja 1 GPUtani, ograniczona trwałość i chłodzenie
M.2 / U.2 enterpriseworkstation, serwerwyższe DWPD, ochrona zasilania, ECC
U.2, E1.S, E3 (EDSFF)serwery rackhot-swap, gęstość, chłodzenie serwerowe
Macierz NVMe (kilka dysków)serwer, storageRAID, setki GB/s, duża pojemność

W środowisku produkcyjnym 24/7 stawiaj na dyski enterprise i redundancję (RAID lub kopie), bo to na nich leżą modele i firmowe dane. W stacji deweloperskiej w zupełności wystarczy dobry dysk M.2 PCIe Gen5.

06 Sieć: trzy poziomy łączności

Łączność w AI ma trzy poziomy, a sieć w klasycznym rozumieniu to dopiero ten najszerszy. Zrozumienie tej hierarchii pomaga nie przepłacić tam, gdzie nie trzeba, i nie oszczędzać tam, gdzie to boli.

  • W serwerze (NVLink / PCIe): karty łączą się bezpośrednio. NVLink daje do 1,8 TB/s na GPU, rzędy wielkości więcej niż jakakolwiek sieć. Tu łączność zewnętrzna nie jest wąskim gardłem, a do zarządzania wystarcza zwykły 10/25 GbE.
  • Między serwerami (scale-out): gdy model albo liczba użytkowników przerastają jeden węzeł, między maszynami wędrują KV cache, aktywacje i gradienty. Wchodzi szybka sieć: InfiniBand albo Ethernet w wersji dla AI.
  • W klastrze (fabryka AI): dziesiątki lub setki GPU spina spójna tkanina z przełączników, kart i DPU, projektowana jako całość, z naciskiem na najniższą latencję.

Dla większości wdrożeń on-premise liczą się dwa pierwsze poziomy. Pełna fabryka AI to domena dużych centrów danych, ale jej elementy (karty, DPU, przełączniki) opisujemy niżej, bo coraz częściej trafiają też do mniejszych serwerów.

07 InfiniBand kontra Ethernet

Do spinania węzłów AI służą dwie technologie, obie oparte na RDMA, czyli bezpośrednim dostępie do pamięci zdalnego węzła z pominięciem procesora, co minimalizuje opóźnienia. InfiniBand (przełączniki NVIDIA Quantum) to de facto standard treningu: najniższa, przewidywalna latencja i mechanizm SHARP, który przenosi część obliczeń redukcji na przełącznik. Ethernet, zwłaszcza w wersji NVIDIA Spectrum-X, jest tańszy i znajomy, a dzięki adaptacyjnemu routingowi oraz kontroli przeciążeń dorównuje InfiniBandowi w około 95% wydajności. Łączność zapewniają karty ConnectX-8 (800G) i ConnectX-9 (1,6 Tb/s) oraz jednostki DPU BlueField.

CechaInfiniBand (Quantum)Ethernet / Spectrum-X
Przepustowość na portNDR 400G, XDR 800G400 / 800 GbE
Latencjanajniższa, deterministycznabardzo niska (z tuningiem)
RDMAnatywneRoCEv2
Odciążanie w sieciSHARP (redukcje na switchu)routing adaptacyjny
Ekosystem i kosztniszowy, droższyszeroki, tańszy
Najlepsze dotrening, duże klastryinferencja, chmura, wdrożenia mieszane
Zasada

Z grubsza: InfiniBand do treningu i największych klastrów, Ethernet (Spectrum-X) do inferencji. Dla pojedynczego serwera inferencyjnego, czyli większości wdrożeń on-premise, w zupełności wystarcza zwykły 10/25/100 GbE. InfiniBand rzadko opłaca się przy samej inferencji.

08 Układy komunikacyjne NVIDIA

Sieć AI to dziś nie tylko kable i pojedyncze karty, lecz cała rodzina wyspecjalizowanych układów. NVIDIA buduje pełny stos komunikacyjny: od kart sieciowych dla ruchu GPU, przez procesory DPU odciążające serwer, po przełączniki i mosty NVLink spinające karty w jeden organizm. Warto znać ich role, bo to one decydują, jak dobrze klaster się skaluje i jak bezpieczny jest serwer współdzielony.

Modularny serwer NVIDIA MGX Elmatic do skalowania AI

Modularne serwery NVIDIA MGX do skalowania infrastruktury AI. Zobacz serwery MGX

UkładRolaPrzykłady (2026)
SuperNIC (ConnectX)karta sieciowa dla ruchu GPU, RDMA / RoCEConnectX-8 (800G), ConnectX-9 (1,6 Tb/s)
DPU (BlueField)odciąża sieć, storage i bezpieczeństwo z CPU, izoluje najemcówBlueField-3 (400G), BlueField-4 (800G)
Switch Ethernet (Spectrum)fabryka Ethernet dla AI (Spectrum-X)Spectrum-4, Spectrum-6 (optyka CPO)
Switch InfiniBand (Quantum)przełącznik IB z mechanizmem SHARPQuantum-2 (NDR), Quantum-X800 (XDR)
NVLink Switch (NVSwitch)spina GPU w jeden pool pamięci w rackuNVL72, NVLink 6 (Vera Rubin)

Na szczególną uwagę zasługuje DPU. BlueField to w praktyce „serwer w serwerze": przejmuje obsługę sieci, pamięci masowej, szyfrowania i bezpieczeństwa, którą normalnie zajmowałby się procesor. Dzięki temu CPU może w całości liczyć, a ruch sieciowy, firewall, inspekcja pakietów i izolacja najemców (multi-tenancy) dzieją się na dedykowanym układzie, bez obciążania rdzeni. W serwerach inferencyjnych, zwłaszcza współdzielonych przez wiele zespołów, DPU podnosi i wydajność, i bezpieczeństwo.

Na poziomie największych klastrów NVIDIA integruje już optykę wprost z przełącznikami (co-packaged optics w Spectrum-6 i Quantum-X), obniżając pobór mocy oraz opóźnienia. Najnowsza platforma Vera Rubin spina to w komplet: SuperNIC ConnectX-9, DPU BlueField-4, switch Spectrum-6 i NVLink 6.

09 Jak dobrać dysk i sieć w praktyce

Pamięć masową i sieć dobieramy do skali wdrożenia. Poniżej praktyczna ściąga dla typowych przypadków.

ScenariuszPamięć masowaSieć
Stacja deweloperska, 1 GPU1–2× NVMe Gen5 M.2zwykła 1 / 10 GbE
Stacja lub serwer AI, 2–4 GPUNVMe enterprise U.2, RAID10 / 25 GbE
Serwer inferencyjny on-prem, wielu userówmacierz NVMe, GPUDirect Storage25 / 100 GbE (Ethernet)
Multi-node inferencja, RAG na skalęszybkie NVMe + storage współdzielonySpectrum-X, 100–400 GbE
Klaster treningowy, duże modeleNVMe + storage równoległyInfiniBand NDR / XDR

To punkt wyjścia, a nie sztywna recepta. W praktyce liczy się jeszcze charakter danych, wymagania backupu i plany rozbudowy. Jeśli chcesz, by dysk i sieć nadążały za kartami, pomożemy dobrać spójną całość, od pojedynczej stacji po klaster.

Co dalej w serii

Mamy już komplet podzespołów: GPU, węzeł CPU i RAM oraz dysk i sieć. W części 5 zajmiemy się tym, co spina je w działającą maszynę: zasilaniem, chłodzeniem i form factorem, od kompaktowego BoxPC, przez stację i rack, aż po modularne platformy MGX. Pokażemy, ile prądu i chłodzenia naprawdę potrzeba i jak dobrać obudowę do środowiska.

Planujesz infrastrukturę pod lokalne AI? Pomożemy dobrać pamięć masową i sieć dopasowane do skali Twojego wdrożenia.

Skontaktuj się z ekspertem
Telefonicznie +48 22 773 79 37
Przez formularz Wypełnij formularz