Lokalna stacja dla deweloperów AI oparta o NVIDIA DGX™ Spark. Produkowana przez MSI.
Koszyk
Seria: dobór stacji pod lokalne AI · Część 04 / 06
GPU liczy, CPU steruje, ale to dysk i sieć decydują, jak szybko dane trafiają do modelu i czy w ogóle da się rozłożyć obciążenie na wiele maszyn. W lokalnym AI łatwo o nich zapomnieć, a potrafią być wąskim gardłem: od ślimaczącego się ładowania modeli po niewydolną wymianę danych w klastrze.
W tej części patrzymy na dwie warstwy infrastruktury wokół obliczeń: pamięć masową (NVMe, pojemność, formaty, dostęp GPU do dysku) oraz sieć (kiedy pojedynczy serwer wystarcza, a kiedy trzeba spiąć wiele węzłów i czym). Sieć omawiamy na sprzęcie NVIDIA, bo to on tworzy dziś standard fabryk AI.
Model żyje w pamięci GPU, ale najpierw musi się tam znaleźć, a jego dane skądś pochodzą. Dysk decyduje, jak szybko model wczytuje się przy starcie i przy przełączaniu, oraz jak sprawnie agent sięga do bazy wiedzy (RAG). Sieć wkracza wtedy, gdy jeden serwer przestaje wystarczać i obciążenie trzeba rozłożyć na wiele maszyn. Oba elementy łatwo zaniedbać, a potrafią zmienić drogą stację w sprzęt, który czeka, zamiast pracować.
Wagi modelu trzeba wczytać z dysku do VRAM przy każdym uruchomieniu usługi i przy każdej zmianie modelu. Przy plikach liczących dziesiątki, a nawet setki gigabajtów prędkość dysku przekłada się wprost na czas oczekiwania. Różnice między klasami nośników są ogromne:
Wczytanie modelu o wadze 140 GB zajmuje z dysku SATA około 4 minut, a z NVMe PCIe Gen5 (~14 GB/s) około 10 sekund. Przy częstym przełączaniu modeli, restartach usług czy wielu modelach na jednej maszynie ta różnica decyduje o komforcie i wydajności pracy.
W serwerze kilka dysków NVMe można też połączyć, osiągając setki GB/s zagregowanej przepustowości. Warto pamiętać, że szybki dysk pomaga przy ładowaniu i pracy z danymi, ale nie zastąpi VRAM: gdy model nie mieści się w pamięci GPU, dysk nie uratuje wydajności.
Klasycznie dane z dysku wędrują najpierw do pamięci systemowej (RAM), a dopiero stamtąd do GPU, obciążając procesor i dodając opóźnienie. NVIDIA GPUDirect Storage (część pakietu Magnum IO) pozwala karcie sięgać po dane wprost z NVMe, z pominięciem CPU i RAM. Efekt to wyższa przepustowość i niższe opóźnienie przy ładowaniu modeli oraz strumieniowaniu dużych zbiorów danych.
To rozwiązanie nabiera znaczenia przy bardzo dużych modelach, checkpointach treningowych i potokach RAG, gdzie dane liczone są w terabajtach. W mniejszych, pojedynczych stacjach efekt jest mniej odczuwalny, ale w serwerach i klastrach potrafi realnie skrócić czas ładowania.
Pojemność dysku łatwo niedoszacować, bo modele i dane szybko się mnożą. Miejsce zjadają nie tylko wagi jednego modelu, ale cała biblioteka modeli pod różne zadania, bazy wektorowe na potrzeby RAG, zbiory do dostrajania oraz checkpointy. Poniżej rzędy wielkości, z którymi warto się liczyć.
| Co przechowujesz | Rząd wielkości | Uwagi |
|---|---|---|
| Pojedynczy model (70B w FP8) | ~70 GB | duże modele MoE: 200–500 GB |
| Biblioteka kilku modeli | 0,5–2 TB | różne modele i precyzje pod różne zadania |
| Baza wektorowa (RAG) | od GB do wielu TB | zależnie od liczby dokumentów i embeddingów |
| Zbiory do fine-tuningu | rzędu TB | dane treningowe i ich wersje |
| Checkpointy i kopie | rzędu TB | przy treningu i dostrajaniu modeli |
Praktyczna rada: zaplanuj wyraźny zapas pojemności na szybkim nośniku. Modele przybywają, a baza wiedzy RAG z czasem tylko puchnie. Wolniejszy, pojemny dysk może służyć jako warstwa archiwalna, ale modele i dane „gorące" trzymaj na NVMe.
Nie każdy NVMe nadaje się do pracy ciągłej. Dyski konsumenckie M.2 są tanie, ale mają ograniczoną trwałość i gorzej znoszą wysokie temperatury w serwerze. Nośniki klasy enterprise oferują wyższą wytrzymałość (parametr DWPD, czyli ile razy dziennie można zapisać cały dysk), zabezpieczenie zasilania i wymianę na gorąco.
| Format / klasa | Gdzie | Uwagi |
|---|---|---|
| M.2 (konsumencki) | desktop, stacja 1 GPU | tani, ograniczona trwałość i chłodzenie |
| M.2 / U.2 enterprise | workstation, serwer | wyższe DWPD, ochrona zasilania, ECC |
| U.2, E1.S, E3 (EDSFF) | serwery rack | hot-swap, gęstość, chłodzenie serwerowe |
| Macierz NVMe (kilka dysków) | serwer, storage | RAID, setki GB/s, duża pojemność |
W środowisku produkcyjnym 24/7 stawiaj na dyski enterprise i redundancję (RAID lub kopie), bo to na nich leżą modele i firmowe dane. W stacji deweloperskiej w zupełności wystarczy dobry dysk M.2 PCIe Gen5.
Łączność w AI ma trzy poziomy, a sieć w klasycznym rozumieniu to dopiero ten najszerszy. Zrozumienie tej hierarchii pomaga nie przepłacić tam, gdzie nie trzeba, i nie oszczędzać tam, gdzie to boli.
Dla większości wdrożeń on-premise liczą się dwa pierwsze poziomy. Pełna fabryka AI to domena dużych centrów danych, ale jej elementy (karty, DPU, przełączniki) opisujemy niżej, bo coraz częściej trafiają też do mniejszych serwerów.
Do spinania węzłów AI służą dwie technologie, obie oparte na RDMA, czyli bezpośrednim dostępie do pamięci zdalnego węzła z pominięciem procesora, co minimalizuje opóźnienia. InfiniBand (przełączniki NVIDIA Quantum) to de facto standard treningu: najniższa, przewidywalna latencja i mechanizm SHARP, który przenosi część obliczeń redukcji na przełącznik. Ethernet, zwłaszcza w wersji NVIDIA Spectrum-X, jest tańszy i znajomy, a dzięki adaptacyjnemu routingowi oraz kontroli przeciążeń dorównuje InfiniBandowi w około 95% wydajności. Łączność zapewniają karty ConnectX-8 (800G) i ConnectX-9 (1,6 Tb/s) oraz jednostki DPU BlueField.
| Cecha | InfiniBand (Quantum) | Ethernet / Spectrum-X |
|---|---|---|
| Przepustowość na port | NDR 400G, XDR 800G | 400 / 800 GbE |
| Latencja | najniższa, deterministyczna | bardzo niska (z tuningiem) |
| RDMA | natywne | RoCEv2 |
| Odciążanie w sieci | SHARP (redukcje na switchu) | routing adaptacyjny |
| Ekosystem i koszt | niszowy, droższy | szeroki, tańszy |
| Najlepsze do | trening, duże klastry | inferencja, chmura, wdrożenia mieszane |
Z grubsza: InfiniBand do treningu i największych klastrów, Ethernet (Spectrum-X) do inferencji. Dla pojedynczego serwera inferencyjnego, czyli większości wdrożeń on-premise, w zupełności wystarcza zwykły 10/25/100 GbE. InfiniBand rzadko opłaca się przy samej inferencji.
Sieć AI to dziś nie tylko kable i pojedyncze karty, lecz cała rodzina wyspecjalizowanych układów. NVIDIA buduje pełny stos komunikacyjny: od kart sieciowych dla ruchu GPU, przez procesory DPU odciążające serwer, po przełączniki i mosty NVLink spinające karty w jeden organizm. Warto znać ich role, bo to one decydują, jak dobrze klaster się skaluje i jak bezpieczny jest serwer współdzielony.
Modularne serwery NVIDIA MGX do skalowania infrastruktury AI. Zobacz serwery MGX
| Układ | Rola | Przykłady (2026) |
|---|---|---|
| SuperNIC (ConnectX) | karta sieciowa dla ruchu GPU, RDMA / RoCE | ConnectX-8 (800G), ConnectX-9 (1,6 Tb/s) |
| DPU (BlueField) | odciąża sieć, storage i bezpieczeństwo z CPU, izoluje najemców | BlueField-3 (400G), BlueField-4 (800G) |
| Switch Ethernet (Spectrum) | fabryka Ethernet dla AI (Spectrum-X) | Spectrum-4, Spectrum-6 (optyka CPO) |
| Switch InfiniBand (Quantum) | przełącznik IB z mechanizmem SHARP | Quantum-2 (NDR), Quantum-X800 (XDR) |
| NVLink Switch (NVSwitch) | spina GPU w jeden pool pamięci w racku | NVL72, NVLink 6 (Vera Rubin) |
Na szczególną uwagę zasługuje DPU. BlueField to w praktyce „serwer w serwerze": przejmuje obsługę sieci, pamięci masowej, szyfrowania i bezpieczeństwa, którą normalnie zajmowałby się procesor. Dzięki temu CPU może w całości liczyć, a ruch sieciowy, firewall, inspekcja pakietów i izolacja najemców (multi-tenancy) dzieją się na dedykowanym układzie, bez obciążania rdzeni. W serwerach inferencyjnych, zwłaszcza współdzielonych przez wiele zespołów, DPU podnosi i wydajność, i bezpieczeństwo.
Na poziomie największych klastrów NVIDIA integruje już optykę wprost z przełącznikami (co-packaged optics w Spectrum-6 i Quantum-X), obniżając pobór mocy oraz opóźnienia. Najnowsza platforma Vera Rubin spina to w komplet: SuperNIC ConnectX-9, DPU BlueField-4, switch Spectrum-6 i NVLink 6.
Pamięć masową i sieć dobieramy do skali wdrożenia. Poniżej praktyczna ściąga dla typowych przypadków.
| Scenariusz | Pamięć masowa | Sieć |
|---|---|---|
| Stacja deweloperska, 1 GPU | 1–2× NVMe Gen5 M.2 | zwykła 1 / 10 GbE |
| Stacja lub serwer AI, 2–4 GPU | NVMe enterprise U.2, RAID | 10 / 25 GbE |
| Serwer inferencyjny on-prem, wielu userów | macierz NVMe, GPUDirect Storage | 25 / 100 GbE (Ethernet) |
| Multi-node inferencja, RAG na skalę | szybkie NVMe + storage współdzielony | Spectrum-X, 100–400 GbE |
| Klaster treningowy, duże modele | NVMe + storage równoległy | InfiniBand NDR / XDR |
To punkt wyjścia, a nie sztywna recepta. W praktyce liczy się jeszcze charakter danych, wymagania backupu i plany rozbudowy. Jeśli chcesz, by dysk i sieć nadążały za kartami, pomożemy dobrać spójną całość, od pojedynczej stacji po klaster.
Mamy już komplet podzespołów: GPU, węzeł CPU i RAM oraz dysk i sieć. W części 5 zajmiemy się tym, co spina je w działającą maszynę: zasilaniem, chłodzeniem i form factorem, od kompaktowego BoxPC, przez stację i rack, aż po modularne platformy MGX. Pokażemy, ile prądu i chłodzenia naprawdę potrzeba i jak dobrać obudowę do środowiska.
Planujesz infrastrukturę pod lokalne AI? Pomożemy dobrać pamięć masową i sieć dopasowane do skali Twojego wdrożenia.
