Duomenų saugojimo reikalavimai dirbtiniam intelektui: ką iš tikrųjų reikia žinoti

Dirbtinis intelektas – tai ne tik prašmatnūs modeliai ar kalbantys asistentai, imituojantys žmones. Už viso to slypi kalnas, o kartais net vandenynas, duomenų. Ir, tiesą sakant, kaip saugoti šiuos duomenis? Būtent čia paprastai viskas pasidaro painu. Nesvarbu, ar kalbame apie vaizdų atpažinimo kanalus, ar milžiniškų kalbos modelių mokymą, dirbtinio intelekto duomenų saugojimo reikalavimai gali greitai tapti nekontroliuojami, jei apie tai gerai neapgalvojate. Paaiškinkime, kodėl duomenų saugojimas yra toks sudėtingas, kokios yra galimybės ir kaip galite derinti kainą, greitį ir mastą nepervargdami.

Straipsniai, kuriuos galbūt norėsite perskaityti po šio:

🔗 Duomenų mokslas ir dirbtinis intelektas: inovacijų ateitis
Tyrinėjama, kaip dirbtinis intelektas ir duomenų mokslas skatina šiuolaikines inovacijas.

🔗 Dirbtinis skystasis intelektas: DI ir decentralizuotų duomenų ateitis
Žvilgsnis į decentralizuotus dirbtinio intelekto duomenis ir kylančias inovacijas.

🔗 Duomenų valdymas dirbtinio intelekto įrankiams, į kuriuos turėtumėte atkreipti dėmesį
Pagrindinės strategijos, skirtos pagerinti dirbtinio intelekto duomenų saugojimą ir efektyvumą.

🔗 Geriausi dirbtinio intelekto įrankiai duomenų analitikams: pagerinkite analizės sprendimų priėmimą
Geriausi dirbtinio intelekto įrankiai, kurie pagerina duomenų analizę ir sprendimų priėmimą.

Taigi… Kas daro dirbtinio intelekto duomenų saugojimą gerą? ✅

Tai ne tik „daugiau terabaitų“. Tikra, dirbtiniam intelektui pritaikyta saugykla reiškia, kad ji yra patogi naudoti, patikima ir pakankamai greita tiek mokymo vykdymams, tiek išvadų apdorojimo apkrovoms.

Keletas išskirtinių bruožų, į kuriuos verta atkreipti dėmesį:

Mastelio keitimas : perėjimas nuo GB iki PB neperrašant architektūros.
Našumas : Didelė delsa apkraus GPU; jos neatleidžia kliūčių.
Pertekliškumas : momentinės kopijos, replikacija, versijų kūrimas – nes eksperimentai sugenda, kaip ir žmonės.
Sąnaudų efektyvumas : tinkamas lygis, tinkamas momentas; kitaip sąskaita pasirodys netikėtai kaip mokesčių auditas.
Artumas skaičiavimui : Padėkite saugyklą šalia GPU / TPU arba stebėkite duomenų perdavimo droselį.

Kitaip tariant, tai tas pats, kas bandyti „Ferrari“ važiuoti vejapjovės kuru – techniškai jis juda, bet neilgam.

Palyginimo lentelė: dažniausiai pasitaikantys dirbtinio intelekto saugojimo pasirinkimai

Saugojimo tipas	Geriausiai tinka	Cost Ballpark	Kodėl tai veikia (arba ne)
Debesijos objektų saugykla	Startuoliai ir vidutinio dydžio įmonės	$$ (kintamas)	Lankstus, patvarus, puikiai tinka duomenų ežerams; saugokitės išsiuntimo mokesčių + užklausų rezultatų.
Vietinis NAS	Didesnės organizacijos su IT komandomis	$$$$	Numatomas delsos laikas, visiška kontrolė; išankstinės kapitalinės išlaidos + nuolatinės operacijų išlaidos.
Hibridinis debesis	Atitikties reikalaujančios konfigūracijos	$$$	Vietinis greitis derinamas su elastingu debesiu; orkestravimas sukelia galvos skausmą.
Visiškai „Flash“ masyvai	Perfekcija apsėsti tyrėjai	$$$$$	Juokingai greitas IOPS/pralaidumas; bet bendrosios nuosavybės kainos (TCO) nėra pokštas.
Paskirstytos failų sistemos	Dirbtinio intelekto kūrėjai / HPC klasteriai	$$–$$$	Lygiagretus įėjimas/išėjimas dideliu mastu („Luster“, „Spectrum“); operacijų našta reali.

Kodėl dirbtinio intelekto duomenų poreikiai sparčiai auga 🚀

Dirbtinis intelektas ne tik kaupia asmenukes. Jis yra alkanas.

Mokymo rinkiniai : vien „ImageNet“ ILSVRC sutalpina ~1,2 mln. paženklintų vaizdų, o konkrečioms sritims skirti korpusai apima daug daugiau [1].
Versijų kūrimas : kiekvienas pakeitimas – etiketės, skaidymai, papildymai – sukuria dar vieną „tiesą“.
Srautinio perdavimo įvestys : tiesioginis vaizdas, telemetrija, jutiklių tiekiami duomenys... tai nuolatinis gaisrinės žarnos darbas.
Nestruktūrizuoti formatai : tekstas, vaizdo įrašai, garso įrašai, žurnalai – daug didesni nei tvarkingos SQL lentelės.

Tai „valgyk, kiek telpa“ švediškas stalas, o modelis visada grįžta deserto.

Debesijos ir vietinės technologijos: nesibaigianti diskusija 🌩️🏢

Debesijos kompiuterija atrodo viliojančiai: beveik neribotos, pasaulinės, mokamos. Kol sąskaitoje faktūroje pasirodo išeinantys mokesčiai – ir staiga jūsų „pigios“ saugyklos išlaidos konkuruoja su skaičiavimo išlaidomis [2].

Kita vertus, vietinė sistema suteikia valdymą ir nepriekaištingą našumą, tačiau jūs taip pat mokate už aparatinę įrangą, maitinimą, aušinimą ir žmones, kurie prižiūri lentynas.

Dauguma komandų renkasi vidurinį variantą: hibridines schemas. Karštus, jautrius, didelio našumo duomenis laikykite arti GPU, o likusius archyvuokite debesies pakopose.

Slaptai didėjančios sandėliavimo išlaidos 💸

Pajėgumai tėra paviršinis sluoksnis. Paslėptos išlaidos kaupiasi:

Duomenų perkėlimas : tarpregioninės kopijos, duomenų perdavimas tarp debesų kompiuterijos, netgi vartotojų išeinantis srautas [2].
Pertekliškumas : 3-2-1 (trys kopijos, dvi laikmenos, viena ne vietoje) užima daug vietos, bet gelbsti padėtį [3].
Maitinimas ir aušinimas : jei tai jūsų lentyna, tai jūsų šilumos problema.
Vėlavimo kompromisai : pigesni lygiai paprastai reiškia ledyninio atkūrimo greitį.

Saugumas ir atitiktis: tylūs sandorių nutraukimo momentai 🔒

Reglamentai gali tiesiogine prasme diktuoti, kur saugomi baitai. Pagal JK BDAR , asmens duomenų perkėlimas iš JK reikalauja teisėtų perdavimo būdų (SCC, IDTA arba tinkamumo taisyklių). Kitaip tariant: jūsų saugyklos dizainas turi „žinoti“ geografiją [5].

Pagrindiniai kepimo principai nuo pirmos dienos:

Šifravimas – tiek ilsintis, tiek keliaujant.
Mažiausių privilegijų prieiga + audito takeliai.
Ištrinkite apsaugas , pvz., nekintamumą ar objektų užraktus.

Našumo kliūtys: vėlavimas yra tylus žudikas ⚡

Grafikos procesoriai nemėgsta laukti. Jei atmintis vėluoja, tai yra tarsi patobulinti šildytuvai. Tokios priemonės kaip „NVIDIA GPUDirect Storage“ pašalina procesoriaus tarpininkus, perkeldamos duomenis tiesiai iš NVMe į GPU atmintį – būtent to ir reikia dideliems paketams apmokyti [4].

Dažni pataisymai:

NVMe visa „flash“ atmintis karštiems mokymo fragmentams.
Lygiagrečios failų sistemos („Lustre“, „Spectrum Scale“) daugiamazgiam pralaidumui.
Asinchroniniai krautuvai su skaidymu ir išankstiniu įkėlimu, kad GPU neveiktų tuščiąja eiga.

Praktiniai DI saugyklos valdymo žingsniai 🛠️

Pakopinis suskirstymas : Karštieji fragmentai NVMe/SSD diske; pasenusių rinkinių archyvavimas į objektų arba šaltuosius lygius.
Dedup + delta : Bazinės linijos saugomos vieną kartą, saugomos tik skirtumai + manifestai.
Gyvavimo ciklo taisyklės : automatinis pakopų nustatymas ir senų rezultatų galiojimo pabaiga [2].
3-2-1 atsparumas : Visada laikykite kelias kopijas skirtingose laikmenose, vieną atskirai [3].
Instrumentuotė : sekti pralaidumą, p95/p99 latencijas, nepavykusius nuskaitymus, išeinantįjį srautą pagal darbo krūvį.

Greitas (išgalvotas, bet tipiškas) atvejis 📚

Vizijos komanda pradeda darbą su maždaug 20 TB debesies objektų saugyklos. Vėliau jie pradeda klonuoti duomenų rinkinius skirtinguose regionuose eksperimentams. Jų išlaidos smarkiai išauga – ne dėl pačios saugyklos, o dėl išeinančio srauto . Jie perkelia karštąsias skaidulas į NVMe, esantį netoli GPU klasterio, saugo kanoninę kopiją objektų saugykloje (laikantis gyvavimo ciklo taisyklių) ir prisegia tik tuos pavyzdžius, kurių jiems reikia. Rezultatas: GPU dirba dažniau, sąskaitos mažesnės, o duomenų higiena pagerėja.

Pajėgumų planavimas voko gale 🧮

Apytikslė apskaičiavimo formulė:

Talpa ≈ (neapdorotas duomenų rinkinys) × (replikacijos koeficientas) + (iš anksto apdoroti / papildyti duomenys) + (kontroliniai taškai + žurnalai) + (saugos riba ~15–30 %)

Tada patikrinkite pagrįstumą pralaidumu. Jei mazgų įkrovikliams reikia ~2–4 GB/s nuolatinio greičio, karštiesiems keliams tinka NVMe arba lygiagretus failų serveris, kurio pagrindinė funkcija yra objektų saugykla.

Ne tik apie kosmosą svarbu 📊

Kai žmonės sako apie dirbtinio intelekto saugyklos reikalavimus , jie įsivaizduoja terabaitus arba petabaitus. Tačiau tikrasis triukas yra pusiausvyra: kaina ir našumas, lankstumas ir atitiktis, inovacijos ir stabilumas. Dirbtinio intelekto duomenų kiekis dar nemažės. Komandos, kurios anksti įtraukia saugyklą į modelio kūrimą, išvengia paskendimo duomenų pelkėse – ir galiausiai jos greičiau mokosi.

Nuorodos

[1] Russakovsky ir kt. „ImageNet“ didelio masto vizualinio atpažinimo iššūkis (IJCV) – duomenų rinkinio mastelis ir iššūkis. Nuoroda
[2] AWS – „Amazon S3“ kainodara ir išlaidos (duomenų perdavimas, išsiuntimas, gyvavimo ciklo pakopos). Nuoroda
[3] CISA – 3-2-1 atsarginių kopijų kūrimo taisyklės rekomendacija. Nuoroda
[4] „NVIDIA“ dokumentai – „GPUDirect“ saugyklos apžvalga. Nuoroda
[5] ICO – JK BDAR taisyklės dėl tarptautinio duomenų perdavimo. Nuoroda

Raskite naujausią dirbtinį intelektą oficialioje dirbtinio intelekto asistentų parduotuvėje

Apie mus

Atgal į tinklaraštį

Šalis / regionas