Kaip diegti dirbtinio intelekto modelius

Kaip diegti dirbtinio intelekto modelius

Trumpas atsakymas: Dirbtinio intelekto modelio diegimas reiškia pateikimo modelio pasirinkimą (realiojo laiko, paketinis, srautinis arba periferinis), o tada viso kelio atkartojimą, stebėjimą, saugumą ir grįžtamumą. Kai viską versuojate ir lyginate p95/p99 delsą su gamybiniais tikslais naudojamais paketais, išvengiama daugumos „veikia mano nešiojamajame kompiuteryje“ klaidų.

Svarbiausios išvados:

Diegimo modeliai: prieš pasirinkdami įrankius, pasirinkite diegimą realiuoju laiku, paketiniu būdu, srautiniu būdu arba periferiniu būdu.

Atkuriamumas: modeliuokite, funkcijas, kodą ir aplinką, kad būtų išvengta nukrypimų.

Stebimumas: Nuolat stebimos delsos uodegos, paklaidos, sodrumas ir duomenų arba išvesties pasiskirstymas.

Saugus diegimas: naudokite kintamųjų, mėlynai žalių arba šešėlinių testų nustatymus su automatinio atšaukimo slenksčiais.

Saugumas ir privatumas: taikykite autentifikavimą, dažnio apribojimus ir paslapčių valdymą bei sumažinkite asmeninę informaciją žurnaluose.

Kaip diegti dirbtinio intelekto modelius? Infografika

Straipsniai, kuriuos galbūt norėsite perskaityti po šio: 

🔗 Kaip išmatuoti dirbtinio intelekto našumą
Sužinokite apie metrikas, lyginamuosius rodiklius ir realaus pasaulio patikrinimus, kad gautumėte patikimus dirbtinio intelekto rezultatus.

🔗 Kaip automatizuoti užduotis naudojant dirbtinį intelektą
Pasikartojantį darbą paverskite darbo eigomis naudodami raginimus, įrankius ir integracijas.

🔗 Kaip testuoti dirbtinio intelekto modelius
Projektuokite vertinimus, duomenų rinkinius ir balus, kad modelius būtų galima objektyviai palyginti.

🔗 Kaip kalbėtis su dirbtiniu intelektu
Užduokite geresnius klausimus, pateikite kontekstą ir greitai gaukite aiškesnius atsakymus.


1) Ką iš tikrųjų reiškia „diegimas“ (ir kodėl tai ne tik API) 🧩

Kai žmonės sako „įdiegti modelį“, jie gali turėti omenyje bet kurį iš šių dalykų:

Taigi diegimas yra mažiau „modelio prieinamumo užtikrinimas“ ir labiau panašus į:

Tai panašu į restorano atidarymą. Svarbu pagaminti puikų patiekalą, žinoma. Bet vis tiek reikia pastato, personalo, šaldymo įrangos, valgiaraščių, tiekimo grandinės ir būdo, kaip susidoroti su vakarienės skubėjimu neverkiant šaldymo kameroje. Ne pati tobuliausia metafora... bet supratote. 🍝


2) Kas daro „Kaip diegti dirbtinio intelekto modelius“ versiją gerą ✅

„Geras dislokavimas“ yra nuobodus gerąja prasme. Esant spaudimui, jis elgiasi nuspėjamai, o kai taip nėra, tai galima greitai nustatyti.

Štai kaip paprastai atrodo „gerai“:

  • Atkartojamos versijos
    Tas pats kodas + tos pačios priklausomybės = tas pats elgesys. Jokių šiurpių „veikia mano nešiojamajame kompiuteryje“ nuotaikų 👻 ( „Docker“: kas yra konteineris? )

  • Aiški sąsajos sutartis.
    Apibrėžti įėjimai, išėjimai, schemos ir kraštiniai atvejai. Jokių netikėtų tipų 2 val. nakties. ( OpenAPI: Kas yra OpenAPI?, JSON schema )

  • Realybę atitinkantis našumas.
    Vėlavimas ir pralaidumas, išmatuoti naudojant gamybinę įrangą ir realius naudinguosius krūvius.

  • Stebėjimas su dantimis.
    Metrikos, žurnalai, pėdsakai ir dreifo patikrinimai, kurie suaktyvina veiksmus (ne tik ataskaitų suvestines, kurių niekas neatidaro). ( SRE knyga: Paskirstytų sistemų stebėjimas )

  • Saugaus diegimo strategija –
    „Canary“ arba „Blue-Green“, lengvas ankstesnis panaikinimas, versijų kūrimas, kuriam nereikia maldos. ( „Canary“ leidimas , „Blue-Green“ diegimas ).

  • Kainos suvokimas.
    „Greitai“ yra puiku, kol sąskaita neatrodo kaip telefono numeris 📞💸

  • Saugumas ir privatumas, integruoti į
    paslapčių valdymą, prieigos kontrolę, asmeninių duomenų tvarkymą, audituojamumą. ( „Kubernetes Secrets“ , NIST SP 800-122 )

Jei galite tai daryti nuosekliai, jau lenkiate daugumą komandų. Būkime atviri.


3) Pasirinkite tinkamą diegimo modelį (prieš pasirinkdami įrankius) 🧠

Realaus laiko API išvados ⚡

Geriausia, kai:

  • vartotojams reikia momentinių rezultatų (rekomendacijų, sukčiavimo patikrinimų, pokalbių, suasmeninimo)

  • sprendimai turi būti priimami prašymo pateikimo metu

Atsargumo priemonės:

Partijos taškų skaičiavimas 📦

Geriausia, kai:

  • prognozės gali būti atidėtos (rizikos vertinimas per naktį, klientų praradimo prognozavimas, ETL praturtinimas) ( „Amazon SageMaker Batch Transform “)

  • norite ekonomiško ir paprastesnio veikimo

Atsargumo priemonės:

  • duomenų naujumas ir užpildymas

  • išlaikant funkcijų logiką suderinamą su mokymu

Srautinio perdavimo išvada 🌊

Geriausia, kai:

  • įvykius apdorojate nuolat (daiktų internetas, paspaudimų srautai, stebėjimo sistemos)

  • norite beveik realiuoju laiku priimamų sprendimų be griežto užklausų ir atsakymų proceso

Atsargumo priemonės:

Kraštinių tinklų diegimas 📱

Geriausia, kai:

  • mažas delsos laikas be tinklo priklausomybės ( LiteRT išvada įrenginyje )

  • privatumo apribojimai

  • neprisijungus prie interneto

Atsargumo priemonės:

Pirma pasirinkite šabloną, o tada pasirinkite steką. Priešingu atveju kvadratinį modelį priversite įterpti į apvalų vykdymo aplinką. Ar kažkas panašaus. 😬


4) Modelio supakavimas taip, kad jis atlaikytų sąlytį su gamybos įranga 📦🧯

Čia tyliai miršta dauguma „lengvų diegimų“.

Versija viskas (taip, viskas)

  • Modelio artefaktas (svoriai, grafikas, tokenizeris, etikečių žemėlapiai)

  • Funkcijų logika (transformacijos, normalizavimas, kodavimo įrenginiai)

  • Išvadų kodas (priešapdorojimas / poapdorojimas)

  • Aplinka (Python, CUDA, sistemos bibliotekos)

Paprastas metodas, kuris veikia:

  • traktuokite modelį kaip išleidimo artefaktą

  • išsaugokite jį su versijos žyme

  • Reikalingas modelio kortelės tipo metaduomenų failas: schema, metrikos, mokymo duomenų momentinės kopijos pastabos, žinomi apribojimai ( modelio kortelės modelių ataskaitoms )

Konteineriai padeda, bet negarbinkite jų 🐳

Konteineriai yra puikūs, nes jie:

Bet vis tiek reikia tvarkytis:

Standartizuokite sąsają

Iš anksto nuspręskite įvesties / išvesties formatą:

  • JSON paprastumui (lėtesnis, bet draugiškas) ( JSON schema )

  • „Protobuf“ našumui ( protokolo buferių apžvalga )

  • failų pagrindu sukurtos vaizdų / garso įrašų (ir metaduomenų) naudingosios apkrovos

Ir prašome patikrinti įvestis. Neteisingos įvesties duomenys yra pagrindinė „kodėl grąžinamos nesąmonės“ užklausų priežastis. ( „OpenAPI“: Kas yra „OpenAPI“?, JSON schema )


5) Aptarnavimo parinktys – nuo ​​„paprasto API“ iki pilno modelio serverių 🧰

Yra du įprasti maršrutai:

A variantas: Programėlės serveris + išvadų kodas („FastAPI“ stiliaus metodas) 🧪

Jūs rašote API, kuri įkelia modelį ir pateikia prognozes. ( FastAPI )

Privalumai:

  • lengva pritaikyti

  • puikiai tinka paprastesniems modeliams arba ankstyvos stadijos produktams

  • paprastas autentifikavimas, maršrutizavimas ir integravimas

Minusai:

  • jūsų pačių našumo derinimas (grupavimas, sriegimas, GPU panaudojimas)

  • išradinėsite kai kuriuos ratus, galbūt iš pradžių ir blogai

B variantas: Modelinis serveris („TorchServe“ / „Triton“ stiliaus metodas) 🏎️

Specializuoti serveriai, kurie tvarko:

Privalumai:

  • geresni našumo modeliai iš karto

  • aiškesnis aptarnavimo ir verslo logikos atskyrimas

Minusai:

  • papildomas operacinis sudėtingumas

  • konfigūracija gali atrodyti… sudėtinga, tarsi reguliuojant dušo temperatūrą

Hibridinis modelis yra labai dažnas:


6) Palyginimo lentelė – populiarūs diegimo būdai (su nuoširdžia nuomone) 📊😌

Žemiau pateikiama praktinė apžvalga apie parinktis, kurias žmonės iš tikrųjų naudoja aiškindamiesi, kaip diegti dirbtinio intelekto modelius .

Įrankis / metodas Auditorija Kaina Kodėl tai veikia
„Docker“ + „FastAPI“ (arba panašus) Mažos komandos, startuoliai Laisvas Paprasta, lankstu, greitai pristatoma – tačiau „pajusite“ kiekvieną mastelio keitimo problemą ( „Docker“ , „FastAPI “)
Kubernetes (pasidaryk pats) Platformos komandos Priklausomas nuo infraraudonųjų spindulių Valdymas + mastelio keitimas… taip pat daug rankenėlių, kai kurios iš jų prakeiktos ( „Kubernetes HPA“ )
Valdoma ML platforma (debesų ML paslauga) Komandos, norinčios mažiau operacijų Mokėkite, kiek naudojate Integruoti diegimo darbo srautai, stebėjimo kabliai – kartais brangūs, jei galiniuose įrenginiuose visada yra įjungtų ( „Vertex AI“ diegimas , „SageMaker“ realaus laiko išvados ).
Serverių neturinčios funkcijos (lengvam išvadų teikimui) Įvykiais pagrįstos programos Mokėti už naudojimą Puikiai tinka staigiam eismui, bet šalti užvedimai ir modelio dydis gali sugadinti dieną 😬 ( AWS Lambda šalti užvedimai )
NVIDIA Triton išvadų serveris Į rezultatus orientuotos komandos Nemokama programinė įranga, infrastruktūros išlaidos Puikus GPU panaudojimas, paketavimas, kelių modelių konfigūravimas reikalauja kantrybės ( „Triton“: dinaminis paketavimas )
TorchServe „PyTorch“ dominuojančios komandos Nemokama programinė įranga Tinkami numatytieji pateikimo modeliai – didelio masto rodymui gali reikėti juos pakoreguoti ( „TorchServe“ dokumentai )
BentoML (pakuotė + patiekimas) ML inžinieriai Nemokamas branduolys, priedai skiriasi Sklandus paketas, maloni kūrėjo patirtis – vis tiek reikia infrastruktūros pasirinkimų ( „BentoML“ paketas diegimui )
Ray Serve Paskirstytųjų sistemų žmonės Priklausomas nuo infraraudonųjų spindulių Horizontalus mastelio keitimas, tinka projektavimo vamzdynams – mažiems projektams atrodo „didelis“ ( „Ray Serve“ dokumentai )

Pastaba prie stalo: „Nemokama“ yra reali terminologija. Nes tai niekada nebūna nemokama. Visada kažkur yra sąskaita, net jei tai jūsų miegas. 😴


7) Našumas ir mastelio keitimas – delsa, pralaidumas ir tiesa 🏁

Našumo derinimas yra tai, kur diegimas tampa įgūdžiu. Tikslas nėra „greitas“. Tikslas – nuosekliai pakankamai greitas .

Svarbiausi rodikliai

Įprastos traukimo svirtys

  • Paketavimas.
    Apjungia užklausas, kad būtų maksimaliai išnaudotas GPU. Puikiai tinka pralaidumui, bet per daug gali pakenkti delsai. ( „Triton“: dinaminis paketavimas ).

  • Kvantavimas.
    Mažesnis tikslumas (pvz., INT8) gali pagreitinti išvadų darymą ir sumažinti atminties kiekį. Gali šiek tiek sumažinti tikslumą. Kartais, stebėtina, ne. ( Kvantavimas po mokymo )

  • kompiliavimas / optimizavimas
    , grafų optimizavimo įrankiai, „TensorRT“ tipo srautai. Galingi, bet derinimas gali būti sudėtingas 🌶️ ( ONNX , ONNX vykdymo laiko modelių optimizavimas )

  • Talpyklos talpinimas
    Jei įvestys kartojasi (arba galite talpinti įterpimus), galite daug sutaupyti.

  • Automatinis
    mastelio keitimas pagal procesoriaus / grafikos procesoriaus naudojimą, eilės gylį arba užklausų dažnį. Eilės gylis yra nepakankamai įvertintas. ( „Kubernetes HPA“ )

Keistas, bet teisingas patarimas: matuokite naudodami gamyboje naudojamus naudingosios apkrovos dydžius. Maži testavimo naudingosios apkrovos jums meluoja. Jie mandagiai šypsosi, o vėliau jus išduoda.


8) Stebėjimas ir matomumas – neskraidykite aklai 👀📈

Modelio stebėjimas – tai ne tik veikimo laiko stebėjimas. Norite sužinoti, ar:

Ką stebėti (minimalus tinkamas rinkinys)

Paslaugos būklė

Modelio elgesys

  • įvesties požymių pasiskirstymai (pagrindinė statistika)

  • įterpimo normos (įterpimo modeliams)

  • rezultatų pasiskirstymai (pasitikėjimas, klasių mišinys, balų intervalai)

  • įvesties anomalijų aptikimas (šiukšlių įvedimas, šiukšlių išvedimas)

Duomenų ir koncepcijos dreifas

Registravimas, bet ne „registruoti viską amžinai“ metodas 🪵

Žurnalas:

Saugokite privatumą. Nenorite, kad jūsų žurnalai taptų duomenų nutekėjimu. ( NIST SP 800-122 )


9) CI/CD ir diegimo strategijos – modelius traktuokite kaip tikrus leidimus 🧱🚦

Jei norite patikimų diegimų, sukurkite kanalą. Net ir paprastą.

Tvirtas srautas

  • Vienetų testai išankstiniam ir papildomam apdorojimui

  • Integravimo testas su žinomu įvesties-išvesties „auksiniu rinkiniu“

  • Apkrovos bandymo bazinė linija (net ir lengva)

  • Sukurti artefaktą (konteineris + modelis) ( „Docker“ kūrimo geriausios praktikos )

  • Įdiegimas testavimo etape

  • „Canary“ išleidimas nedidelei srauto daliai ( „Canary Release “)

  • Palaipsniui didinkite

  • Automatinis pagrindinių slenksčių atšaukimas ( mėlynai žalias diegimas )

Išvyniojimo modeliai, kurie išsaugo jūsų sveiką protą

Ir versuokite savo galinius taškus arba maršrutą pagal modelio versiją. Ateityje jums padėkosite. Dabartiniu metu jūs taip pat jums padėkosite, bet tyliai.


10) Saugumas, privatumas ir „prašome nenutekinti informacijos“ 🔐🙃

Apsauga dažniausiai pasirodo vėlai, kaip nekviestas svečias. Geriau jį pakviesti anksti.

Praktinis kontrolinis sąrašas

  • Autentifikavimas ir autorizavimas (kas gali iškviesti modelį?)

  • Spartos ribojimas (apsauga nuo piktnaudžiavimo ir atsitiktinių audrų) ( API šliuzo greičio mažinimas )

  • Paslapčių valdymas (nėra raktų kode, nėra raktų konfigūracijos failuose...) ( „AWS Secrets Manager“ , „Kubernetes Secrets “)

  • Tinklo valdikliai (privatūs potinkliai, paslaugų tarpusavio politikos)

  • Audito žurnalai (ypač jautrių prognozių)

  • Duomenų kiekio mažinimas (saugokite tik tai, ką būtina) ( NIST SP 800-122 )

Jei modelis liečia asmens duomenis:

  • redagavimo arba maišos identifikatoriai

  • vengti neapdorotų naudingųjų duomenų registravimo ( NIST SP 800-122 )

  • apibrėžti saugojimo taisykles

  • dokumentų duomenų srautas (nuobodus, bet saugus)

Be to, generatyviniams modeliams gali būti svarbus greitas įterpimas ir išvesties piktnaudžiavimas. Pridėti: ( OWASP 10 geriausių LLM programų , OWASP: greitas įterpimas )

  • įvesties valymo taisyklės

  • išvesties filtravimas, jei reikia

  • apsauginiai turėklai įrankių iškvietimui arba duomenų bazės veiksmams

Nė viena sistema nėra tobula, bet jūs galite ją padaryti mažiau trapią.


11) Dažni spąstai (dar žinomi kaip įprasti spąstai) 🪤

Štai klasika:

Jei skaitote tai ir galvojate „taip, mes darome du tokius“, sveiki atvykę į klubą. Klube yra užkandžių ir lengvas stresas. 🍪


12) Apibendrinimas – Kaip diegti dirbtinio intelekto modelius neišeinant iš proto 😄✅

Diegimas yra ta vieta, kur dirbtinis intelektas tampa tikru produktu. Tai nėra žavinga, bet būtent taip užsitarnaujamas pasitikėjimas.

Trumpa apžvalga

Taip, dirbtinio intelekto modelių diegimas iš pradžių gali atrodyti kaip žongliravimas liepsnojančiais boulingo kamuoliais. Tačiau kai jūsų srautas tampa stabilus, tai tampa keistai malonus procesas. Tarsi pagaliau sutvarkytumėte netvarkingą stalčių... tik stalčius skirtas gamybiniam srautui. 🔥🎳

DUK

Ką reiškia diegti dirbtinio intelekto modelį gamyboje

Dirbtinio intelekto modelio diegimas paprastai apima daug daugiau nei vien prognozavimo API atskleidimą. Praktiškai tai apima modelio ir jo priklausomybių pakavimą, pateikimo modelio pasirinkimą (realiojo laiko, paketinis, srautinis arba periferinis), mastelio keitimą atsižvelgiant į patikimumą, būklės ir dreifo stebėjimą bei saugaus diegimo ir atšaukimo kelių nustatymą. Tvirtas diegimas išlieka nuspėjamai stabilus esant apkrovimui ir išlieka diagnozuojamas, jei kas nors nepavyksta.

Kaip pasirinkti diegimą realiuoju laiku, paketiniu, srautiniu būdu arba periferiniu būdu

Pasirinkite diegimo modelį pagal tai, kada reikalingos prognozės ir kokie apribojimai taikomi jūsų veiklai. Realaus laiko API tinka interaktyvioms patirtims, kur svarbus delsos laikas. Paketinis vertinimas geriausiai veikia, kai delsos yra priimtinos ir lemia ekonomiškumą. Srautinis perdavimas tinka nuolatiniam įvykių apdorojimui, ypač kai pristatymo semantika tampa sudėtinga. Diegimas periferiniame tinkle idealiai tinka darbui neprisijungus, privatumui arba itin mažo delsos reikalavimams, nors atnaujinimus ir aparatinės įrangos skirtumus valdyti tampa sunkiau.

Kokių versijų vengti diegimo klaidų atveju, kai „veikia mano nešiojamajame kompiuteryje“

Versijų kūrimas apima ne tik modelio svorius. Paprastai reikės versijuoto modelio artefakto (įskaitant tokenizerius arba etikečių žemėlapius), išankstinio apdorojimo ir funkcijų logikos, išvadų kodo ir visos vykdymo aplinkos („Python“ / „CUDA“ / sistemos bibliotekos). Modelį traktuokite kaip išleidimo artefaktą su pažymėtomis versijomis ir lengvais metaduomenimis, apibūdinančiais schemos lūkesčius, vertinimo pastabas ir žinomus apribojimus.

Ar diegti naudojant paprastą „FastAPI“ stiliaus paslaugą, ar dedikuotą modelio serverį

Paprastas programų serveris (panašus į „FastAPI“) gerai veikia su ankstyvaisiais produktais arba nesudėtingais modeliais, nes išlaikote maršrutizavimo, autentifikavimo ir integravimo kontrolę. Modelių serveris („TorchServe“ arba „NVIDIA Triton“ stiliaus) gali užtikrinti geresnį paketavimą, lygiagretumą ir GPU efektyvumą iš karto. Daugelis komandų pasirenka hibridinį serverį: modelio serverį išvadoms ir ploną API sluoksnį autentifikavimui, užklausų formavimui ir greičio apribojimams.

Kaip pagerinti delsą ir pralaidumą nepažeidžiant tikslumo

Pradėkite nuo p95/p99 delsos matavimo gamybinėje įrangoje su realiomis naudingosiomis apkrovomis, nes maži testai gali klaidinti. Įprasti svertai apima paketavimą (geresnis pralaidumas, potencialiai blogesnė delsa), kvantavimą (mažesnis ir greitesnis, kartais su nedideliais tikslumo kompromisais), kompiliavimo ir optimizavimo srautus (panašius į ONNX/TensorRT) ir pasikartojančių įvesčių ar įterpimų kaupimą talpykloje. Automatinis mastelio keitimas pagal eilės gylį taip pat gali neleisti uodegos delsai didėti.

Kokio stebėjimo reikia, jei „galinis taškas veikia“?

Vien veikimo laiko nepakanka, nes paslauga gali atrodyti sveika, o prognozavimo kokybė prastėja. Bent jau stebėkite užklausų kiekį, klaidų dažnį ir delsos pasiskirstymą, taip pat prisotinimo signalus, tokius kaip procesoriaus / grafikos procesoriaus / atminties ir eilės laikas. Modelio elgsenai stebėkite įvesties ir išvesties pasiskirstymą kartu su pagrindiniais anomalijų signalais. Pridėkite dreifo patikrinimus, kurie suaktyvina veiksmus, o ne triukšmingus įspėjimus, ir registruokite užklausų ID, modelio versijas ir schemos patvirtinimo rezultatus.

Kaip saugiai įdiegti naujas modelių versijas ir greitai atkurti

Modelius traktuokite kaip pilnus leidimus, naudodami CI/CD srautą, kuris testuoja išankstinį ir vėlesnį apdorojimą, atlieka integracijos patikrinimus pagal „auksinį rinkinį“ ir nustato apkrovos bazę. Diegimo metu „canary“ leidimai palaipsniui didina srautą, o mėlynai žalia versija palieka aktyvią senesnę versiją, kad būtų galima nedelsiant atkurti senesnę versiją. Šešėlinis testavimas padeda įvertinti naują modelį realiame sraute, nepaveikiant vartotojų. Atšaukimas turėtų būti pirmos klasės mechanizmas, o ne antraeilis dalykas.

Dažniausios klaidos mokantis diegti dirbtinio intelekto modelius

Klasikinis atvejis yra mokymo ir aptarnavimo iškraipymas: išankstinis apdorojimas skiriasi mokymo ir gamybos aplinkoje, o našumas nepastebimai blogėja. Kita dažna problema yra schemos patvirtinimo stoka, kai ankstesnis pakeitimas subtiliai sutrikdo įvestis. Komandos taip pat nepakankamai įvertina uodegos delsą ir per daug susitelkia į vidurkius, nepastebi išlaidų (neveikimo grafikos procesoriai greitai kaupiasi) ir praleidžia atšaukimo planavimą. Ypač rizikinga stebėti tik veikimo laiką, nes „veikia, bet ne“ gali būti blogiau nei neveikia.

Nuorodos

  1. „Amazon Web Services“ (AWS)„Amazon SageMaker“: išvados realiuoju laikudocs.aws.amazon.com

  2. „Amazon Web Services“ (AWS)„Amazon SageMaker“ paketinė transformacijadocs.aws.amazon.com

  3. „Amazon Web Services“ (AWS)„Amazon SageMaker“ modelio monitoriusdocs.aws.amazon.com

  4. „Amazon Web Services“ (AWS)API šliuzo užklausų apribojimasdocs.aws.amazon.com

  5. „Amazon Web Services“ (AWS)AWS paslapčių tvarkyklė: įvadasdocs.aws.amazon.com

  6. „Amazon Web Services“ (AWS)AWS Lambda vykdymo aplinkos gyvavimo ciklasdocs.aws.amazon.com

  7. „Google Cloud“„Vertex AI“: modelio diegimas galiniame taškedocs.cloud.google.com

  8. „Google Cloud“„Vertex AI“ modelio stebėjimo apžvalgadocs.cloud.google.com

  9. „Google Cloud“„Vertex AI“: funkcijų iškraipymo ir poslinkio stebėjimasdocs.cloud.google.com

  10. „Google Cloud“ tinklaraštisDuomenų srautas: tiksliai vieną kartą ir bent kartą transliuojami režimaicloud.google.com

  11. „Google Cloud“debesies duomenų srauto srautinio perdavimo režimaidocs.cloud.google.com

  12. „Google SRE“ knygapaskirstytųjų sistemų stebėjimassre.google

  13. „Google“ tyrimai„The Tail at Scale“research.google

  14. LiteRT (Google AI)LiteRT apžvalgaai.google.dev

  15. „LiteRT“ („Google AI“)„LiteRT“ išvada įrenginyjeai.google.dev

  16. DockerKas yra konteineris?docs.docker.com

  17. „Docker“geriausios „Docker“ kūrimo praktikosdocs.docker.com

  18. KubernetesKubernetes paslaptyskubernetes.io

  19. „Kubernetes“horizontalus pod'o automatinis mastelio keitimaskubernetes.io

  20. Martin Fowler - Kanarėlių išleidimas - martinfowler.com

  21. Martinas FowlerisMėlynai žalias dislokavimasmartinfowler.com

  22. „OpenAPI“ iniciatyvakas yra „OpenAPI“?openapis.org

  23. JSON schema(nuoroda į svetainę)json-schema.org

  24. Protokolo buferiaiprotokolo buferių apžvalgaprotobuf.dev

  25. FastAPI(nuoroda į svetainę)fastapi.tiangolo.com

  26. NVIDIA„Triton“: dinaminis paketavimas ir lygiagretus modelių vykdymasdocs.nvidia.com

  27. NVIDIATriton: lygiagretus modelio vykdymasdocs.nvidia.com

  28. NVIDIA„Triton Inference Server“ dokumentaidocs.nvidia.com

  29. „PyTorch“„TorchServe“ dokumentaidocs.pytorch.org

  30. „BentoML“diegimo paketaidocs.bentoml.com

  31. RayRay Serve dokumentaidocs.ray.io

  32. „TensorFlow“kvantizavimas po mokymo („TensorFlow“ modelio optimizavimas)tensorflow.org

  33. „TensorFlow“„TensorFlow“ duomenų patvirtinimas: aptikite mokymo aptarnavimo iškraipymątensorflow.org

  34. ONNX - (nuoroda į svetainę) - onnx.ai

  35. ONNX vykdymo laikasmodelio optimizavimasonnxruntime.ai

  36. NIST (Nacionalinis standartų ir technologijų institutas)NIST SP 800-122csrc.nist.gov

  37. arXivModelių kortelės modelių ataskaitomsarxiv.org

  38. „Microsoft“šešėlinis testavimasmicrosoft.github.io

  39. OWASPOWASP 10 geriausių LLM programųowasp.org

  40. OWASP GenAI saugumo projektasOWASP: greitas įskiepijimasgenai.owasp.org

Raskite naujausią dirbtinį intelektą oficialioje dirbtinio intelekto asistentų parduotuvėje

Apie mus

Atgal į tinklaraštį