Kas yra dirbtinio intelekto išankstinis apdorojimas?

Kas yra dirbtinio intelekto išankstinis apdorojimas?

Trumpas atsakymas: dirbtinio intelekto išankstinis apdorojimas yra pakartojamų veiksmų rinkinys, kuris neapdorotus, didelio kintamumo duomenis paverčia nuosekliais modelio įvesties duomenimis, įskaitant valymą, kodavimą, mastelio keitimą, žetonų kūrimą ir vaizdų transformavimą. Tai svarbu, nes jei mokymo įvesties duomenys ir gamybos įvesties duomenys skiriasi, modeliai gali tyliai sugesti. Jei veiksmas „išmoksta“ parametrus, jį pritaikykite tik mokymo duomenims, kad išvengtumėte duomenų nutekėjimo.

Dirbtinio intelekto išankstinis apdorojimas – tai viskas, ką darote su neapdorotais duomenimis prieš (o kartais ir jų metu) mokymą ar išvadų darymą, kad modelis galėtų iš jų mokytis. Tai ne tik „valymas“. Tai duomenų valymas, formavimas, mastelio keitimas, kodavimas, papildymas ir pakavimas į nuoseklų vaizdą, kuris vėliau tyliai nesugadins jūsų modelio. [1]

Svarbiausios išvados:

Apibrėžimas : išankstinis apdorojimas konvertuoja neapdorotas lenteles, tekstą, vaizdus ir žurnalus į modeliui paruoštus elementus.

Nuoseklumas : mokymo ir išvados metu taikykite tas pačias transformacijas, kad išvengtumėte neatitikimų klaidų.

Nuotėkis : skaliatorius, kodavimo įrenginius ir tokenizerius montuokite tik mokymo duomenims.

Atkuriamumas : kurkite srautus su tikrinama statistika, o ne su ad hoc užrašinės langelių sekomis.

Gamybos stebėjimas : Trasos iškreipimas ir dreifas, kad įvesties duomenys palaipsniui nesumažintų našumo.

Straipsniai, kuriuos galbūt norėsite perskaityti po šio:

🔗 Kaip išbandyti dirbtinio intelekto modelius, kad jie veiktų realiame pasaulyje
Praktiniai metodai, skirti greitai įvertinti tikslumą, patikimumą ir šališkumą.

🔗 Ar teksto įgarsinimas yra dirbtinis intelektas ir kaip jis veikia?
Paaiškinami TTS pagrindai, pagrindiniai naudojimo būdai ir dažniausiai pasitaikantys apribojimai šiandien.

🔗 Ar dirbtinis intelektas šiandien gali tiksliai perskaityti rankraštį?
Aptariami atpažinimo iššūkiai, geriausi įrankiai ir tikslumo patarimai.

🔗 Kiek tikslus yra dirbtinis intelektas atliekant įprastas užduotis
Išskaido tikslumo veiksnius, etalonus ir patikimumą realiomis sąlygomis.


Dirbtinio intelekto išankstinis apdorojimas paprasta kalba (ir kas tai nėra) 🤝

Dirbtinio intelekto išankstinis apdorojimas – tai neapdorotų įvesties duomenų (lentelių, teksto, vaizdų, žurnalų) transformavimas į modeliui paruoštas funkcijas. Jei neapdoroti duomenys yra netvarkingas garažas, tai išankstinis apdorojimas – tai dėžių ženklinimas, sudužusių daiktų išmetimas ir sudėjimas į krūvas, kad galėtumėte praeiti pro jas nesusižeisdami.

Svarbu ne pats modelis. Svarbu tai, kas leidžia sukurti modelį:

  • kategorijų pavertimas skaičiais (vieneto, ranginis ir kt.) [1]

  • didelių skaitinių diapazonų mastelio keitimas į protingus diapazonus (standartizavimas, min-max ir kt.) [1]

  • teksto pavertimas įvesties ID (ir paprastai dėmesio kauke) [3]

  • vaizdų dydžio keitimas / apkarpymas ir tinkamas deterministinių bei atsitiktinių transformacijų taikymas [4]

  • kuriant pasikartojančius srautus, kad mokymo ir „realaus gyvenimo“ įvesties duomenys subtiliai nesiskirtų [2]

Viena maža praktinė pastaba: „išankstinis apdorojimas“ apima viską, kas vyksta nuosekliai prieš modeliui gaunant įvestį . Kai kurios komandos tai skirsto į „funkcijų inžineriją“ ir „duomenų valymą“, tačiau realiame gyvenime šios ribos išblunka.

 

DI išankstinis apdorojimas

Kodėl dirbtinio intelekto išankstinis apdorojimas yra svarbesnis, nei žmonės pripažįsta 😬

Modelis yra šablonų derintojas, o ne minčių skaitytojas. Jei jūsų įvesties duomenys yra nenuoseklūs, modelis išmoksta nenuoseklių taisyklių. Tai ne filosofija, o skausmingai tiesiogine prasme.

Išankstinis apdorojimas padeda:

  • Pagerinkite mokymosi stabilumą , įtraukdami požymius į reprezentacijas, kurias vertintojai gali patikimai naudoti (ypač kai reikia keisti mastelį / koduoti). [1]

  • Sumažinkite triukšmą , paversdami netvarkingą realybę tokia, iš kurios modelis gali būti apibendrintas (užuot įsiminę keistus artefaktus).

  • Užkirsti kelią tyliems gedimų režimams, tokiems kaip nuotėkis ir mokymo/pateikimo neatitikimai (tokie, kurie patvirtinimo metu, o vėliau ir gamybinėje aplinkoje atrodo „nuostabiai“). [2]

  • Paspartinkite iteraciją, nes pasikartojančios transformacijos kiekvieną savaitės dieną pranoksta užrašų knygelės „spagečius“.

Be to, iš ten iš tikrųjų kyla didelė dalis „modelio pasirodymo“. Tikrai... stebėtinai daug. Kartais tai atrodo neteisinga, bet tokia yra realybė 🙃


Kas sudaro gerą dirbtinio intelekto išankstinio apdorojimo srautą ✅

„Gera“ išankstinio apdorojimo versija paprastai turi šias savybes:

  • Atkuriamumas : ta pati įvestis → ta pati išvestis (nėra paslaptingo atsitiktinumo, nebent tai būtų tyčinis papildymas).

  • Traukinio aptarnavimo nuoseklumas : viskas, ką darote mokymo metu, taikoma taip pat ir išvados metu (tie patys pritaikymo parametrai, tie patys kategorijų žemėlapiai, ta pati tokenizer konfigūracija ir kt.). [2]

  • Apsauga nuo nuotėkio : niekas vertinimo / bandymo metu neturi įtakos jokiam pritaikymo etapui. (Apie šią spąstus plačiau vėliau.) [2]

  • Stebimas : galite patikrinti, kas pasikeitė (funkcijų statistika, trūkumai, kategorijų skaičius), todėl derinimas nėra vibracijomis pagrįsta inžinerija.

Jei jūsų išankstinis apdorojimas yra sąsiuvinio langelių krūva, vadinama final_v7_really_final_ok ... žinote, kaip tai yra. Veikia tol, kol nustoja veikti 😬


Pagrindiniai dirbtinio intelekto išankstinio apdorojimo elementai 🧱

Įsivaizduokite išankstinį apdorojimą kaip statybinių blokų rinkinį, kurį sujungiate į srautą.

1) Valymas ir patvirtinimas 🧼

Tipinės užduotys:

  • pašalinti dublikatus

  • tvarkyti trūkstamas reikšmes (praleisti, priskirti arba aiškiai pateikti trūkumą)

  • taikyti tipus, vienetus ir diapazonus

  • aptikti netinkamai suformuotas įvestis

  • standartizuoti teksto formatus (tarpus, didžiųjų ir mažųjų raidžių taisykles, Unicode ypatybes)

Ši dalis nėra žavinga, bet padeda išvengti itin kvailų klaidų. Sakau tai su meile.

2) Kategorinių duomenų kodavimas 🔤

Dauguma modelių negali tiesiogiai naudoti neapdorotų eilučių, tokių kaip „red“ arba „premium_user“ .

Įprasti metodai:

  • Vienkartinis kodavimas (kategorija → dvejetainiai stulpeliai) [1]

  • Kelias kodavimas (kategorija → sveikojo skaičiaus ID) [1]

Svarbiausia ne tai, kokį kodavimo įrenginį pasirinksite, o tai, kad atvaizdavimas išliktų nuoseklus ir „nekeistų formos“ tarp mokymo ir išvados. Taip gausite modelį, kuris neprisijungus atrodo gerai, o prisijungus veikia kaip persekiojamas. [2]

3) Funkcijų mastelio keitimas ir normalizavimas 📏

Mastelio keitimas yra svarbus, kai elementai yra labai skirtinguose diapazonuose.

Du klasikiniai kūriniai:

  • Standartizavimas : pašalinkite vidurkį ir perkelkite į vieneto dispersiją [1]

  • Min.-max. mastelio keitimas : kiekvieno elemento mastelio keitimas į nurodytą diapazoną [1]

Net ir naudojant modelius, kurie „dažniausiai susidoroja su problemomis“, mastelio keitimas dažnai palengvina vamzdynų samprotavimą ir apsunkina jų netyčinį sugadinimą.

4) Funkcijų inžinerija (dar žinoma kaip naudingas sukčiavimas) 🧪

Čia galite palengvinti modelio darbą, sukurdami geresnius signalus:

  • santykiai (paspaudimai / parodymai)

  • slenkantys langai (paskutinės N dienos)

  • skaičius (įvykių skaičius vienam vartotojui)

  • sunkiauodegių skirstinių logaritminės transformacijos

Čia yra menas. Kartais sukuri kokį nors bruožą, didžiuojiesi juo... ir jis nieko neduoda. Arba, dar blogiau, skauda. Tai normalu. Nesirišk prie bruožų emociškai – jie tavęs nemyli atgal 😅

5) Teisingas duomenų skaidymas ✂️

Tai skamba akivaizdžiai, kol netampa akivaizdu:

  • atsitiktiniai IID duomenų skaidymai

  • laiko eilutės suskirstymas pagal laiką

  • sugrupuoti padalijimai, kai objektai kartojasi (naudotojai, įrenginiai, pacientai)

Ir svarbiausia: padalinkite prieš pritaikydami išankstinį apdorojimą, kuris mokosi iš duomenų . Jei jūsų išankstinio apdorojimo etapas „mokosi“ parametrų (pvz., vidurkių, žodynų, kategorijų žemėlapių), jis turi juos išmokti tik iš mokymo. [2]


Dirbtinio intelekto išankstinis apdorojimas pagal duomenų tipą: lenteliniai, tekstiniai, paveikslėliai 🎛️

Išankstinis apdorojimas keičia formą priklausomai nuo to, kuo maitinamas modelis.

Lenteliniai duomenys (skaičiuoklės, žurnalai, duomenų bazės) 📊

Įprasti žingsniai:

  • trūkstamos vertės strategija

  • kategorinis kodavimas [1]

  • skaitinių stulpelių mastelio keitimas [1]

  • išskirtinių verčių apdorojimas (domeno taisyklės dažniausiai nugali „atsitiktinį iškirpimą“)

  • išvestinės funkcijos (agregacijos, vėlavimai, slenkanti statistika)

Praktinis patarimas: aiškiai apibrėžkite stulpelių grupes (skaitmenines, kategorines ir identifikatorius). Jūsų būsimas „aš“ jums padėkos.

Tekstiniai duomenys (NLP) 📝

Teksto išankstinis apdorojimas dažnai apima:

  • žetonų pavertimas žetonais / subžodžiais

  • konvertavimas į įvesties ID

  • užpildymas/sutrumpinimas

  • dėmesio kaukių kūrimas partijoms [3]

Mažytė taisyklė, kuri sutaupo daug vargo: transformerių pagrindu veikiančiose konfigūracijose laikykitės modelio numatytų tokenizerio nustatymų ir nebandykite laisvojo stiliaus, nebent turite priežastį. Laisvasis stilius yra tai, kaip gaunasi „jis treniruojasi, bet yra keistas“

Vaizdai (kompiuterinė regos sistema) 🖼️

Tipinis išankstinis apdorojimas:

  • keisti dydį / apkarpyti iki vienodų formų

  • deterministinės transformacijos įvertinimui

  • atsitiktinės transformacijos mokymo papildymui (pvz., atsitiktinis apkarpymas) [4]

Viena detalė, kurios žmonės nepastebi: „atsitiktinės transformacijos“ nėra tik įvaizdis – jos tiesiogine prasme ima parametrų pavyzdžius kiekvieną kartą, kai yra iškviečiamos. Puikiai tinka įvairovės mokymui, bet siaubingai tinka vertinimui, jei pamirštate išjungti atsitiktinumą. [4]


Spąstai, į kuriuos pakliūna visi: duomenų nutekėjimas 🕳️🐍

Nutekėjimas – tai informacijos iš vertinimo duomenų prasmukimas į mokymo sistemą, dažnai išankstinio apdorojimo metu. Tai gali padaryti jūsų modelį stebuklingą patvirtinimo metu, o vėliau jus nuvilti realiame pasaulyje.

Dažni nuotėkio modeliai:

  • mastelio keitimas naudojant viso duomenų rinkinio statistiką (o ne tik mokymą) [2]

  • kategorijų žemėlapių kūrimas naudojant „train+test“ [2]

  • bet kuris fit() arba fit_transform() žingsnis, kuris „mato“ testų rinkinį [2]

Nykščio taisyklė (paprasta, žiauru, veiksminga):

  • Viskas, kas turi tinkamą žingsnį, turėtų būti tinkama tik treniruotėms.

  • Tada transformacijos patvirtinimas / bandymas atliekamas naudojant tą pritaikytą transformatorių. [2]

O jei norite pasitikrinti „ar gali būti blogai?“, „scikit-learn“ dokumentuose pateiktas nuotėkio pavyzdys, kai neteisinga išankstinio apdorojimo tvarka atsitiktiniams taikiniams 0,76 0,5 . Štai kaip įtikinamai gali atrodyti neteisingas nuotėkis. [2]


Išankstinio apdorojimo perkėlimas į gamybą be chaoso 🏗️

Daugybė modelių gamyboje nepavyksta ne todėl, kad modelis yra „blogas“, o todėl, kad įvesties realybė arba jūsų gamybos srautas.

Gamybos požiūriu į išankstinį apdorojimą paprastai sudaro:

  • Išsaugoti artefaktai (kodavimo įrenginio atvaizdavimai, skaliatoriaus parametrai, tokenizer konfigūracija), kad išvadose būtų naudojamos tos pačios išmoktos transformacijos [2].

  • Griežtos įvesties sutartys (laukiami stulpeliai / tipai / diapazonai)

  • Stebėti iškraipymą ir dreifą , nes gamybos duomenys gali klaidžioti [5]

Jei norite konkrečių apibrėžimų: „Google“ „Vertex AI Model Monitoring“ išskiria mokymo-pasiekimo iškraipymą (gamybos pasiskirstymas nukrypsta nuo mokymo) ir išvadų dreifą (gamybos pasiskirstymas keičiasi laikui bėgant) ir palaiko tiek kategorinių, tiek skaitinių požymių stebėjimą [5].

Nes staigmenos brangios. Ir ne tos smagios.


Palyginimo lentelė: dažniausiai naudojami išankstinio apdorojimo ir stebėjimo įrankiai (ir kam jie skirti) 🧰

Įrankis / biblioteka Geriausiai tinka Kaina Kodėl tai veikia (ir šiek tiek sąžiningumo)
scikit-learn išankstinis apdorojimas Lentelės formos ML kanalai Nemokama Kietojo kūno kodavimo įrenginiai + skaliatoriai („OneHotEncoder“, „StandardScaler“ ir kt.) ir nuspėjamas elgesys [1]
Apkabinančio veido žetonai NLP įvesties paruošimas Nemokama Nuosekliai generuoja įvesties ID ir dėmesio kaukes visuose paleidimuose / modeliuose [3]
torchvision transformacijos Regėjimo transformacija + sustiprinimas Nemokama Švarus būdas sujungti deterministines ir atsitiktines transformacijas viename sraute [4]
Vertex AI modelio stebėjimas Dreifų/iškraipų aptikimas gaminyje Mokama (debesų kompiuterija) Monitoriai turi iškraipymo/dreifo funkciją ir įspėja, kai viršijamos ribos [5]

(Taip, prie stalo vis dar galima pareikšti nuomones. Bet bent jau tai sąžiningos nuomonės 😅)


Praktinis išankstinio apdorojimo kontrolinis sąrašas, kurį galite naudoti 📌

Prieš treniruotę

  • Apibrėžkite įvesties schemą (tipus, vienetus, leidžiamus diapazonus)

  • Trūkstamų reikšmių ir dublikatų auditas

  • Teisingas duomenų suskirstymas (atsitiktinis / pagal laiką / sugrupuotas)

  • Pritaikymo išankstinis apdorojimas tik mokymo ( fit / fit_transform lieka krūvyje) [2]

  • Išsaugoti išankstinio apdorojimo artefaktus, kad juos būtų galima pakartotinai panaudoti išvadose [2]

Mokymo metu

  • Atsitiktinį padidinimą taikyti tik ten, kur tinka (paprastai tik mokymo padalijimą) [4]

  • Išlaikyti vertinimo išankstinį apdorojimą deterministinį [4]

  • Stebėti išankstinio apdorojimo pakeitimus, tokius kaip modelio pakeitimus (nes jie tokie ir yra)

Prieš diegimą

  • Užtikrinti, kad išvadose būtų naudojamas identiškas išankstinio apdorojimo kelias ir artefaktai [2]

  • Nustatykite poslinkio/iškraipumo stebėjimą (net ir pagrindiniai požymių pasiskirstymo patikrinimai yra labai svarbūs) [5]


Išsamus aprašymas: dažniausios išankstinio apdorojimo klaidos (ir kaip jų išvengti) 🧯

1 klaida: „Aš tiesiog greitai viską normalizuosiu“ 😵

Jei skaičiuojate mastelio keitimo parametrus visame duomenų rinkinyje, prarandate įvertinimo informaciją. Pritaikykite jį prie sekos, transformuokite likusią dalį. [2]

2 klaida: kategorijos nugrimzta į chaosą 🧩

Jei jūsų kategorijų atvaizdavimas keičiasi tarp mokymo ir išvados, jūsų modelis gali tyliai neteisingai interpretuoti pasaulį. Ištaisykite atvaizdavimus naudodami išsaugotus artefaktus. [2]

3 klaida: atsitiktinis papildymas prasmukęs į vertinimą 🎲

Atsitiktinės transformacijos yra puikios mokymo metu, bet jos neturėtų būti „slapta įjungtos“, kai bandote matuoti našumą. (Atsitiktinė reiškia atsitiktinė.) [4]


Baigiamosios pastabos 🧠✨

Dirbtinio intelekto išankstinis apdorojimas yra disciplinuotas menas, kaip netvarkingą realybę paversti nuosekliais modelio įvesties duomenimis. Jis apima valymą, kodavimą, mastelio keitimą, tokenizavimą, vaizdų transformavimą ir, svarbiausia, pasikartojančius srautus ir artefaktus.

  • Atlikite išankstinį apdorojimą sąmoningai, o ne atsitiktinai. [2]

  • Pirmiausia padalinkite, pritaikykite transformacijas tik treniruočių metu, venkite nuotėkio. [2]

  • Naudokite modalumui tinkamą išankstinį apdorojimą (teksto žetonų generatorius, vaizdų transformacijas). [3][4]

  • Stebėkite gamybos iškraipymus/dreifus, kad jūsų modelis pamažu netaptų beprasmis. [5]

Ir jei kada nors užstrigsite, paklauskite savęs:
„Ar šis išankstinio apdorojimo žingsnis vis tiek būtų prasmingas, jei jį rytoj paleisčiau su visiškai naujais duomenimis?“
Jei atsakymas yra „ah... galbūt?“, tai jūsų užuomina 😬


DUK

Kas yra dirbtinio intelekto išankstinis apdorojimas paprastai tariant?

Dirbtinio intelekto išankstinis apdorojimas yra pasikartojantis veiksmų rinkinys, kuris triukšmingus, didelio kintamumo neapdorotus duomenis paverčia nuosekliais įvesties duomenimis, iš kurių modelis gali mokytis. Tai gali apimti valymą, patvirtinimą, kategorijų kodavimą, skaitinių reikšmių mastelio keitimą, teksto tokenizavimą ir vaizdų transformacijų taikymą. Tikslas – užtikrinti, kad mokymo ir gamybos išvados matytų „to paties tipo“ įvestį, kad vėliau modelis nepradėtų elgtis nenuspėjamai.

Kodėl dirbtinio intelekto išankstinis apdorojimas yra toks svarbus gamyboje?

Išankstinis apdorojimas yra svarbus, nes modeliai yra jautrūs įvesties reprezentacijai. Jei mokymo duomenys yra mastelio keitikliais, koduojami, tokenizuojami arba transformuojami kitaip nei gamybiniai duomenys, galite gauti neatitikimų dėl mokymo/pateikimo, kurie neprisijungus atrodo gerai, bet prisijungus tyliai neveikia. Stiprūs išankstinio apdorojimo srautai taip pat sumažina triukšmą, pagerina mokymosi stabilumą ir pagreitina iteraciją, nes nenagrinėjate nereikalingų užrašų knygelės painiavų.

Kaip išvengti duomenų nutekėjimo išankstinio apdorojimo metu?

Veikia paprasta taisyklė: viskas, kas turi pritaikymo žingsnį, turi būti pritaikyta tik mokymo duomenims. Tai apima mastelio keitiklius, kodavimo įrankius ir žetonų generatorius, kurie mokosi parametrų, tokių kaip vidurkiai, kategorijų žemėlapiai ar žodynai. Pirmiausia padalijama, pritaikoma mokymo padalijimui, tada transformuojamas patvirtinimas/testas naudojant pritaikytą transformatorių. Nuotėkis gali padaryti patvirtinimą „stebuklingai“ gerą, o tada produkcijos aplinkoje jis gali sugesti.

Kokie yra dažniausiai pasitaikantys lentelinių duomenų išankstinio apdorojimo veiksmai?

Lentelinių duomenų atveju įprastas srautas apima valymą ir patvirtinimą (tipai, diapazonai, trūkstamos vertės), kategorinį kodavimą (vienkartinis arba ranginis) ir skaitinį mastelio keitimą (standartizavimas arba min-max). Daugelyje srautų pridedama domeno valdoma funkcijų inžinerija, pvz., santykiai, slenkantys langai arba skaičiai. Praktinis įprotis yra aiškiai apibrėžti stulpelių grupes (skaitmeninės, kategorinės ir identifikatoriai), kad jūsų transformacijos išliktų nuoseklios.

Kaip veikia teksto modelių išankstinis apdorojimas?

Išankstinis teksto apdorojimas paprastai reiškia žetonų pavertimą žetonais / daliniais žodžiais, jų konvertavimą į įvesties ID ir papildymo / sutrumpinimo tvarkymą paketavimui. Daugelyje transformatorių darbo eigų kartu su ID taip pat sukuriama dėmesio kaukė. Įprastas būdas yra naudoti modelio numatomą žetonų kūrėjo konfigūraciją, o ne improvizuoti, nes nedideli žetonų kūrėjo nustatymų skirtumai gali lemti rezultatus „mokoma, bet elgiasi nenuspėjamai“.

Kuo skiriasi vaizdų išankstinis apdorojimas mašininio mokymosi tikslais?

Vaizdų išankstinis apdorojimas paprastai užtikrina nuoseklias formas ir pikselių tvarkymą: dydžio keitimą / apkirpimą, normalizavimą ir aiškų deterministinių ir atsitiktinių transformacijų atskyrimą. Vertinimo tikslais transformacijos turėtų būti deterministinės, kad metrikos būtų palyginamos. Mokymo tikslais atsitiktinis padidinimas (pvz., atsitiktinis apkirpimas) gali pagerinti patikimumą, tačiau atsitiktinumas turi būti sąmoningai apribotas mokymo padalijimu, o ne netyčia paliktas įjungtas vertinimo metu.

Kas daro išankstinio apdorojimo vamzdyną „geru“, o ne trapiu?

Geras dirbtinio intelekto išankstinio apdorojimo srautas yra atkartojamo tipo, apsaugotas nuo nutekėjimo ir stebimas. Atkartojamo tipo reiškia, kad ta pati įvestis sukuria tą pačią išvestį, nebent atsitiktinumas yra tyčinis papildymas. Apsaugotas nuo nutekėjimo tipo reiškia, kad atitikimo žingsniai niekada neliečia patvirtinimo/testavimo. Stebimo tipo reiškia, kad galite tikrinti statistiką, pvz., trūkstamus duomenis, kategorijų skaičių ir požymių pasiskirstymą, todėl derinimas grindžiamas įrodymais, o ne nuojauta. Vamzdynų tinklai kaskart pranoksta ad hoc užrašų knygelių sekas.

Kaip užtikrinti nuoseklų mokymą ir išvadų išankstinį apdorojimą?

Svarbiausia – išvados darymo metu pakartotinai naudoti tuos pačius išmoktus artefaktus: mastelio keitimo parametrus, kodavimo įrenginių susiejimus ir žetonų konfigūracijas. Taip pat reikalinga įvesties sutartis (laukiami stulpeliai, tipai ir diapazonai), kad gamybos duomenys negalėtų tyliai prarasti savo formos. Nuoseklumas reiškia ne tik „atlikti tuos pačius veiksmus“ – tai „atlikti tuos pačius veiksmus su tais pačiais pritaikytais parametrais ir susiejimais“

Kaip laikui bėgant galiu stebėti išankstinio apdorojimo problemas, tokias kaip poslinkis ir iškreipimas?

Net ir turint patikimą srautą, gamybiniai duomenys keičiasi. Įprastas metodas yra stebėti funkcijų pasiskirstymo pokyčius ir įspėti apie mokymo aptarnavimo iškraipymus (gamyba nukrypsta nuo mokymo) ir išvadų dreifą (gamyba keičiasi laikui bėgant). Stebėjimas gali būti supaprastintas (pagrindiniai pasiskirstymo patikrinimai) arba valdomas (kaip „Vertex AI“ modelio stebėjimas). Tikslas – anksti pastebėti įvesties pokyčius – prieš jiems lėtai pabloginant modelio našumą.

Nuorodos

[1] „scikit-learn“ API:
„sklearn.preprocessing “ (kodavimo įrenginiai, mastelio keitikliai, normalizavimas) [2] „scikit-learn“: Dažni sunkumai – duomenų nutekėjimas ir kaip jo išvengti
[3] „Hugging Face Transformers“ dokumentai: tokenizeriai (įvesties ID, dėmesio kaukės)
[4] „PyTorch Torchvision“ dokumentai: transformacijos (dydžio keitimas / normalizavimas + atsitiktinės transformacijos)
[5] „Google Cloud Vertex AI“ dokumentai: modelio stebėjimo apžvalga (savybių iškreipimas ir poslinkis)

Raskite naujausią dirbtinį intelektą oficialioje dirbtinio intelekto asistentų parduotuvėje

Apie mus

Atgal į tinklaraštį