Kaip įvertinti dirbtinio intelekto modelius

Kaip įvertinti dirbtinio intelekto modelius

Trumpas atsakymas: apibrėžkite, kaip jūsų atveju atrodo „gerai“, tada išbandykite naudodami reprezentatyvius, versijuotus raginimus ir kraštutinius atvejus. Automatinius rodiklius derinkite su žmonių atliekamu vertinimu pagal vertinimo kriterijus, kartu su priešišku saugumo ir raginimų įvedimo patikrinimais. Jei kainos ar delsos apribojimai tampa privalomi, palyginkite modelius pagal užduočių sėkmę, tenkančią išleistam svarui, ir p95/p99 atsako laiką.

Svarbiausios išvados:

Atskaitomybė : Priskirkite aiškius savininkus, saugokite versijų žurnalus ir iš naujo atlikite vertinimus po bet kokio raginimo ar modelio pakeitimo.

Skaidrumas : prieš pradėdami rinkti balus, užsirašykite sėkmės kriterijus, apribojimus ir nesėkmės kainą.

Audituojamumas : Palaikykite pasikartojančius testų rinkinius, paženklintus duomenų rinkinius ir stebimus p95/p99 delsos rodiklius.

Ginčytinumas : naudokite žmonių peržiūros kriterijus ir apibrėžtą apeliacijų kelią ginčijamiems rezultatams.

Atsparumas piktnaudžiavimui : greita raudonosios komandos injekcija, jautrios temos ir per didelis atsisakymas apsaugoti vartotojus.

Jei renkatės produkto, tyrimų projekto ar net vidinio įrankio modelį, negalite tiesiog pasakyti „skamba protingai“ ir jo išsiųsti (žr. „OpenAI“ vertinimo vadovą ir „NIST AI RMF 1.0 “). Taip sukuriamas pokalbių robotas, kuris užtikrintai paaiškina, kaip pašildyti šakutę mikrobangų krosnelėje. 😬

Kaip įvertinti dirbtinio intelekto modelius (infografikas)

Straipsniai, kuriuos galbūt norėsite perskaityti po šio:

🔗 Dirbtinio intelekto ateitis: tendencijos, formuojančios ateinantį dešimtmetį.
Svarbiausios inovacijos, poveikis darbo vietoms ir etika, į kurią reikia atkreipti dėmesį ateityje.

🔗 Pradedantiesiems paaiškinti pagrindiniai generatyvinio dirbtinio intelekto modeliai.
Sužinokite, kas jie yra, kaip jie apmokyti ir kodėl jie svarbūs.

🔗 Kaip dirbtinis intelektas veikia aplinką ir energijos naudojimą.
Sužinokite apie išmetamųjų teršalų kiekį, elektros energijos poreikį ir būdus, kaip sumažinti pėdsaką.

🔗 Kaip dirbtinio intelekto didinimas šiandien veikia siekiant ryškesnių vaizdų.
Sužinokite, kaip modeliai prideda detalių, pašalina triukšmą ir švariai padidina.


1) „Gero“ apibrėžimas (priklauso nuo aplinkybių, ir tai gerai) 🎯

Prieš atlikdami bet kokį vertinimą, nuspręskite, kaip atrodo sėkmė. ​​Kitaip viską išmatuosite ir nieko neišmoksite. Tai tas pats, kas atsinešti matavimo juostą vertinti tortų konkursą. Žinoma, gausite skaičius, bet jie jums daug nepasakys 😅

Paaiškinkite:

  • Vartotojo tikslas : santrauka, paieška, rašymas, samprotavimas, faktų išskyrimas

  • Nesėkmės kaina : neteisinga filmo rekomendacija yra juokinga; neteisinga medicininė instrukcija yra... nejuokinga (rizikos įrėminimas: NIST AI RMF 1.0 ).

  • Veikimo aplinka : įrenginyje, debesyje, už užkardos, reguliuojamoje aplinkoje

  • Pagrindiniai apribojimai : delsa, kaina už užklausą, privatumas, paaiškinamumas, daugiakalbystė, tono valdymas

Modelis, kuris viename darbe yra „geriausias“, kitame gali būti katastrofa. Tai ne prieštaravimas, o realybė. 🙂


2) Kaip atrodo patikima dirbtinio intelekto modelio vertinimo sistema 🧰

Taip, šią dalį žmonės praleidžia. Jie paima etaloną, jį paleidžia vieną kartą ir baigia. Patikima vertinimo sistema turi keletą nuoseklių bruožų (praktiniai įrankių pavyzdžiai: „OpenAI Evals“ / „OpenAI evals“ vadovas ):

  • Pakartojamas – galite jį paleisti dar kartą kitą savaitę ir pasitikėti palyginimais

  • Reprezentatyvus – atspindi tikruosius jūsų naudotojus ir užduotis (ne tik smulkmenas)

  • Daugiasluoksnis – sujungia automatizuotus rodiklius + žmogaus peržiūrą + konkurentų testus

  • Veiksmingi – rezultatai nurodo, ką reikia ištaisyti, o ne tik „sumažėjo balas“

  • Apsauga nuo klastojimo – išvengiama „mokymo atlikti bandymą“ arba atsitiktinio nuotėkio

  • Išlaidų suvokimas – pats vertinimas neturėtų jūsų nuvesti į bankrotą (nebent mėgstate skausmą)

Jei jūsų vertinimo nepavyksta atlaikyti skeptiškai nusiteikusio komandos draugo, kuris sako: „Gerai, bet susiekite tai su gamyba“, vadinasi, dar nebaigta. Tai ir yra vibracijos patikrinimas.


3) Kaip įvertinti dirbtinio intelekto modelius pradedant nuo naudojimo atvejų pjūvių 🍰

Štai gudrybė, kuri sutaupo daugybę laiko: suskaidykite naudojimo atvejį į dalis .

Užuot „įvertinę modelį“, atlikite:

  • Tikslo supratimas (ar gaunama tai, ko nori vartotojas)

  • Paieška arba konteksto naudojimas (ar pateikta informacija naudojama teisingai)

  • Samprotavimo / kelių žingsnių užduotys (ar išlieka nuosekli visuose žingsniuose)

  • Formatavimas ir struktūra (ar laikomasi instrukcijų)

  • Saugos ir politikos suderinamumas (ar vengiama nesaugaus turinio; žr. NIST AI RMF 1.0 )

  • Tonas ir prekės ženklo balsas (ar skamba taip, kaip norite)

Dėl to „Kaip vertinti dirbtinio intelekto modelius“ labiau primena tikslinių testų rinkinį, o ne vieną didžiulį egzaminą. Testai erzina, bet įveikiami. 😄


4) Vertinimo neprisijungus pagrindai – testų rinkiniai, etiketės ir ne itin svarbios detalės 📦

Neprisijungus atliekamas vertinimas – tai kontroliuojami testai, kol vartotojai nieko nepalies (darbo eigos modeliai: „OpenAI Evals “).

Sukurkite arba surinkite tikrai jūsų testų rinkinį

Geras bandymų rinkinys paprastai apima:

  • Auksiniai pavyzdžiai : idealūs rezultatai, kuriuos su pasididžiavimu pristatytumėte

  • Kraštiniai atvejai : dviprasmiški raginimai, netvarkinga įvestis, netikėtas formatavimas

  • Gedimų režimo zondai : raginimai, sukeliantys haliucinacijas arba nesaugius atsakymus (rizikos testavimo sistema: NIST AI RMF 1.0 )

  • Įvairovės aprėptis : skirtingi vartotojų įgūdžių lygiai, dialektai, kalbos, sritys

Jei testuosite tik su „švariais“ raginimais, modelis atrodys nuostabiai. Tuomet jūsų vartotojai pasirodys su spausdinimo klaidomis, puse sakinio ir įniršio spustelėjimu. Sveiki atvykę į realybę.

Ženklinimo pasirinkimai (dar vadinami griežtumo lygiais)

Galite žymėti išvestis taip:

  • Dvejetainis : sėkmingas/nepavykęs (greitas, griežtas)

  • Kelintinis : 1–5 kokybės balas (niuansuotas, subjektyvus)

  • Keli atributai : tikslumas, išsamumas, tonas, citavimo naudojimas ir kt. (geriausias, lėčiausias)

Daugelio komandų optimalus pasirinkimas yra daugiaatributinis vertinimas. Tai tas pats, kas ragauti maistą ir vertinti sūrumą atskirai nuo tekstūros. Priešingu atveju tiesiog pasakai „gerai“ ir gūžteli pečiais.


5) Rodikliai, kurie nemeluoja – ir rodikliai, kurie iš dalies meluoja 📊😅

Metrika yra vertinga... bet ji taip pat gali būti kaip blizgučių bomba. Blizganti, visur ir sunkiai nuvaloma.

Bendros metrikų šeimos

  • Tikslumas / tikslus atitikimas : puikiai tinka išgavimui, klasifikavimui, struktūrizuotoms užduotims

  • F1 / tikslumas / prisiminimas : patogu, kai kažko praleidimas yra blogiau nei papildomas triukšmas (apibrėžimai: scikit-learn precision/recall/F-score )

  • BLEU / ROUGE stiliaus sutapimas : tinka santraukų užduotims, dažnai klaidinantis (originalūs rodikliai: BLEU ir ROUGE )

  • Panašumo įterpimas : naudinga semantiniam atitikimui, gali apdovanoti už neteisingus, bet panašius atsakymus

  • Užduoties sėkmės rodiklis : „ar vartotojas gavo tai, ko jam reikėjo“ – auksinis standartas, kai gerai apibrėžtas

  • Apribojimų laikymasis : atitinka formatą, ilgį, JSON galiojimą, schemos laikymąsi

Svarbiausias dalykas

Jei jūsų užduotis yra atvira (rašymas, samprotavimas, pokalbis su palaikymo komanda), vieno skaičiaus metrikos gali būti... nestabilios. Ne beprasmės, tiesiog nestabilios. Kūrybiškumą galima matuoti liniuote, bet tai darydami jausitės kvailai. (Be to, tikriausiai išdursite akį.)

Taigi: naudokite metrikas, bet susiekite jas su žmonių atliekama peržiūra ir realiais užduočių rezultatais (vienas iš LLM pagrįsto vertinimo aptarimo pavyzdžių + įspėjimų: G-Eval ).


6) Palyginimo lentelė – geriausi vertinimo variantai (su savitumais, nes gyvenimas turi savitumų) 🧾✨

Pateikiame praktišką vertinimo metodų sąrašą. Derinkite juos tarpusavyje. Dauguma komandų taip ir daro.

Įrankis / metodas Auditorija Kaina Kodėl tai veikia
Rankomis sukurtas greitųjų testų rinkinys Produktas + inžinerija $ Labai taiklus, greitai aptinka regresijas, bet jį reikia išlaikyti amžinai 🙃 (pradinis įrankis: „OpenAI Evals “)
Žmonių vertinimo skalė Komandos, kurios gali skirti recenzentų $$ Geriausiai tinka tonui, niuansams, „ar žmogus tai priimtų“, nedidelis chaosas, priklausomai nuo recenzentų
Teisėjo teisės magistro laipsnis (su vertinimo kriterijais) Greitos iteracijos ciklai $-$$ Greitas ir pritaikomas, bet gali paveldėti šališkumą ir kartais vertina remdamasis įspūdžiais, o ne faktais (tyrimai + žinomos šališkumo problemos: G-Eval ).
Varžybų raudonųjų komandų sprintas Sauga ir atitiktis $$ Randa aštrius gedimo režimus, ypač greitą injekciją – jaučiasi kaip streso testas sporto salėje (grėsmių apžvalga: OWASP LLM01 greita injekcija / OWASP 10 geriausių LLM programų )
Sintetinių bandymų generavimas Duomenų valdymo komandos $ Puiki apžvalga, bet sintetinės užuominos gali būti pernelyg tvarkingos, pernelyg mandagios... vartotojai nėra mandagūs
A/B testavimas su realiais vartotojais brandūs produktai $$$ Aiškiausias signalas – kartu ir emociškai labiausiai stresą keliantis, kai rodikliai svyruoja (klasikinis praktinis vadovas: Kohavi ir kt., „Kontroliuojami eksperimentai internete“ ).
Paieškos pagrindu atliktas įvertinimas (RAG patikrinimai) Paieškos ir kokybės užtikrinimo programėlės $$ Matai, kurie „teisingai naudoja kontekstą“, sumažina haliucinacijų balų infliaciją (RAG vertinimo apžvalga: RAG vertinimas: apklausa )
Stebėjimas + dreifo aptikimas Gamybos sistemos $$-$$$ Laikui bėgant pastebi degradaciją – nepatrauklus, kol neišgelbėja 😬 (dreifo apžvalga: konceptualus dreifo tyrimas (PMC) )

Atkreipkite dėmesį, kad kainos yra nurodytos sąmoningai. Jos priklauso nuo masto, įrankių ir to, kiek susitikimų netyčia sukuriate.


7) Žmonių vertinimas – slaptas ginklas, kuriam žmonės skiria per mažai lėšų 👀🧑⚖️

Jei atliksite tik automatinį vertinimą, praleisite:

  • Neatitikimas tonuose („kodėl taip sarkastiškai“)

  • Subtilios faktinės klaidos, kurios atrodo sklandžios

  • Žalingos implikacijos, stereotipai arba nepatogi formuluotė (rizikos ir šališkumo apibūdinimas: NIST AI RMF 1.0 )

  • Instrukcijų laikymosi klaidos, kurios vis tiek skamba „protingai“

Suformuluokite vertinimo kriterijus konkrečiai (kitaip recenzentai juos interpretuos laisvu stiliumi)

Bloga vertinimo priemonė: „Naudingumas“.
Geresnė vertinimo priemonė:

  • Teisingumas : faktiškai tikslus, atsižvelgiant į teiginį + kontekstą

  • Išsamumas : apima reikiamus punktus be iškraipymų

  • Aiškumas : lengvai skaitomas, struktūrizuotas, kuo mažiau painiavos

  • Politika / saugumas : vengiama ribojamo turinio, gerai tvarkomas atsisakymas (saugaus įrėminimo sistema: NIST AI RMF 1.0 )

  • Stilius : atitinka balsą, toną, skaitymo lygį

  • Ištikimybė : neišgalvoja šaltinių ar teiginių, kurie nėra pagrįsti.

Taip pat kartais atlikite tarpusavio vertintojų patikrinimus. Jei du vertintojai nuolat nesutaria, tai ne „žmonių problema“, o vertinimo kriterijų problema. Paprastai (vertintojų patikimumo pagrindai: McHugh apie Coheno kapą ).


8) Kaip įvertinti dirbtinio intelekto modelių saugumą, patikimumą ir „fu, naudotojų“ įtaką 🧯🧪

Tai yra dalis, kurią reikia atlikti prieš paleidimą – ir toliau daryti, nes internetas niekada nemiega.

Tvirtumo bandymai, į kuriuos reikia įtraukti

  • Spausdinimo klaidos, slengas, gramatikos klaidos

  • Labai ilgi ir labai trumpi raginimai

  • Prieštaringos instrukcijos („būkite trumpi, bet įtraukite kiekvieną detalę“)

  • Daugiapakopiai pokalbiai, kurių metu vartotojai keičia tikslus

  • Bandymai atlikti skubią injekciją („ignoruoti ankstesnes taisykles…“) (grėsmės informacija: OWASP LLM01 skubi injekcija )

  • Jautrios temos, reikalaujančios atsargaus atsisakymo (rizikos / saugumo rėmimas: NIST AI RMF 1.0 )

Saugos vertinimas nėra tiesiog „ar jis atsisako“

Geras modelis turėtų:

  • Aiškiai ir ramiai atmeskite nesaugius prašymus (gairės: NIST AI RMF 1.0 )

  • Prireikus pateikite saugesnes alternatyvas

  • Venkite per daug atmesdami nekenksmingas užklausas (klaidingai teigiamus rezultatus)

  • Dviprasmiškus prašymus reaguoti patikslinančiais klausimais (kai leidžiama)

Pernelyg didelis atsisakymas yra tikra produkto problema. Vartotojams nepatinka, kai su jais elgiamasi kaip su įtartinais goblinai. 🧌 (Net jei jie ir yra įtartini goblinai.)


9) Kaina, vėlavimas ir veikimo realybė – vertinimas, kurį visi pamiršta 💸⏱️

Modelis gali būti „nuostabus“ ir vis tiek jums netinka, jei yra lėtas, brangus arba nestabilus eksploatacinių savybių atžvilgiu.

Įvertinkite:

  • Latencijos pasiskirstymas (ne tik vidurkis – svarbūs p95 ir p99) (kodėl procentiliai svarbūs: „Google SRE“ stebėjimo darbaknygė )

  • Sėkmingos užduoties kaina (ne atskira kaina už žetoną)

  • Stabilumas esant apkrovai (skirtieji laiko limitai, greičio apribojimai, anomalūs šuoliai)

  • Įrankio iškvietimo patikimumas (jei jis naudoja funkcijas, ar jis elgiasi tinkamai)

  • Išvesties ilgio tendencijos (kai kurie modeliai nukrypsta nuo temos, o nukrypimas nuo temos kainuoja pinigus)

Šiek tiek prastesnis, bet dvigubai greitesnis modelis gali laimėti treniruotėse. Tai skamba akivaizdžiai, tačiau žmonės tai ignoruoja. Tas pats, kas nusipirkti sportinį automobilį važiavimui į maisto prekių parduotuvę, o paskui skųstis dėl bagažinės erdvės.


10) Paprastas, visapusiškas darbo procesas, kurį galite nukopijuoti (ir koreguoti) 🔁✅

Štai praktinis žingsnis, kaip įvertinti dirbtinio intelekto modelius neįstrigiant nesibaigiančiuose eksperimentuose:

  1. Apibrėžkite sėkmę : užduotis, apribojimai, nesėkmės kaina

  2. Sukurkite nedidelį „pagrindinį“ testų rinkinį : 50–200 pavyzdžių, atspindinčių realų naudojimą

  3. Pridėti krašto ir priešiškumo rinkinius : injekcijos bandymai, dviprasmiški raginimai, saugos zondai (raginimo injekcijos klasė: OWASP LLM01 )

  4. Atlikti automatinius patikrinimus : formatavimą, JSON galiojimą, pagrindinį teisingumą, jei įmanoma.

  5. Atlikti žmogaus atliekamą peržiūrą : imti rezultatus pagal kategorijas, įvertinti pagal vertinimo kriterijus

  6. Palyginkite kompromisus : kokybė, kaina, vėlavimas ir saugumas

  7. Bandomasis riboto leidimo etapas : A/B testai arba etapinis diegimas (A/B testavimo vadovas: Kohavi ir kt. )

  8. Stebėjimas gamyboje : poslinkis, regresijos, vartotojų grįžtamojo ryšio ciklai (poslinkio apžvalga: koncepcijos poslinkio tyrimas (PMC) )

  9. Iteruoti : atnaujinti raginimus, paieška, tikslus derinimas, apsauginiai barjerai, tada iš naujo paleisti „eval“ (eval iteracijos modeliai: „OpenAI evals“ vadovas )

Versijuotus žurnalus saugokite. Ne todėl, kad smagu, o todėl, kad ateityje jums padėkosite laikydami kavą ir murmėdami „kas pasikeitė...“ ☕🙂


11) Dažni spąstai (dar žinomi kaip: būdai, kuriais žmonės netyčia apgaudinėja save) 🪤

  • Mokymas testui : optimizuojate raginimus tol, kol etalonas atrodo puikiai, bet vartotojai kenčia.

  • Nesandarūs vertinimo duomenys : testo raginimai rodomi mokymo arba tikslinimo duomenyse (oi!)

  • Vienos metrikos garbinimas : vieno balo, kuris neatspindi naudotojo vertės, vaikymasis

  • Paskirstymo poslinkio ignoravimas : keičiasi naudotojų elgsena ir jūsų modelis tyliai blogėja (gamybos rizikos apibrėžimas: koncepcijos poslinkio tyrimas (PMC) )

  • Per didelis indeksavimas remiantis „protingumu“ : protingas samprotavimas nesvarbu, ar jis pažeidžia formatavimą, ar išgalvoja faktus.

  • Netikrinama atsisakymo kokybė : „Ne“ gali būti teisinga, bet vis tiek siaubinga naudotojo patirtis.

Taip pat saugokitės demonstracinių versijų. Jos yra tarsi filmų anonsai. Jose rodomi svarbiausi momentai, paslepiamos lėtos dalys, o kartais girdima dramatiška muzika. 🎬


12) Baigiamoji santrauka apie tai, kaip vertinti dirbtinio intelekto modelius 🧠✨

Dirbtinio intelekto modelių vertinimas nėra vienas balas, tai subalansuotas valgis. Jums reikia baltymų (teisingumas), daržovių (saugumas), angliavandenių (greitis ir kaina) ir, taip, kartais deserto (tonas ir malonumas) 🍲🍰 (rizikos įrėminimas: NIST AI RMF 1.0 )

Jei nieko daugiau neprisimenate:

  • Apibrėžkite, ką reiškia „geras“ jūsų naudojimo atveju

  • Naudokite reprezentatyvius testų rinkinius, o ne tik žinomus etalonus

  • Automatizuotų metrikų derinimas su žmogaus atliekama rubrikų peržiūra

  • Testo patikimumas ir saugumas, pavyzdžiui, vartotojai yra priešiški (nes kartais... jie tokie ir yra) (greitojo įvedimo klasė: OWASP LLM01 )

  • Į vertinimą įtraukite kainą ir delsą, o ne kaip papildomą aspektą (kodėl procentiliai svarbūs: „Google SRE Workbook “)

  • Stebėjimas po paleidimo – modeliai kinta, programos vystosi, žmonės tampa kūrybingi (kanalizacijos apžvalga: koncepcijos dreifo tyrimas (PMC) )

Štai kaip įvertinti dirbtinio intelekto modelius taip, kad jie pasitvirtintų, kai jūsų produktas jau veikia ir žmonės pradeda daryti nenuspėjamus dalykus. O taip yra visada. 🙂

DUK

Koks yra pirmas žingsnis vertinant dirbtinio intelekto modelius, skirtus realiam produktui?

Pradėkite apibrėždami, ką reiškia „geras“ jūsų konkrečiam naudojimo atvejui. Išaiškinkite naudotojo tikslą, kiek jums kainuoja gedimai (maža rizika ar didelė rizika) ir kur modelis veiks (debesyje, įrenginyje, reguliuojamoje aplinkoje). Tada išvardykite griežtus apribojimus, tokius kaip delsa, kaina, privatumas ir tono valdymas. Be šio pagrindo daug matuosite, bet vis tiek priimsite blogą sprendimą.

Kaip sukurti testų rinkinį, kuris iš tikrųjų atspindėtų mano vartotojus?

Sukurkite testų rinkinį, kuris būtų išties jūsų, o ne tik viešas etalonas. Įtraukite puikių pavyzdžių, kuriuos didžiuodamiesi pateiktumėte, bei triukšmingų, neįprastų užduočių su rašybos klaidomis, pusiau sakiniais ir dviprasmiškais prašymais. Pridėkite kraštutinių atvejų ir nesėkmingų bandymų, kurie sukelia haliucinacijas ar nesaugius atsakymus. Aptarkite įgūdžių lygio, dialektų, kalbų ir sričių įvairovę, kad rezultatai produkcijoje nesuprastų.

Kokius rodiklius turėčiau naudoti, o kurie gali būti klaidinantys?

Suderinkite metrikas su užduoties tipu. Tikslus atitikimas ir tikslumas gerai veikia ištraukimui ir struktūrizuotiems rezultatams, o tikslumas/atkūrimas ir F1 padeda, kai kažko praleidimas yra blogiau nei papildomas triukšmas. Persidengiančios metrikos, tokios kaip BLEU/ROUGE, gali klaidinti atliekant atviras užduotis, o panašumo įterpimas gali apdovanoti „neteisingus, bet panašius“ atsakymus. Rašant, palaikant ar samprotaujant, derinkite metrikas su žmogaus peržiūra ir užduočių sėkmės rodikliais.

Kaip turėčiau struktūrizuoti vertinimus, kad juos būtų galima kartoti ir jie būtų tinkami gamybinei veiklai?

Patikima vertinimo sistema yra kartojama, reprezentatyvi, daugiasluoksnė ir pritaikoma veiksmams. Derinkite automatinius patikrinimus (formato, JSON galiojimo, pagrindinio teisingumo) su žmonių atliekamu vertinimu ir prieštaringais testais. Užtikrinkite atsparumą klastojimui, vengdami informacijos nutekėjimo ir „mokydami testą“. Užtikrinkite vertinimo išlaidų suvokimą, kad galėtumėte jį dažnai kartoti, o ne tik vieną kartą prieš paleidimą.

Koks yra geriausias būdas atlikti žmogaus vertinimą, kad jis nevirstų chaosu?

Naudokite konkrečią vertinimo kriterijų, kad recenzentai nereikėtų laisvai interpretuoti. Įvertinkite tokias savybes kaip teisingumas, išsamumas, aiškumas, saugumas / politikos laikymasis, stiliaus / balso atitikimas ir ištikimybė (neišgalvojant teiginių ar šaltinių). Periodiškai tikrinkite vertintojų tarpusavio sutarimą; jei recenzentai nuolat nesutaria, vertinimo kriterijus greičiausiai reikia patobulinti. Žmonių atliekamas vertinimas ypač vertingas esant tono neatitikimui, smulkioms faktinėms klaidoms ir instrukcijų nesilaikymo problemoms.

Kaip įvertinti saugumą, patikimumą ir greitos injekcijos riziką?

Testuokite su „ugh, vartotojai“ tipo įvestimis: rašybos klaidomis, slengu, prieštaringomis instrukcijomis, labai ilgomis arba labai trumpomis užklausomis ir kelių posūkių tikslų pakeitimais. Įtraukite raginimų injekcijos bandymus, pvz., „ignoruoti ankstesnes taisykles“, ir jautrias temas, kurioms reikia atsargaus atsisakymo. Geras saugos našumas – tai ne tik atsisakymas – tai aiškus atsisakymas, saugesnių alternatyvų siūlymas, kai tinkama, ir per didelio nekenksmingų užklausų, kurios kenkia vartotojo sąsajai, atmetimo vengimas.

Kaip įvertinti kainą ir delsą taip, kad jie atitiktų realybę?

Nematuokite vien vidurkių – stebėkite delsos pasiskirstymą, ypač p95 ir p99. Įvertinkite vienos sėkmingos užduoties kainą, o ne atskirai vieno žetono kainą, nes pakartotiniai bandymai ir nereguliarūs rezultatai gali panaikinti sutaupytas lėšas. Patikrinkite stabilumą esant apkrovai (skirtąjį laiką, greičio apribojimus, šuolius) ir įrankių / funkcijų iškvietimo patikimumą. Šiek tiek prastesnis modelis, kuris yra dvigubai greitesnis arba stabilesnis, gali būti geresnis produkto pasirinkimas.

Koks yra paprastas, visapusiškas dirbtinio intelekto modelių vertinimo darbo procesas?

Apibrėžkite sėkmės kriterijus ir apribojimus, tada sukurkite nedidelį pagrindinį testų rinkinį (maždaug 50–200 pavyzdžių), kuris atspindėtų realų naudojimą. Pridėkite kraštinių ir priešiškų testų rinkinius saugumui ir injekcijos bandymams. Atlikite automatinius patikrinimus, tada imkite rezultatus žmonių vertinimo kriterijams. Palyginkite kokybę, kainą, vėlavimą ir saugumą, atlikite bandomąjį projektą su ribotu diegimu arba A/B testą ir stebėkite gamyboje, ar nėra nukrypimų ir regresijų.

Kokiais dažniausiai pasitaikančiais būdais komandos netyčia apgaudinėja save vertindamos modelius?

Įprasti spąstai: raginimų optimizavimas siekiant aukščiausio lygio pasiekti lyginamąjį testą, kai vartotojai kenčia, vertinimo raginimų nutekinimas į mokymo ar tikslinimo duomenis ir vieno rodiklio, kuris neatspindi naudotojo vertės, garbinimas. Komandos taip pat ignoruoja paskirstymo poslinkį, per daug dėmesio skiria „protingumui“, o ne formato atitikimui ir ištikimybei, ir praleidžia atsisakymą atlikti kokybės testus. Demonstracinės versijos gali paslėpti šias problemas, todėl pasikliaukite struktūrizuotais vertinimais, o ne paryškintais kadrais.

Nuorodos

  1. „OpenAI“„OpenAI“ vertinimo vadovasplatform.openai.com

  2. Nacionalinis standartų ir technologijų institutas (NIST)Dirbtinio intelekto rizikos valdymo sistema (AI RMF 1.0)nist.gov

  3. „OpenAI“openai/evals („GitHub“ saugykla)github.com

  4. „scikit-learn“ – „ precision_recall_fscore_support„scikit-learn.org

  5. Skaičiuojamosios lingvistikos asociacija (ACL antologija) - BLEU - aclanthology.org

  6. Skaičiuojamosios lingvistikos asociacija (ACL antologija) - ROUGE - aclanthology.org

  7. arXiv - G-Eval - arxiv.org

  8. OWASP - LLM01: Greitas injekcijos atlikimas - owasp.org

  9. OWASP10 geriausių OWASP didelių kalbų modelių taikymamsowasp.org

  10. Stanfordo universitetasKohavi ir kt., „Kontroliuojami eksperimentai internete“stanford.edu

  11. arXivRAG vertinimas: apklausaarxiv.org

  12. „PubMed Central“ (PMC)Koncepcijos poslinkio tyrimas (PMC)nih.gov

  13. „PubMed Central“ (PMC)McHugh apie Coheno kapąnih.gov

  14. „Google“SRE stebėjimo darbaknygėgoogle.workbook

Raskite naujausią dirbtinį intelektą oficialioje dirbtinio intelekto asistentų parduotuvėje

Apie mus

Atgal į tinklaraštį