Kaip išmatuoti dirbtinio intelekto našumą?

Jei kada nors esate išsiuntę modelį, kuris apakino užrašų knygelėje, bet gamyboje suklupo, jau žinote paslaptį: dirbtinio intelekto našumo matavimas nėra vienas stebuklingas rodiklis. Tai patikrinimų sistema, susieta su realiais tikslais. Tikslumas yra patrauklus. Patikimumas, saugumas ir poveikis verslui yra geresni.

Straipsniai, kuriuos galbūt norėsite perskaityti po šio:

🔗 Kaip kalbėtis su dirbtiniu intelektu
Vadovas, kaip efektyviai bendrauti su dirbtiniu intelektu, siekiant nuolat geresnių rezultatų.

🔗 Kas yra dirbtinio intelekto raginimas?
Paaiškina, kaip raginimai formuoja dirbtinio intelekto atsakymus ir išvesties kokybę.

🔗 Kas yra DI duomenų ženklinimas?
Tikslių etikečių priskyrimo mokymo modelių duomenims apžvalga.

🔗 Kas yra dirbtinio intelekto etika?
Įvadas į etikos principus, kuriais vadovaujamasi atsakingai kuriant ir diegiant dirbtinį intelektą.

Kas lemia gerą dirbtinio intelekto našumą? ✅

Trumpai tariant: geras dirbtinio intelekto našumas reiškia, kad jūsų sistema yra naudinga, patikima ir pakartojama net ir nepatogiomis, kintančiomis sąlygomis. Konkrečiai:

Užduoties kokybė – ji gauna teisingus atsakymus dėl teisingų priežasčių.
Kalibravimas – pasitikėjimo balai atitinka realybę, todėl galite imtis protingų veiksmų.
Tvirtumas – atlaiko dreifą, kraštinius garsus ir prieštaringą pūkelių poveikį.
Saugumas ir sąžiningumas – vengiama žalingo, šališko ar nepaklusnaus elgesio.
Efektyvumas – jis pakankamai greitas, pigus ir stabilus, kad veiktų dideliu mastu.
Poveikis verslui – tai iš tikrųjų keičia jums rūpimus KPI.

Jei ieškote oficialaus atskaitos taško metrikoms ir rizikoms suderinti, NIST dirbtinio intelekto rizikos valdymo sistema yra tvirtas pagrindas patikimam sistemos vertinimui. [1]

Aukšto lygio receptas, kaip išmatuoti dirbtinio intelekto našumą 🍳

Pagalvokite trimis sluoksniais:

Užduoties metrika – užduoties tipo teisingumas: klasifikavimas, regresija, reitingavimas, generavimas, kontrolė ir kt.
Sistemos metrikos – delsa, pralaidumas, skambučio kaina, gedimų dažnis, dreifo signalai, veikimo laiko SLA.
Rezultatų metrikos – verslo ir vartotojų rezultatai, kurių iš tikrųjų norite: konversija, klientų išlaikymas, saugos incidentai, rankinio peržiūrėjimo apkrova, užklausų skaičius.

Puikus matavimo planas sąmoningai sujungia visus tris. Priešingu atveju gausite raketą, kuri niekada nepaliks paleidimo aikštelės.

Pagrindiniai rodikliai pagal problemos tipą – ir kada kuriuos naudoti 🎯

1) Klasifikacija

Tikslumas, Atkūrimas, F1 – pirmosios dienos trejetas. F1 yra tikslumo ir atkūrimo harmoninis vidurkis; naudingas, kai klasės yra nesubalansuotos arba sąnaudos yra asimetriškos. [2]
ROC-AUC – klasifikatorių reitingavimas pagal slenkstį; kai teigiami rezultatai reti, taip pat tikrinkite PR-AUC. [2]
Subalansuotas tikslumas – vidutinis atkūrimo rodiklis skirtingose klasėse; patogu naudojant iškreiptas etiketes. [2]

Spąstai: vien tikslumas gali būti labai klaidinantis dėl disbalanso. Jei 99 % vartotojų yra teisėti, kvailas visada teisėtas modelis surinks 99 % ir dar prieš pietus sužlugdys jūsų sukčiavimo komandą.

2) Regresija

MAE – žmogaus įskaitomai klaidai; RMSE – kai norite nubausti už didelius netikslumus; R² – dispersijai, paaiškinta. Tada patikrinkite skirstinių pagrįstumą ir liekamųjų grafikus. [2]
(Naudokite sričiai pritaikytus vienetus, kad suinteresuotosios šalys galėtų iš tikrųjų pajusti klaidą.)

3) Reitingavimas, paieška, rekomendacijos

nDCG – rūpinasi pozicija ir laipsnišku aktualumu; paieškos kokybės standartas.
MRR – dėmesys sutelkiamas į tai, kaip greitai pasirodo pirmas svarbus elementas (puikiai tinka užduotims „rasti vieną gerą atsakymą“).
(Įgyvendinimo nuorodos ir praktiniai pavyzdžiai yra pagrindinėse metrikų bibliotekose.) [2]

4) Teksto generavimas ir apibendrinimas

BLEU ir ROUGE – klasikiniai persidengiantys rodikliai; naudingi kaip baziniai rodikliai.
Įterpimo pagrindu sukurtos metrikos (pvz., BERTScore) dažnai geriau koreliuoja su žmogaus vertinimu; visada derinkite jas su žmogaus įvertinimais dėl stiliaus, ištikimybės ir saugumo. [4]

5) Atsakymai į klausimus

Tikslus atitikimas ir žetono lygio F1 yra įprasti išgaunamosios kokybės užtikrinimo metodai; jei atsakymuose reikia nurodyti šaltinius, taip pat įvertinkite pagrįstumą (atsakymų palaikymo patikrinimai).

Kalibravimas, pasitikėjimas savimi ir Brier lęšis 🎚️

Pasitikėjimo balai yra ta vieta, kur tyliai slypi daugybė sistemų. Jums reikia tikimybių, kurios atspindėtų realybę, kad operacijos galėtų nustatyti ribas, nukreipti žmones arba įvertinti rizikos kainą.

Kalibravimo kreivės – vizualizuokite numatomą tikimybę ir empirinį dažnį.
Brier balas – tinkama tikimybinio tikslumo vertinimo taisyklė; kuo mažesnis, tuo geriau. Tai ypač naudinga, kai jums rūpi tikimybės kokybė , o ne tik reitingas. [3]

Pastaba: šiek tiek „blogesnis“ F1, bet daug geresnis kalibravimas gali labai pagerinti triažą, nes žmonės pagaliau gali pasitikėti balais.

Saugumas, šališkumas ir sąžiningumas – išmatuokite tai, kas svarbu 🛡️⚖️

Sistema gali būti tiksli apskritai ir vis tiek pakenkti konkrečioms grupėms. Stebėkite sugrupuotus rodiklius ir teisingumo kriterijus:

Demografinis paritetas – vienodi teigiami rodikliai visose grupėse.
Išlygintos tikimybės / Lygios galimybės – vienodas klaidų dažnis arba tikrai teigiamų rezultatų dažnis visose grupėse; naudokite tai kompromisams aptikti ir valdyti, o ne kaip vienkartinius teigiamo rezultato ir neigiamo rezultato atvejus. [5]

Praktinis patarimas: pradėkite nuo ataskaitų suvestinių, kuriose pagrindiniai rodikliai suskirstyti pagal pagrindinius atributus, tada pridėkite konkrečius teisingumo rodiklius, kaip reikalauja jūsų politika. Tai skamba sudėtingai, bet pigiau nei incidentas.

LLM ir RAG – matavimo vadovas, kuris iš tikrųjų veikia 📚🔍

Generatyvinių sistemų matavimas yra... keblus procesas. Atlikite tai:

Apibrėžkite rezultatus kiekvienam naudojimo atvejui: teisingumas, naudingumas, nekenksmingumas, stiliaus laikymasis, prekės ženklo tonas, citavimo pagrindimas, atsisakymo kokybė.
Automatizuokite pradinius vertinimus naudodami patikimas sistemas (pvz., vertinimo įrankius savo sistemoje) ir versijuokite juos kartu su savo duomenų rinkiniais.
Pridėkite semantinius rodiklius (pagrįstus įterpimu) ir persidengimo rodiklius (BLEU/ROUGE), kad būtų užtikrintas loginis suderinamumas. [4]
Instrumento įžeminimas RAG sistemoje: paieškos rezultatų dažnis, konteksto tikslumas/atkūrimas, atsakymų ir palaikymo persidengimas.
Žmogaus atliekama peržiūra su pritarimu – išmatuokite vertintojo nuoseklumą (pvz., Coheno κ arba Fleiso κ), kad jūsų etiketės nebūtų vibracijos.

Premija: žurnalo delsos procentiliai ir žetono arba skaičiavimo kaina vienai užduočiai. Niekam nepatinka poetiškas atsakymas, kuris ateis kitą antradienį.

Palyginimo lentelė – įrankiai, padedantys įvertinti dirbtinio intelekto našumą 🛠️📊

(Taip, tai šiek tiek netvarkinga tyčia – tikri užrašai yra netvarkingi.)

Įrankis	Geriausia auditorija	Kaina	Kodėl tai veikia – trumpas aprašymas
scikit-learn metrikos	Mokinių mokytojų specialistai	Nemokama	Kanoniniai klasifikavimo, regresijos, reitingavimo įgyvendinimai; lengva integruoti į testus. [2]
MLflow įvertinimas / GenAI	Duomenų mokslininkai, MLOps	Nemokama + mokama	Centralizuoti skaičiavimai, automatizuota metrika, LLM teisėjai, pasirinktiniai vertinimo sistema; švariai registruoja artefaktus.
Akivaizdu	Komandos nori greitai gauti ataskaitų suvestines	OSS + debesis	Daugiau nei 100 metrikų, svyravimo ir kokybės ataskaitos, stebėjimo elementai – puikūs vaizdai, kai reikia pagalbos.
Svoriai ir šališkumas	Organizacijos, kuriose gausu eksperimentų	Nemokamas lygis	Greta atliekami palyginimai, vertinamieji duomenų rinkiniai, vertintojai; lentelės ir pėdsakai yra tvarkingi.
LangSmith	LLM programėlių kūrimo priemonės	Mokama	Atsekite kiekvieną žingsnį, derinkite žmonių atliekamą peržiūrą su taisyklių ar LLM vertintojais; puikiai tinka RAG.
TruLens	Atvirojo kodo LLM vertinimo mėgėjai	OSS	Grįžtamojo ryšio funkcijos leidžia įvertinti toksiškumą, pagrįstumą, aktualumą; integruokite bet kur.
Didieji lūkesčiai	Duomenų kokybę prioritetu laikančios organizacijos	OSS	Formalizuokite lūkesčius dėl duomenų – nes blogi duomenys vis tiek sugadina kiekvieną metriką.
Giluminiai patikrinimai	Testavimas ir CI/CD ML	OSS + debesis	Duomenų dreifo, modelio problemų ir stebėjimo testavimas su įjungtomis baterijomis; geri apsauginiai turėklai.

Kainos keičiasi – patikrinkite dokumentus. Taip, galite juos derinti ir įrankių policija nepasirodys.

Slenksčiai, išlaidos ir sprendimų kreivės – slaptasis ingredientas 🧪

Keistas, bet teisingas dalykas: du modeliai su tuo pačiu ROC-AUC gali turėti labai skirtingą verslo vertę, priklausomai nuo jūsų slenksčio ir sąnaudų santykių.

Greitas lapo surinkimas:

Nustatykite klaidingai teigiamo ir klaidingai neigiamo rezultato kainą pinigais arba laiku.
Nustatykite slenksčius ir apskaičiuokite numatomas išlaidas kiekvienam 1000 sprendimų.
Pasirinkite minimalią numatomą išlaidų ribą ir užfiksuokite ją stebėsenos funkcija.

PR kreives naudokite, kai teigiami rezultatai reti, ROC kreives – bendrai formai, o kalibravimo kreives – kai sprendimai priklauso nuo tikimybių. [2][3]

Mini atvejis: palaikymo bilietų triažo modelis su kukliu F1, bet puikiu kalibravimu, nutraukiantis rankinį peradresavimą po to, kai operacijos perėjo nuo griežto slenksčio prie pakopinio maršrutizavimo (pvz., „automatinis sprendimas“, „žmogaus peržiūra“, „eskalavimas“), susieto su kalibruotomis balų grupėmis.

Stebėjimas internetu, dreifas ir įspėjimai 🚨

Neprisijungus atliekami vertinimai yra pradžia, o ne pabaiga. Gamyboje:

Stebėti įvesties poslinkį, išvesties poslinkįir našumo mažėjimą pagal segmentus.
Nustatykite apsauginių turėklų patikrinimus – maksimalų haliucinacijų dažnį, toksiškumo ribas, teisingumo deltas.
Pridėkite „canary“ ataskaitų suvestines , skirtas „p95“ delsai, skirtiems laikams ir užklausos kainai.
Norėdami tai pagreitinti, naudokite specialiai sukurtas bibliotekas; jos siūlo dreifo, kokybės ir stebėjimo primityvus iš karto.

Maža ydinga metafora: įsivaizduokite savo modelį kaip raugo tešlos pradą – jūs neiškepate vieną kartą ir nenueinate; jūs maitinate, stebite, uostote ir kartais vėl pradedate.

Žmogiškas vertinimas, kuris nesubyra 🍪

Kai žmonės vertina rezultatus, procesas yra svarbesnis nei manote.

Parašykite glaustas vertinimo kriterijus su sėkmingai, ties ribomis ir nesėkmingai atliktų vertinimų pavyzdžiais.
Kai tik įmanoma, imkite atsitiktinės atrankos būdu arba aklai.
Išmatuokite vertintojų tarpusavio sutarimą (pvz., Coheno κ dviem vertintojams, Fleiso κ daugeliui) ir atnaujinkite vertinimo kriterijus, jei sutarimas nukrypsta nuo normos.

Tai neleidžia jūsų žmogiškoms etiketėms dreifuoti priklausomai nuo nuotaikos ar kavos tiekimo.

Išsami analizė: kaip išmatuoti dirbtinio intelekto našumą teisės magistrantams (LLM) RAG aplinkoje 🧩

Paieškos kokybė – „recall@k“, „precision@k“, „nDCG“; aukso faktų aprėptis. [2]
Atsakymų ištikimybė – citavimo ir patvirtinimo patikros, pagrįstumo įvertinimai, prieštaringų vertinimų tyrimai.
Vartotojų pasitenkinimas – nykščiai, užduočių atlikimas, redagavimo atstumas nuo siūlomų juodraščių.
Sauga – toksiškumas, asmens duomenų nutekėjimas, atitiktis politikos nuostatoms.
Kaina ir delsa – žetonai, talpyklos duomenys, p95 ir p99 delsos.

Susiekite tai su verslo veiksmais: jei pagrįstumas nukrenta žemiau ribos, automatiškai nukreipkite į griežtą režimą arba žmogaus atliekamą peržiūrą.

Paprastas vadovas, padėsiantis pradėti jau šiandien 🪄

Apibrėžkite darbą – parašykite vieną sakinį: ką ir kam turi daryti dirbtinis intelektas.
Pasirinkite 2–3 užduoties metrikas – plius kalibravimą ir bent vieną teisingumo kriterijų. [2][3][5]
Nustatykite ribas pagal kainą – nespėliokite.
Sukurkite nedidelį vertinimo rinkinį – 100–500 paženklintų pavyzdžių, atspindinčių gamybos mišinį.
Automatizuokite vertinimus – įtraukite vertinimą / stebėjimą į CI, kad kiekvienas pakeitimas atliktų tuos pačius patikrinimus.
Stebėjimas gamyboje – dreifas, delsa, kaina, incidentų žymės.
Peržiūrėkite maždaug kas mėnesį – pašalinkite metrikas, kurių niekas nenaudoja; pridėkite tas, kurios atsako į tikrus klausimus.
Dokumentuokite sprendimus – tai gyva rezultatų suvestinė, kurią jūsų komanda iš tikrųjų skaito.

Taip, tai tiesiogine prasme. Ir tai veikia.

Dažnos klaidos ir kaip jų išvengti 🕳️🐇

Perteklinis pritaikymas prie vienos metrikos – naudokite metrikų krepšelį , kuris atitinka sprendimo kontekstą. [1][2]
Kalibravimo ignoravimas – pasitikėjimas be kalibravimo tėra pasipūtimas. [3]
Neskaidykite – visada rūšiuokite pagal naudotojų grupes, geografiją, įrenginį, kalbą. [5]
Neapibrėžtos išlaidos – jei neįvertinsite klaidų kainos, pasirinksite neteisingą ribą.
Žmogaus vertinimo poslinkis – matuokite sutarimą, atnaujinkite vertinimo kriterijus, perkvalifikuokite recenzentus.
Jokių saugos priemonių – sąžiningumo, toksiškumo ir politikos patikrinimus pridėkite dabar, o ne vėliau. [1][5]

Frazė, kurios ieškojote: kaip išmatuoti dirbtinio intelekto našumą – „Per ilga, neskaičiau“ 🧾

Pradėkite nuo aiškių rezultatų, tada sujunkite užduočių, sistemosir verslo metrikas. [1]
Naudokite tinkamus rodiklius darbui – F1 ir ROC-AUC klasifikavimui; nDCG/MRR reitingavimui; persidengimo + semantinius rodiklius generavimui (suporuoti su žmonėmis). [2][4]
Kalibruokite savo tikimybes ir įvertinkite savo klaidas , kad pasirinktumėte ribas. [2][3]
Pridėkite teisingumo patikrinimus su grupės skiltelėmis ir aiškiai valdykite kompromisus. [5]
Automatizuokite vertinimus ir stebėjimą , kad galėtumėte be baimės kartoti.

Žinai, kaip būna – išmatuok tai, kas svarbu, arba pagerinsi tai, kas nesvarbu.

Nuorodos

[1] NIST. Dirbtinio intelekto rizikos valdymo sistema (DI RMF). Skaityti daugiau
[2] scikit-learn. Modelio vertinimas: prognozių kokybės kiekybinis įvertinimas (vartotojo vadovas). Skaityti daugiau
[3] scikit-learn. Tikimybių kalibravimas (kalibravimo kreivės, Brier balas). Skaityti daugiau
[4] Papineni ir kt. (2002). BLEU: automatinio mašininio vertimo vertinimo metodas. ACL. Skaityti daugiau
[5] Hardt, Price, Srebro (2016). Lygios galimybės prižiūrimo mokymosi srityje. NeurIPS. Skaityti daugiau

Raskite naujausią dirbtinį intelektą oficialioje dirbtinio intelekto asistentų parduotuvėje

Apie mus

Atgal į tinklaraštį