Kiek tikslus yra dirbtinis intelektas?

Trumpas atsakymas: DI gali būti labai tikslus atliekant siauras, tiksliai apibrėžtas užduotis su aiškia faktine tiesa, tačiau „tikslumas“ nėra vienas rodiklis, kuriuo galima pasitikėti visuotinai. Jis galioja tik tada, kai užduotis, duomenys ir metrika atitinka veiklos aplinką; kai įvesties duomenys nukrypsta arba užduotys tampa neterminuotos, klaidų ir įsitikinimų haliucinacijų daugėja.

Svarbiausios išvados:

Užduoties atitikimas : tiksliai apibrėžkite darbą, kad būtų galima patikrinti, ar „teisinga“, ar „neteisinga“.

Metrikų pasirinkimas : vertinimo metrikas priderinkite prie realių pasekmių, o ne prie tradicijų ar patogumo.

Realybės testavimas : naudokite reprezentatyvius, triukšmingus duomenis ir neplatinamų įrenginių streso testus.

Kalibravimas : įvertinkite, ar patikimumas atitinka teisingumą, ypač vertinant slenksčius.

Gyvavimo ciklo stebėjimas : nuolat iš naujo vertinkite, kai vartotojai, duomenys ir aplinka keičiasi laikui bėgant.

Straipsniai, kuriuos galbūt norėsite perskaityti po šio:

🔗 Kaip žingsnis po žingsnio išmokti dirbtinio intelekto
Pradedantiesiems pritaikytas veiksmų planas, padėsiantis užtikrintai mokytis dirbtinio intelekto.

🔗 Kaip dirbtinis intelektas aptinka duomenų anomalijas
Paaiškinami metodai, kuriuos dirbtinis intelektas naudoja neįprastiems modeliams automatiškai aptikti.

🔗 Kodėl dirbtinis intelektas gali būti žalingas visuomenei
Apima tokias rizikas kaip šališkumas, poveikis darbo vietoms ir privatumo problemos.

🔗 Kas yra dirbtinio intelekto duomenų rinkinys ir kodėl jis svarbus
Apibrėžia duomenų rinkinius ir kaip jie apmoko ir vertina dirbtinio intelekto modelius.

1) Taigi… Kiek tikslus yra dirbtinis intelektas? 🧠✅

Dirbtinis intelektas gali būti itin tikslus atliekant siauras, aiškiai apibrėžtas užduotis, ypač kai „teisingas atsakymas“ yra nedviprasmiškas ir lengvai įvertinamas.

Tačiau atvirojo tipo užduotyse (ypač generatyvinio dirbtinio intelekto, pavyzdžiui, pokalbių robotuose), „tikslumas“ greitai tampa nestabilus, nes:

gali būti keli priimtini atsakymai
rezultatas gali būti sklandus, bet nepagrįstas faktais
modelis gali būti suderintas su „naudingumo“ vibracijomis, o ne su griežtu teisingumu
pasaulis keičiasi, o sistemos gali atsilikti nuo realybės

Naudingas mentalinis modelis: tikslumas nėra savybė, kurią „turite“. Tai savybė, kurią „užsitarnaujate“ atlikdami konkrečią užduotį, konkrečioje aplinkoje, su konkrečia matavimo sistema . Štai kodėl rimtos gairės vertinimą traktuoja kaip gyvavimo ciklo veiklą, o ne vienkartinį rezultatų suvestinės momentą. [1]

2) Tikslumas nėra vienas dalykas – tai visa marga šeima 👨👩👧👦📏

Kai žmonės sako „tikslumas“, jie gali turėti omenyje bet kurį iš šių dalykų (ir dažnai jie turi omenyje du iš jų vienu metu, to nesuvokdami):

Teisingumas : ar buvo pateiktas teisingas žymėjimas / atsakymas?
Tikslumas ir atkūrimas : ar buvo išvengta klaidingų aliarmų, ar užfiksuota viskas?
Kalibravimas : ar kai sakoma „Esu 90 % tikras“, maždaug 90 % atvejų tai iš tikrųjų yra teisinga? [3]
Tvirtumas : ar jis vis dar veikia, kai įvesties duomenys šiek tiek pasikeičia (triukšmas, nauja frazė, nauji šaltiniai, nauja demografinė padėtis)?
Patikimumas : ar jis elgiasi nuosekliai numatytomis sąlygomis?
Tiesumas / faktiškumas (generatyvusis dirbtinis intelektas): ar tai išgalvoja dalykus (haliucinuoja) užtikrintu tonu? [2]

Štai kodėl pasitikėjimu pagrįstose sistemose „tikslumas“ nelaikomas atskiru svarbiu rodikliu. Jose pagrįstumas, patikimumas, saugumas, skaidrumas, tvirtumas, sąžiningumas ir kita kaip apie visumą – nes vieną galima „optimizuoti“, o kitą netyčia sugadinti. [1]

3) Kas daro gerą matavimo „Kiek tikslus yra dirbtinis intelektas?“ versiją? 🧪🔍

Štai „geros versijos“ kontrolinis sąrašas (tą, kurį žmonės praleidžia... o vėliau gailisi):

✅ Aiškus užduoties apibrėžimas (t. y. padarykite ją išbandomą)

„Apibendrinti“ yra neaišku.
„Apibendrinkite 5 punktais, pateikite 3 konkrečius skaičius iš šaltinio ir nekurkite citatų“ yra patikrinamas.

✅ Reprezentatyvūs bandymų duomenys (t. y.: sustabdyti vertinimą lengvuoju režimu)

Jei jūsų testų rinkinys yra pernelyg aiškus, tikslumas atrodys netikras. Tikri vartotojai pateikia rašybos klaidų, keistų kraštutinių atvejų ir energijos, kai sakoma: „Aš tai parašiau telefonu 2 val. nakties“.

✅ Riziką atitinkantis rodiklis

Neteisingai klasifikuoti memą nėra tas pats, kas neteisingai klasifikuoti medicininį įspėjimą. Metrikų nesirenkate remdamiesi tradicijomis – jas renkatės remdamiesi pasekmėmis. [1]

✅ Testavimas neplatinimo vietose (dar žinomas kaip „kas nutinka, kai išaiškėja realybė?“)

Išbandykite keistas frazes, dviprasmiškus įvesties šaltinius, priešiškus klausimus, naujas kategorijas, naujus laikotarpius. Tai svarbu, nes paskirstymo poslinkis yra klasikinis būdas, kai modeliai „faceplant“ taikomi gamyboje. [4]

✅ Nuolatinis vertinimas (t. y. tikslumas nėra „nustatyk ir pamiršk“ funkcija)

Sistemos dreifuoja. Vartotojai keičiasi. Duomenys keičiasi. Jūsų „puikus“ modelis tyliai degraduoja – nebent jį nuolat vertintumėte. [1]

Mažas realaus pasaulio modelis, kurį atpažinsite: komandos dažnai pateikia duomenis su dideliu „demonstraciniu tikslumu“, o tada atranda, kad tikrasis jų nesėkmės būdas yra ne „neteisingi atsakymai“... o „neteisingi atsakymai, pateikti užtikrintai ir dideliu mastu“. Tai yra vertinimo projektavimo problema, o ne tik modelio problema.

4) Kur dirbtinis intelektas paprastai yra labai tikslus (ir kodėl) 📈🛠️

Dirbtinis intelektas dažniausiai sužiba, kai problema yra:

siauras
gerai paženklintas
stabilus laikui bėgant
panašus į mokymo pasiskirstymą
lengva automatiškai įvertinti taškus

Pavyzdžiai:

Šlamšto filtravimas
Dokumentų ištraukimas nuosekliuose maketuose
Reitingavimo / rekomendacijų ciklai su daugybe grįžtamojo ryšio signalų
Daugybė regėjimo klasifikavimo užduočių kontroliuojamoje aplinkoje

Nuobodi supergalia, slypinti už daugelio šių pergalių: aiški tiesa + daug tinkamų pavyzdžių . Ne žavinga – nepaprastai efektyvi.

5) Kur dažnai sugenda dirbtinio intelekto tikslumas 😬🧯

Tai yra dalis, kurią žmonės jaučia savo kauluose.

Haliucinacijos generatyviniame DI 🗣️🌪️

LLM gali sukurti įtikimą, bet faktais nepagrįstą turinį – ir būtent „įtikinamoji“ dalis yra pavojinga. Tai viena iš priežasčių, kodėl generatyvinis dirbtinio intelekto rizikos valdymas skiria tiek daug dėmesio pagrindimui, dokumentavimui ir matavimui, o ne vibracijomis pagrįstoms demonstracijoms. [2]

Paskirstymo poslinkis 🧳➡️🏠

Vienoje aplinkoje apmokytas modelis gali suklupti kitoje: kitoje vartotojo kalboje, kitame produktų kataloge, skirtingose regioninėse normose, skirtingame laikotarpyje. Tokie etalonai kaip WILDS egzistuoja iš esmės tam, kad šauktų: „platinimo našumas gali smarkiai pervertinti realaus pasaulio našumą“. [4]

Skatinimo priemonės, kurios apdovanoja už užtikrintą spėjimą 🏆🤥

Kai kurios sistemos netyčia apdovanoja už elgesį „visada atsakyk“, o ne už elgesį „atsakyk tik tada, kai žinai“. Taigi sistemos išmoksta atrodyti teisios , o ne būti teisios. Štai kodėl vertinimas turi apimti susilaikymą / netikrumą, o ne tik neapdorotų atsakymų rodiklį. [2]

Realaus pasaulio incidentai ir veiklos sutrikimai 🚨

Net ir stiprus modelis gali žlugti kaip sistema: blogas paieškos rezultatas, pasenę duomenys, sugedę apsauginiai turėklai arba darbo eiga, kuri tyliai nukreipia modelį apeiti saugos patikras. Šiuolaikinės gairės tikslumą apibrėžia kaip platesnio sistemos patikimumo , o ne tik modelio balą. [1]

6) Nepakankamai įvertinta supergalia: kalibravimas (dar žinomas kaip „žinojimas to, ko nežinai“) 🎚️🧠

Net kai du modeliai turi tą patį „tikslumą“, vienas gali būti daug saugesnis, nes:

tinkamai išreiškia netikrumą
vengia pernelyg pasitikinčių savimi klaidingų atsakymų
pateikia tikimybes, kurios atitinka realybę

Kalibravimas nėra vien akademinis dalykas – jis leidžia pasitikėjimui būti praktiškai pritaikomu . Klasikinis šiuolaikinių neuroninių tinklų atradimas yra tas, kad pasitikėjimo balas gali nesutapti su tikruoju tikslumu, nebent jis būtų aiškiai kalibruojamas ar matuojamas. [3]

Jei jūsų vamzdynas naudoja tokias ribas kaip „automatinis patvirtinimas virš 0,9“, kalibravimas yra skirtumas tarp „automatizavimo“ ir „automatizuoto chaoso“

7) Kaip vertinamas skirtingų tipų dirbtinio intelekto tikslumas 🧩📚

Klasikiniams prognozavimo modeliams (klasifikacija / regresija) 📊

Įprasti rodikliai:

Tikslumas, preciziškumas, atkūrimas, F1
ROC-AUC / PR-AUC (dažnai geriau tinka disbalanso problemoms spręsti)
Kalibravimo patikrinimai (patikimumo kreivės, numatomos kalibravimo paklaidos mąstymas) [3]

Kalbos modeliams ir asistentams 💬

Vertinimas tampa daugiaplanis:

teisingumas (kai užduotis turi tiesos sąlygą)
nurodymų laikymasis
saugumas ir atsisakymo elgesys (keistai sunku atsisakyti)
faktinis pagrindimas / citavimo disciplina (kai to reikia jūsų naudojimo atveju)
patikimumas tarp raginimų ir naudotojų stilių

Vienas iš didžiausių „holistinio“ vertinimo mąstymo indėlių yra aiškus teiginys: reikia kelių rodiklių, apimančių kelis scenarijus, nes kompromisai yra realūs. [5]

Sistemoms, sukurtoms LLMs (darbo eigos, agentai, paieška) pagrindu 🧰

Dabar vertinate visą vamzdyną:

paieškos kokybė (ar buvo gauta teisinga informacija?)
įrankio logika (ar ji atitiko procesą?)
išvesties kokybė (ar ji teisinga ir naudinga?)
apsauginiai turėklai (ar tai padėjo išvengti rizikingo elgesio?)
stebėsena (ar pastebėjote gedimų realiomis sąlygomis?) [1]

Silpna grandis bet kurioje vietoje gali priversti visą sistemą atrodyti „netiksliai“, net jei bazinis modelis yra padorus.

8) Palyginimo lentelė: praktiniai būdai įvertinti „Kiek tikslus yra dirbtinis intelektas?“ 🧾⚖️

Įrankis / metodas	Geriausiai tinka	Kainos pojūtis	Kodėl tai veikia
Naudojimo atvejų testų rinkiniai	LLM programos + pasirinktiniai sėkmės kriterijai	Laisvas	Jūs testuojate savo darbo eigą, o ne atsitiktinę lyderių lentelę.
Daugiametrinė, scenarijų aprėptis	Atsakingai lyginkite modelius	Laisvas	Gaunate gebėjimų „profilį“, o ne vieną magišką skaičių. [5]
Gyvavimo ciklo rizika ir vertinimo mąstysena	Didelio pavojaus sistemos, kurioms reikalingas griežtumas	Laisvas	Skatina jus nuolat apibrėžti, matuoti, valdyti ir stebėti. [1]
Kalibravimo patikrinimai	Bet kuri sistema, naudojanti patikimumo ribas	Laisvas	Patikrina, ar „90 % tikras“ ką nors reiškia. [3]
Žmonių atliekamos peržiūros komisijos	Saugumas, tonas, niuansai, „ar tai atrodo žalinga?“	$$	Žmonės pastebi kontekstą ir žalą, kurios automatizuota metrika nepastebi.
Incidentų stebėsena + grįžtamojo ryšio kilpos	Mokymasis iš realaus pasaulio nesėkmių	Laisvas	Realybė turi pajamas – o gamybos duomenys jus moko greičiau nei nuomonės. [1]

Formatavimo keistenybės prisipažinimas: „nemokamai“ čia atlieka daug darbo, nes tikroji kaina dažnai yra žmonių darbo valandos, o ne licencijos 😅

9) Kaip padidinti dirbtinio intelekto tikslumą (praktiniai svertai) 🔧✨

Geresni duomenys ir geresni testai 📦🧪

Išplėsti kraštinius atvejus
Subalansuoti retus, bet kritinius scenarijus
Turėkite „auksinį rinkinį“, kuris atspindėtų tikrą vartotojo skausmą (ir nuolat jį atnaujinkite)

Pasiruošimas faktinėms užduotims 📚🔍

Jei jums reikia faktinio patikimumo, naudokite sistemas, kurios remiasi patikimais dokumentais ir pateikia atsakymus remdamosi jais. Daugelyje generatyvinių dirbtinio intelekto rizikos valdymo gairių daugiausia dėmesio skiriama dokumentacijai, kilmei ir vertinimo sistemoms, kurios sumažina išgalvoto turinio kiekį, o ne tik tikisi, kad modelis „elgsis tinkamai“. [2]

Stipresni vertinimo ciklai 🔁

Atlikti kiekvieno reikšmingo pakeitimo įvertinimą
Stebėkite regresijas
Streso testas keistam raginimui ir kenkėjiškai įvestims

Skatinkite kalibruotą elgesį 🙏

Nebauskite per griežtai už „nežinau“
Įvertinkite susilaikymo kokybę, o ne tik atsakymų rodiklį
Pasitikėjimą vertinkite kaip kažką, ką išmatuojate ir patvirtinate , o ne kaip kažką, ką priimate remdamiesi įspūdžiais [3]

10) Trumpas patikrinimas: kada reikėtų pasitikėti dirbtinio intelekto tikslumu? 🧭🤔

Labiau pasitikėkite, kai:

užduotis yra siaura ir kartojama
išvestis galima patikrinti automatiškai
sistema yra stebima ir atnaujinama
pasitikėjimas yra kalibruojamas ir gali susilaikyti [3]

Mažiau pasitikėkite, kai:

statymai dideli, o pasekmės realios
raginimas yra atviras („papasakokite man viską apie…“) 😵💫
nėra jokio įžeminimo, jokio patvirtinimo etapo, jokios žmogaus peržiūros
sistema pagal numatytuosius nustatymus veikia užtikrintai [2]

Šiek tiek ydinga metafora: pasikliauti nepatikrintu dirbtiniu intelektu priimant svarbius sprendimus yra tas pats, kas valgyti saulėje padėtą suši... galbūt ir gerai, bet jūsų skrandis rizikuoja, kuriam neprisiregistravote.

11) Baigiamosios pastabos ir trumpa santrauka 🧃✅

Taigi, koks tikslus yra DI?
DI gali būti neįtikėtinai tikslus – bet tik atsižvelgiant į apibrėžtą užduotį, matavimo metodą ir aplinką, kurioje jis naudojamas . O generatyvinio DI atveju „tikslumas“ dažnai reiškia ne vieną balą, o patikimą sistemos dizainą : įžeminimą, kalibravimą, aprėptį, stebėjimą ir sąžiningą vertinimą. [1][2][5]

Trumpa santrauka 🎯

„Tikslumas“ nėra vienas balas – tai teisingumas, kalibravimas, tvirtumas, patikimumas ir (generatyvinio dirbtinio intelekto atveju) teisingumas. [1][2][3]
Lyginamieji rodikliai padeda, bet naudojimo atvejų vertinimas padeda išlikti sąžiningiems. [5]
Jei reikia faktinio patikimumo, pridėkite pagrindimą + patvirtinimo veiksmus + susilaikymo įvertinimą. [2]
Gyvavimo ciklo vertinimas yra suaugusiųjų požiūris... net jei jis ir mažiau įdomus nei lyderių sąrašo ekrano kopija. [1]

DUK

Dirbtinio intelekto tikslumas praktiniame diegime

Dirbtinis intelektas gali būti itin tikslus, kai užduotis yra siaura, aiškiai apibrėžta ir susieta su aiškia faktine informacija, kurią galite įvertinti. Gamyboje „tikslumas“ priklauso nuo to, ar jūsų vertinimo duomenys atspindi triukšmingas naudotojų įvestis ir sąlygas, su kuriomis jūsų sistema susidurs lauke. Užduotims tampant atviresnėms (pvz., pokalbių robotams), klaidos ir pasitikėjimo savimi haliucinacijos pasireiškia dažniau, nebent pridedate įžeminimą, patikrinimą ir stebėjimą.

Kodėl „tikslumas“ nėra tas balas, kuriuo galite pasitikėti

Žmonės „tikslumą“ vartoja skirtingais būdais: teisingumui, preciziškumui ir atkūrimui, kalibravimui, tvirtumui ir patikimumui. Modelis gali atrodyti puikiai švariame testų rinkinyje, bet vėliau strigti, kai pasikeičia formuluotės, duomenys nukrypsta nuo normos ar pasikeičia kortos. Pasitikėjimu pagrįstame vertinime naudojami keli rodikliai ir scenarijai, o ne vienas skaičius traktuojamas kaip universalus verdiktas.

Geriausias būdas išmatuoti dirbtinio intelekto tikslumą atliekant konkrečią užduotį

Pradėkite apibrėždami užduotį taip, kad „teisinga“ ir „neteisinga“ būtų išbandomi, o ne migloti. Naudokite reprezentatyvius, triukšmingus testavimo duomenis, kurie atspindėtų realius vartotojus ir kraštutinius atvejus. Pasirinkite metrikas, kurios atitinka pasekmes, ypač nesubalansuotų ar didelės rizikos sprendimų atveju. Tada pridėkite paskirstymo sistemos išorinių stresinių testų rezultatus ir laikui bėgant, kintant jūsų aplinkai, nuolat iš naujo vertinkite.

Kaip tikslumas ir atgaminimo formos tikslumas praktiškai

Tikslumas ir atšaukimas yra susiję su skirtingomis gedimų sąnaudomis: tikslumas pabrėžia klaidingų aliarmų vengimą, o atšaukimas – visko aptikimą. Jei filtruojate šlamštą, keli netikslumai gali būti priimtini, tačiau klaidingi teigiami rezultatai gali nuvilti vartotojus. Kitais atvejais retų, bet kritinių atvejų nepastebėjimas yra svarbesnis nei papildomos žymės. Tinkama pusiausvyra priklauso nuo to, kiek „neteisybė“ kainuoja jūsų darbo eigoje.

Kas yra kalibravimas ir kodėl jis svarbus tikslumui

Kalibravimas tikrina, ar modelio patikimumas atitinka realybę – ar kai sakoma „90 % tikras“, ar jis teisingas maždaug 90 % atvejų? Tai svarbu, kai nustatote tokias ribas kaip automatinis patvirtinimas, viršijančias 0,9. Du modeliai gali turėti panašų tikslumą, tačiau geriau sukalibruotas yra saugesnis, nes sumažina pernelyg pasitikinčių savimi klaidingų atsakymų skaičių ir palaiko protingesnį susilaikymą balsuojant.

Generatyvaus dirbtinio intelekto tikslumas ir kodėl kyla haliucinacijos

Generatyvusis dirbtinis intelektas gali sukurti sklandų, įtikinamą tekstą net ir tada, kai jis nėra pagrįstas faktais. Tikslumą nustatyti sunkiau, nes daugelis užklausų leidžia pateikti kelis priimtinus atsakymus, o modelius galima optimizuoti pagal „naudą“, o ne griežtą teisingumą. Haliucinacijos tampa ypač rizikingos, kai rezultatai gaunami labai patikimai. Faktiniais atvejais pagrįstas turinys patikimais dokumentais ir patvirtinimo veiksmai padeda sumažinti suklastotą turinį.

Paskirstymo poslinkio ir išorinių įvesčių testavimas

Platinimo viduje taikomi lyginamosios analizės gali pervertinti našumą, kai keičiasi pasaulis. Testuokite naudodami neįprastas frazes, rašybos klaidas, dviprasmiškus įvesties duomenis, naujus laikotarpius ir naujas kategorijas, kad pamatytumėte, kur sistema žlunga. Tokie lyginamosios analizės kaip WILDS yra sukurtos remiantis šia idėja: našumas gali smarkiai sumažėti, kai keičiasi duomenys. Streso testavimą laikykite pagrindine vertinimo dalimi, o ne malonia užduotimi.

Dirbtinio intelekto sistemos tikslumas laikui bėgant

Tobulinkite duomenis ir testus, išplėsdami kraštutinius atvejus, subalansuodami retus, bet kritinius scenarijus ir išlaikydami „auksinį rinkinį“, kuris atspindėtų realius naudotojų sunkumus. Faktinėms užduotims pridėkite pagrindimą ir patikrinimą, o ne tikėkitės, kad modelis veiks tinkamai. Atlikite kiekvieno reikšmingo pakeitimo vertinimą, stebėkite regresijas ir stebėkite, ar gamyboje nėra poslinkio. Taip pat įvertinkite susilaikymą, kad „nežinau“ nebūtų baudžiamas už užtikrintus spėjimus.

Nuorodos

[1] NIST AI RMF 1.0 (NIST AI 100-1): Praktinė sistema, skirta DI rizikai nustatyti, įvertinti ir valdyti per visą gyvavimo ciklą. Skaityti daugiau
[2] NIST generatyvinio DI profilis (NIST AI 600-1): DI RMF papildomas profilis, skirtas generatyvinėms DI sistemoms būdingiems rizikos aspektams. Skaityti daugiau
[3] Guo ir kt. (2017) – Šiuolaikinių neuroninių tinklų kalibravimas: pagrindinis dokumentas, kuriame parodyta, kaip šiuolaikiniai neuroniniai tinklai gali būti neteisingai kalibruoti ir kaip galima patobulinti kalibravimą. Skaityti daugiau
[4] Koh ir kt. (2021) – WILDS etalonas: etaloninių testų rinkinys, skirtas modelio veikimui patikrinti esant realaus pasaulio pasiskirstymo pokyčiams. Skaityti daugiau
[5] Liang ir kt. (2023) – HELM (Holistinis kalbos modelių vertinimas): Sistema, skirta kalbos modeliams vertinti skirtinguose scenarijuose ir metrikose, siekiant nustatyti realius kompromisus. Skaityti daugiau

Raskite naujausią dirbtinį intelektą oficialioje dirbtinio intelekto asistentų parduotuvėje

Apie mus

Atgal į tinklaraštį

Šalis / regionas