Kas yra paaiškinamas dirbtinis intelektas?

„Paaiškinamasis dirbtinis intelektas“ yra viena iš tų frazių, kurios puikiai skamba vakarienės metu ir tampa absoliučiai gyvybiškai svarbios vos tik algoritmas nustato medicininę diagnozę, patvirtina paskolą ar pažymi siuntą. Jei kada nors pagalvojote: „Gerai, bet kodėl modelis taip padarė...“ – jūs jau esate paaiškinamojo dirbtinio intelekto teritorijoje. Išsiaiškinkime idėją paprastai – jokios magijos, tik metodai, kompromisai ir kelios neginčijamos tiesos.

Straipsniai, kuriuos galbūt norėsite perskaityti po šio:

🔗 Kas yra dirbtinio intelekto šališkumas?
Suprasti dirbtinio intelekto šališkumą, jo šaltinius, poveikį ir mažinimo strategijas.

🔗 Kas yra nuspėjamasis dirbtinis intelektas?
Išnagrinėkite nuspėjamąjį dirbtinį intelektą, jo dažniausiai naudojamus panaudojimo būdus, privalumus ir praktinius apribojimus.

🔗 Kas yra humanoidinis robotas DI?
Sužinokite, kaip dirbtinis intelektas įgalina humanoidinius robotus, jų galimybes, pavyzdžius ir iššūkius.

🔗 Kas yra dirbtinio intelekto treneris?
Sužinokite, ką veikia dirbtinio intelekto instruktoriai, kokie yra reikalingi įgūdžiai ir karjeros galimybės.

Ką iš tikrųjų reiškia paaiškinamas dirbtinis intelektas

Paaiškinamasis dirbtinis intelektas (DI) – tai DI sistemų projektavimo ir naudojimo praktika, kai jų rezultatus gali suprasti žmonės – konkretūs asmenys, kuriems įtakos turi sprendimai arba kurie yra už juos atsakingi, o ne tik matematikai. NIST tai suskirsto į keturis principus: pateikti paaiškinimą , padaryti jį prasmingą auditorijai, užtikrinti paaiškinimo tikslumą (ištikimybę modeliui) ir atsižvelgti į žinių ribas (neperdėti to, ką sistema žino) [1].

Trumpas istorinis pastebėjimas: saugumui svarbios sritys nuo pat pradžių stengėsi sukurti modelius, kurie išliktų tikslūs, tačiau pakankamai interpretuojami, kad būtų galima pasitikėti „ciklu“. Šiaurinė žvaigždė nepasikeitė – pateikiami tinkami paaiškinimai nepakenkiant našumui.

Kodėl paaiškinamas dirbtinis intelektas yra svarbesnis nei manote 💡

Pasitikėjimas ir pritaikymas – žmonės priima sistemas, kurioms jie gali teikti užklausas, jas kvestionuoti ir jas taisyti.
Rizika ir saugumas – paaiškinami paviršiaus gedimo režimai, kol jie nenustebino jūsų masto.
Reguliavimo lūkesčiai – ES Dirbtinio intelekto įstatymas nustato aiškias skaidrumo pareigas, pvz., informuoti žmones, kada jie tam tikruose kontekstuose sąveikauja su dirbtiniu intelektu, ir tinkamai žymėti dirbtinio intelekto sukurtą arba manipuliuojamą turinį [2].

Būkime atviri – nuostabūs ataskaitų suvestinės nėra paaiškinimai. Geras paaiškinimas padeda žmogui nuspręsti, ką daryti toliau.

Kuo naudingas paaiškinamas dirbtinis intelektas ✅

Vertindami bet kurį XAI metodą, paklauskite:

Ištikimybė – ar paaiškinimas atspindi modelio elgesį, ar tiesiog pasakoja paguodžiantį pasakojimą?
Naudingumas auditorijai – duomenų mokslininkai nori gradientų; klinicistai nori priešingų faktų ar taisyklių; klientai nori aiškių priežasčių ir tolesnių veiksmų.
Stabilumas – maži įvesties pakeitimai neturėtų apversti istorijos iš A į Z.
Veiksmingumas – jei rezultatas yra nepageidaujamas, kas galėjo pasikeisti?
Sąžiningumas dėl neapibrėžtumo – paaiškinimai turėtų atskleisti ribas, o ne jas užglaistyti.
Taikymo srities aiškumas – ar tai lokalus vienos prognozės paaiškinimas, ar globalus modelio elgsenos vaizdas?

Jei prisiminsite tik vieną dalyką: naudingas paaiškinimas pakeičia žmogaus sprendimą, o ne tik nuotaiką.

Pagrindinės sąvokos, kurias girdėsite daug 🧩

Aiškinamasis ir paaiškinamumas – Aiškinamasis: modelis yra pakankamai paprastas, kad jį būtų galima perskaityti (pvz., mažas medis). Aiškinamasis: pridėkite metodą, kad sudėtingas modelis būtų įskaitomas.
Vietinis ir globalus – vietinis paaiškina vieną sprendimą; globalus apibendrina bendrą elgesį.
Post-hoc ir intrinsic – post-hoc paaiškina apmokytą juodąją dėžę; intrinsic naudoja iš esmės interpretuojamus modelius.

Taip, šios ribos išsilieja. Tai gerai; kalba kinta; jūsų rizikos suvokimas – ne.

Populiarūs paaiškinami dirbtinio intelekto metodai – apžvalga 🎡

Štai trumpesnė, sūkurinė ekskursija su muziejaus audiogido atmosfera.

1) Papildomos funkcijų priskyrimai

SHAP – kiekvienam požymiui priskiria indėlį į konkrečią prognozę, pasitelkiant žaidimų teorijos idėjas. Pamėgtas dėl aiškių adityvinių paaiškinimų ir vieningo požiūrio į modelius [3].

2) Vietiniai surogatiniai modeliai

LIME – Apmoko paprastą, vietinį modelį aplink aiškinamą egzempliorių. Greitos, žmonėms suprantamos santraukos, kurios funkcijos buvo svarbios netoliese. Puikiai tinka demonstracinėms versijoms, padeda užtikrinti stabilumą praktikos metu [4].

3) Gradientais pagrįsti metodai giliesiems tinklams

Integruoti gradientai – suteikia svarbą integruojant gradientus nuo bazinės linijos iki įvesties; dažnai naudojamas regėjimui ir tekstui. Protingos aksiomos; reikia būti atsargiems su bazinėmis linijomis ir triukšmu [1].

4) Pavyzdžiais pagrįsti paaiškinimai

Kontrafaktiniai teiginiai – „Koks minimalus pokytis būtų pakeitęs rezultatą?“ Puikiai tinka sprendimų priėmimui, nes tai natūraliai įgyvendinama – padarykite X, kad gautumėte Y [1].

5) Prototipai, taisyklės ir dalinė priklausomybė

Prototipai rodo reprezentatyvius pavyzdžius; taisyklės fiksuoja modelius, pvz. , jei pajamos > X ir istorija = švari, tada patvirtinama ; dalinė priklausomybė rodo vidutinį funkcijos poveikį tam tikrame diapazone. Paprastos idėjos, dažnai nepakankamai įvertinamos.

6) Kalbos modeliams

Žetonų/aprėpties atribucijos, gauti pavyzdžiai ir struktūrizuoti pagrindimai. Naudinga, su įprasta išlyga: tvarkingi šilumos žemėlapiai negarantuoja priežastinio samprotavimo [5].

Greitas (sudėtinis) atvejis iš lauko 🧪

Vidutinio dydžio skolintojas kredito sprendimams taikyti gradientu pagrįstą modelį. Vietinis SHAP padeda agentams paaiškinti neigiamą rezultatą („Pagrindiniai veiksniai buvo skolos ir pajamų santykis bei neseniai panaudotas kreditas“) [3]. Kontrafaktinis sluoksnis siūlo galimą regreso galimybę („Sumažinkite apyvartinių lėšų panaudojimą maždaug 10 % arba pridėkite 1 500 GBP patvirtintų indėlių, kad sprendimas būtų panaikintas“) [1]. Komanda atlieka atsitiktinės atrankos testus su kokybės užtikrinime naudojamais vizualiniais elementais, siekdama užtikrinti, kad svarbiausi elementai nebūtų tik paslėpti ribiniai detektoriai [5]. Tas pats modelis, skirtingi paaiškinimai skirtingoms auditorijoms – klientams, operacijų vadovams ir auditoriams.

Nejaukiausia: paaiškinimai gali klaidinti 🙃

Kai kurie svarbos nustatymo metodai atrodo įtikinamai net ir tada, kai jie nėra susieti su apmokytu modeliu ar duomenimis. Patikrinimai parodė, kad tam tikri metodai gali neišlaikyti pagrindinių testų, sukurdami klaidingą supratimo įspūdį. Kitaip tariant: gražūs vaizdai gali būti grynas teatras. Įtraukite savo aiškinimo metodų patvirtinimo testus [5].

Be to, retesnis ≠ sąžiningas. Vieno sakinio paaiškinimas gali slėpti svarbias sąveikas. Nedideli prieštaravimai paaiškinime gali signalizuoti apie tikrąjį modelio neapibrėžtumą arba tiesiog triukšmą. Jūsų užduotis yra pasakyti, kuris yra kuris.

Valdymas, politika ir kylanti skaidrumo kartelė 🏛️

Politikos formuotojai tikisi kontekstą atitinkančio skaidrumo. ES Dirbtinio intelekto įstatymas nustato tokius įpareigojimus kaip informuoti žmones, kai jie sąveikauja su dirbtiniu intelektu, tam tikrais atvejais ir žymėti dirbtinio intelekto sukurtą ar manipuliuojamą turinį atitinkamais pranešimais ir techninėmis priemonėmis, atsižvelgiant į išimtis (pvz., teisėtas naudojimas arba saugoma išraiška) [2]. Inžinerijos srityje NIST teikia principais pagrįstas gaires, padedančias komandoms kurti paaiškinimus, kuriuos žmonės gali iš tikrųjų naudoti [1].

Kaip pasirinkti paaiškinamo dirbtinio intelekto metodą – trumpas žemėlapis 🗺️

Pradėkite nuo sprendimo – kam reikalingas paaiškinimas ir kokiems veiksmams?
Pritaikykite metodą prie modelio ir terpės
- Gradiento metodai giliesiems tinklams regėjimo arba NLP srityje [1].
- SHAP arba LIME lenteliniams modeliams, kai reikia nurodyti požymių priskyrimus [3][4].
- Kontrafaktiniai scenarijai, skirti klientų aptarnavimo taisomiesiems veiksmams ir apeliacijoms [1].
Nustatyti kokybės vartus – ištikimybės patikrinimai, stabilumo testai ir žmogiškojo proceso metu atliekamos peržiūros [5].
Planuokite mastą – paaiškinimus turėtų būti įmanoma užregistruoti, išbandyti ir audituoti.
Dokumento apribojimai – nėra tobulų metodų; užsirašykite žinomus gedimų režimus.

Mažas pastebėjimas – jei negalite patikrinti paaiškinimų taip pat, kaip testuojate modelius, galite neturėti paaiškinimų, tik vibracijas.

Palyginimo lentelė – įprastos paaiškinamos dirbtinio intelekto parinktys 🧮

Šiek tiek keista tyčia; tikras gyvenimas yra chaotiškas.

Įrankis / metodas	Geriausia auditorija	Kaina	Kodėl jiems tai tinka
FORMA	Duomenų mokslininkai, auditoriai	Nemokamas/atviras	Adityvus priskyrimas – nuoseklus, palyginamas [3].
KALPOS	Produktų komandos, analitikai	Nemokamas/atviras	Greiti vietiniai surogatiniai signalai; lengva užgrobti; kartais triukšmingi [4].
Integruoti gradientai	ML inžinieriai giliuosiuose tinkluose	Nemokamas/atviras	Gradientais pagrįstos atribucijos su protingomis aksiomomis [1].
Kontrafaktiniai teiginiai	Galutiniai vartotojai, atitiktis, operacijos	Mišrus	Tiesiogiai atsako, ką keisti; labai veiksmingi [1].
Taisyklių sąrašai / Medžiai	Rizikos savininkai, valdytojai	Nemokamas/atviras	Vidinis interpretuojamumas; bendros santraukos.
Dalinė priklausomybė	Modelių kūrėjai, kokybės užtikrinimas	Nemokamas/atviras	Vizualizuoja vidutinius efektus skirtinguose diapazonuose.
Prototipai ir pavyzdžiai	Dizaineriai, apžvalgininkai	Nemokamas/atviras	Konkretūs, žmogui draugiški pavyzdžiai; atpažįstami.
Įrankių platformos	Platformos komandos, valdymas	Komercinis	Stebėjimas + paaiškinimas + auditas vienoje vietoje.

Taip, ląstelės yra nelygios. Toks jau gyvenimas.

Paprastas paaiškinamo dirbtinio intelekto (AI) gamybinis darbo procesas 🛠️

1 veiksmas – apibrėžkite klausimą.
Nuspręskite, kieno poreikiai svarbiausi. Duomenų mokslininkui paaiškinamumas nėra tas pats, kas klientui parašyti apeliacinį laišką.

2 veiksmas – pasirinkite metodą pagal kontekstą.

Lentelinis paskolų rizikos modelis – pradėkite nuo SHAP vietinėms ir pasaulinėms operacijoms; pridėkite priešingus scenarijus regreso sistemoms [3][1].
Regėjimo klasifikatorius – naudokite integruotus gradientus arba panašius; pridėkite pagrįstumo patikrinimus, kad išvengtumėte ryškumo klaidų [1][5].

3 veiksmas – patikrinkite paaiškinimus.
Atlikite paaiškinimų nuoseklumo testus; iškraipykite įvestis; patikrinkite, ar svarbios funkcijos atitinka srities žinias. Jei svarbiausios funkcijos po kiekvieno permokymo smarkiai kinta, padarykite pertrauką.

4 žingsnis – pateikite suprantamus paaiškinimus.
Pateikite aiškias priežastis kartu su diagramomis. Įtraukite geriausius veiksmus. Prireikus pateikite nuorodas į ginčijamus rezultatus – būtent tai ir siekiama paremti skaidrumo taisyklėmis [2].

5 veiksmas – stebėkite ir registruokite.
Sekite paaiškinimo stabilumą laikui bėgant. Klaidinantys paaiškinimai yra rizikos signalas, o ne kosmetinis trūkumas.

1-oji giluminė analizė: vietiniai ir globalūs paaiškinimai praktikoje 🔍

Vietos padėtis padeda žmogui suprasti, kodėl jo byla buvo būtent taip – itin svarbi jautriose situacijose.
„Global“ padeda jūsų komandai užtikrinti, kad išmoktas modelio elgesys atitiktų politiką ir srities žinias.

Atlikite abu veiksmus. Galite pradėti vietines paslaugas, o tada pridėti pasaulinę stebėseną, skirtą nukrypimams ir sąžiningumo peržiūrai.

2-oji išsami analizė: Priešingos situacijos, kai reikia taikyti apeliacijas ir ieškinius 🔄

Žmonės nori žinoti minimalų pokytį, kad gautų geresnį rezultatą. Kontrafaktiniai paaiškinimai būtent tai ir daro – pakeičiant šiuos konkrečius veiksnius rezultatas apsiverčia [1]. Dėmesio: kontrafaktiniai paaiškinimai turi atsižvelgti į įgyvendinamumą ir sąžiningumą . Liepti kam nors pakeisti nekintamą atributą nėra planas, tai raudona vėliavėlė.

3-ioji giluminė analizė: loginio pagrįstumo patikrinimas 🧪

Jei naudojate ryškumo žemėlapius arba gradientus, atlikite pagrįstumo patikrinimus. Kai kurie metodai sukuria beveik identiškus žemėlapius net ir atsitiktinai atrenkant modelio parametrus – tai reiškia, kad jie gali paryškinti kraštus ir tekstūras, o ne išmoktus įrodymus. Nuostabūs šilumos žemėlapiai, klaidinanti istorija. Integruokite automatinius patikrinimus į CI/CD [5].

DUK, kurie kyla kiekviename susitikime 🤓

K: Ar paaiškinamas dirbtinis intelektas yra tas pats, kas teisingumas?
A: Ne. Paaiškinimai padeda pamatyti elgesį; teisingumas yra savybė, kurią turite patikrinti ir užtikrinti . Susiję, bet ne identiški.

K: Ar paprastesni modeliai visada geresni?
A: Kartais. Bet paprastas ir neteisingas vis tiek yra neteisingas. Pasirinkite paprasčiausią modelį, kuris atitinka našumo ir valdymo reikalavimus.

K: Ar paaiškinimai nutekės intelektinę nuosavybę?
A: Gali. Kalibruokite detales pagal auditoriją ir riziką; dokumentuokite, ką atskleidžiate ir kodėl.

K: Ar galime tiesiog parodyti funkcijų svarbą ir laikyti viską baigta?
A: Ne visai. Svarbos juostos be konteksto ar nuorodos yra tik puošmena.

Per ilga, neskaičiau versijos ir baigiamosios pastabos 🌯

Paaiškinamasis dirbtinis intelektas (DI) – tai disciplina, kurios tikslas – modelio elgesį padaryti suprantamą ir naudingą žmonėms, kurie juo remiasi. Geriausi paaiškinimai pasižymi tikslumu, stabilumu ir aiškia auditorija. Tokie metodai kaip SHAP, LIME, integruoti gradientai ir kontrafaktiniai scenarijai turi stipriųjų pusių – naudokite juos sąmoningai, griežtai išbandykite ir pateikite kalba, kuria žmonės gali reaguoti. Atminkite, kad patrauklūs vaizdai gali būti teatras; reikalaukite įrodymų, kad jūsų paaiškinimai atspindi tikrąjį modelio elgesį. Įtraukite paaiškinamumą į savo modelio gyvavimo ciklą – tai ne blizgus priedas, o dalis to, kaip atsakingai pristatote.

Sąžiningai, tai šiek tiek panašu į balso suteikimą savo modeliui. Kartais jis murmteli, kartais perdėtai aiškina, kartais pasako būtent tai, ką jums reikėjo išgirsti. Jūsų užduotis – padėti jam pasakyti tinkamą dalyką, tinkamam žmogui, tinkamu momentu. Ir pridėti gerą etiketę ar dvi. 🎯

Nuorodos

[1] NIST IR 8312 – Keturi paaiškinamo dirbtinio intelekto principai . Nacionalinis standartų ir technologijų institutas. Skaityti daugiau

[2] Dirbtinio intelekto įstatymas (ES) 2024/1689 (Oficialusis leidinys / EUR-Lex) . Skaityti daugiau

[3] Lundberg ir Lee (2017) – „Vieningas požiūris į modelių prognozių interpretavimą“. arXiv. Skaityti daugiau

[4] Ribeiro, Singh ir Guestrin (2016) – „Kodėl turėčiau tavimi pasitikėti?“ Bet kurio klasifikatoriaus prognozių paaiškinimas. arXiv. Skaityti daugiau

[5] Adebayo ir kt. (2018) – „Patikimumo žemėlapių patikra“. „ NeurIPS“ (PDF dokumentas). Skaityti daugiau

Raskite naujausią dirbtinį intelektą oficialioje dirbtinio intelekto asistentų parduotuvėje

Apie mus

Atgal į tinklaraštį

Šalis / regionas