Kas yra dirbtinio intelekto duomenų ženklinimas?

Kas yra dirbtinio intelekto duomenų ženklinimas?

Jei kuriate arba vertinate mašininio mokymosi sistemas, anksčiau ar vėliau susidursite su ta pačia kliūtimi: žymėtais duomenimis. Modeliai stebuklingai nežino, kas yra kas. Žmonės, politika ir kartais programos turi juos to išmokyti. Taigi, kas yra dirbtinio intelekto duomenų žymėjimas? Trumpai tariant, tai yra neapdorotų duomenų reikšmės suteikimo praktika, kad algoritmai galėtų iš jų mokytis... 😊

🔗 Kas yra dirbtinio intelekto etika?
Etikos principų, kuriais vadovaujamasi atsakingai kuriant ir diegiant dirbtinį intelektą, apžvalga.

🔗 Kas yra MCP dirbtiniame intelekte?
Paaiškina modelio valdymo protokolą ir jo vaidmenį valdant dirbtinio intelekto elgesį.

🔗 Kas yra kraštinis dirbtinis intelektas?
Aptariama, kaip dirbtinis intelektas apdoroja duomenis tiesiogiai periferiniuose įrenginiuose.

🔗 Kas yra agentinis dirbtinis intelektas
Pristatomi autonominiai dirbtinio intelekto agentai, gebantys planuoti, samprotauti ir savarankiškai veikti.


Kas iš tikrųjų yra DI duomenų ženklinimas? 🎯

Dirbtinio intelekto duomenų žymėjimas – tai procesas, kurio metu prie neapdorotų įvesties duomenų, tokių kaip tekstas, vaizdai, garso įrašai, vaizdo įrašai ar laiko eilutės, pridedamos žmonėms suprantamos žymos, intervalai, langeliai, kategorijos ar įvertinimai, kad modeliai galėtų aptikti modelius ir daryti prognozes. Įsivaizduokite ribojančius langelius aplink automobilius, objektų žymas ant žmonių ir vietų tekste arba balsavimo pirmenybę, kurio pokalbių roboto atsakymas atrodo naudingesnis. Be šių žymų klasikinis prižiūrimas mokymasis niekada neprasideda.

Taip pat išgirsite žymas, vadinamas „ground truth“ arba „gold data“ : sutarti atsakymai pagal aiškias instrukcijas, naudojami modelio elgsenai mokyti, patvirtinti ir audituoti. Net ir pamatinių modelių bei sintetinių duomenų amžiuje žymėti rinkiniai vis dar svarbūs vertinimui, tikslinimui, saugos raudonųjų komandų kūrimui ir ilgos uodegos krašto atvejams, t. y. kaip jūsų modelis elgiasi su keistais dalykais, kuriuos jūsų vartotojai iš tikrųjų daro. Jokių nemokamų pietų, tik geresni virtuvės įrankiai.

 

DI duomenų ženklinimas

Kas lemia gerą dirbtinio intelekto duomenų ženklinimą ✅

Paprastai tariant: geras ženklinimas yra nuobodus gerąja prasme. Jis atrodo nuspėjamas, kartojamas ir šiek tiek per daug dokumentuotas. Štai kaip tai atrodo:

  • Griežta ontologija : įvardytas klasių, atributų ir ryšių rinkinys, kuris jums rūpi.

  • Kristalų instrukcijos : praktiniai pavyzdžiai, priešingi pavyzdžiai, specialūs atvejai ir lygiųjų taisyklės.

  • Recenzentų ciklai : antra akių pora, stebinti užduočių dalį.

  • Sutarimo metrikos : anotatorių tarpusavio sutarimas (pvz., Coheno κ, Krippendorffo α), kad būtų matuojamas nuoseklumas, o ne vibracijos. α ypač naudingas, kai trūksta etikečių arba keli anotatoriai apima skirtingus elementus [1].

  • Sodininkystė kraštutiniais atvejais : reguliariai rinkite keistus, priešiškus ar tiesiog retus atvejus.

  • Šališkumo patikrinimai : tikrinkite duomenų šaltinius, demografinius rodiklius, regionus, tarmes, apšvietimo sąlygas ir kt.

  • Kilmė ir privatumas : stebėkite, iš kur gauti duomenys, kokios teisės juos naudoti ir kaip tvarkoma asmeninė informacija (kas laikoma asmenine informacija, kaip ją klasifikuojate ir kokios apsaugos priemonės) [5].

  • Atsiliepimai apie mokymą : etiketės negyvena skaičiuoklių kapinėse – jos padeda aktyviai mokytis, tikslinti duomenis ir atlikti vertinimus.

Mažas prisipažinimas: savo gaires perrašysite kelis kartus. Tai normalu. Kaip ir troškinio pagardinimas, mažas pakeitimas labai padeda.

Trumpas pavyzdys: viena komanda savo vartotojo sąsajoje pridėjo vieną „negaliu nuspręsti – reikia politikos“ parinktį. Sutarimas padidėjo, nes komentatoriai nustojo versti spėlioti, o sprendimų žurnalas per naktį tapo aiškesnis. Nuobodžios pergalės.


Palyginimo lentelė: įrankiai DI duomenų žymėjimui 🔧

Nesudarytas išsamus sąrašas, ir taip, formuluotės yra šiek tiek neaiškios. Kainų skirtumai – prieš sudarydami biudžetą, visada pasitikrinkite juos tiekėjų svetainėse.

Įrankis Geriausiai tinka Kainos stilius (orientacinis) Kodėl tai veikia
Etikečių dėžutė Įmonės, CV + NLP derinys Naudojimo pagrindu veikiantis nemokamas lygis Puikūs kokybės užtikrinimo (QA) darbo eigos, ontologijos ir metrikos; gana gerai susidoroja su mastelio keitimu.
AWS SageMaker Ground Truth AWS centrinės organizacijos, HITL kanalai Užduotis + AWS naudojimas Tvirtai suderintos su AWS paslaugomis, žmogaus valdomomis parinktimis, patikimais infrastruktūros kabliais.
Mastelio dirbtinis intelektas Sudėtingos užduotys, valdoma darbo jėga Individualus pasiūlymas, pakopinis Daug kontaktų reikalaujančios paslaugos ir įrankiai; stiprios operacijos sudėtingiems atvejams.
SuperAnnotate Vizijomis paremtos komandos, startuoliai Pakopos, nemokamas bandomasis laikotarpis Patobulinta vartotojo sąsaja, bendradarbiavimas, naudingi modeliu paremti įrankiai.
Vulverūnas Kūrėjai, norintys vietinio valdymo Visą gyvenimą galiojanti licencija vienai vietai Palaiko scenarijus, greiti ciklai, greiti receptai – veikia lokaliai; puikiai tinka NLP.
Doccano Atvirojo kodo NLP projektai Nemokamas, atvirojo kodo Bendruomenės valdomas, lengvai diegiamas, tinka klasifikavimui ir sekos nustatymui

Kainodaros modelių realybės patikrinimas : tiekėjai derina vartojimo vienetus, mokesčius už užduotį, pakopas, individualias įmonių kainas, vienkartines licencijas ir atvirojo kodo programas. Politika keičiasi; prieš pirkimų skyriui įvedant skaičius į skaičiuoklę, tiesiogiai patikrinkite konkrečius duomenis su tiekėjo dokumentais.


Įprasti etikečių tipai su greitais mentaliniais vaizdiniais 🧠

  • Vaizdo klasifikacija : vienos arba kelių etikečių žymės visam vaizdui.

  • Objektų aptikimas : ribojantys langeliai arba pasukti langeliai aplink objektus.

  • Segmentavimas : pikselių lygio kaukės – egzempliorius arba semantika; keistai patenkinamas rezultatas, kai švarus.

  • Pagrindiniai taškai ir pozos : orientyrai, pavyzdžiui, sąnariai ar veido taškai.

  • NLP : dokumentų žymės, įvardytų objektų aprėptys, ryšiai, pagrindinės nuorodos, atributai.

  • Garsas ir kalba : transkripcija, kalbėtojo dienoraščio įrašymas, ketinimų žymos, akustiniai įvykiai.

  • Vaizdo įrašas : kadrais suskirstyti langeliai arba takeliai, laiko įvykiai, veiksmų žymės.

  • Laiko eilutės ir jutikliai : langiniai įvykiai, anomalijos, tendencijų režimai.

  • Generatyvūs darbo eigos procesai : pageidavimų reitingavimas, saugos raudonos vėliavėlės, teisingumo vertinimas, vertinimas pagal rubrikas.

  • Paieška ir RAG : užklausos ir dokumento aktualumas, atsakomumas, paieškos klaidos.

Jei vaizdas yra pica, segmentavimas – tai kiekvieno gabalėlio tobulas supjaustymas, o aptikimas – nurodymas ir pranešimas, kad kažkur ten yra gabalėlis.


Darbo eigos anatomija: nuo trumpų iki auksinių duomenų 🧩

Tvirtas ženklinimo vamzdynas paprastai laikosi šios formos:

  1. Apibrėžkite ontologiją : klases, atributus, ryšius ir leistinus dviprasmybes.

  2. Gairių projektas : pavyzdžiai, kraštutiniai atvejai ir sudėtingi priešingi pavyzdžiai.

  3. Pažymėkite bandomąjį rinkinį : gaukite kelis šimtus pavyzdžių su komentarais, kad rastumėte skyles.

  4. Matavimo sutapimas : apskaičiuokite κ/α; koreguokite instrukcijas, kol anotatoriai sutaps [1].

  5. Kokybės užtikrinimo (QA) planas : balsavimas bendru sutarimu, sprendimų priėmimas, hierarchinė peržiūra ir atsitiktiniai patikrinimai.

  6. Gamybos etapai : stebėti našumą, kokybę ir poslinkį.

  7. Uždarykite ciklą : modeliui ir produktui tobulėjant, iš naujo apmokykite, iš naujo imkite pavyzdžius ir atnaujinkite vertinimo kriterijus.

Patarimas, už kurį vėliau sau padėkosite: veskite gyvą sprendimų žurnalą . Užsirašykite kiekvieną pridedamą paaiškinančią taisyklę ir kodėl . Ateityje – pamiršite kontekstą. Ateityje – būsite dėl to irzlūs.


Žmogus-kūnas procese, silpna priežiūra ir „daugiau etikečių, mažiau paspaudimų“ mąstysena 🧑💻🤝

Žmogus bendradarbiaujant (angl. Human-in-the-loop, HITL) reiškia, kad žmonės bendradarbiauja su modeliais mokymo, vertinimo ar realių operacijų metu – patvirtindami, taisydami modelių pasiūlymus arba susilaikydami nuo jų. Naudokite jį greičiui padidinti, tuo pačiu išlaikant žmones atsakingus už kokybę ir saugą. HITL yra pagrindinė patikimo dirbtinio intelekto rizikos valdymo (žmogaus priežiūra, dokumentavimas, stebėsena) praktika [2].

Silpna priežiūra yra kitoks, bet vienas kitą papildantis triukas: programinės taisyklės, euristika, nuotolinė priežiūra ar kiti triukšmingi šaltiniai generuoja preliminarias etiketes dideliu mastu, o tada jas pašalina. Duomenų programavimas išpopuliarino daugelio triukšmingų etikečių šaltinių (dar vadinamų ženklinimo funkcijomis ) derinimą ir jų tikslumo mokymąsi, siekiant sukurti aukštesnės kokybės mokymo rinkinį [3].

Praktiškai didelio greičio komandos derina visus tris aspektus: rankines žymas aukso rinkiniams, silpną priežiūrą pradiniam paleidimui ir HITL, kad paspartintų kasdienį darbą. Tai ne sukčiavimas. Tai amatas.


Aktyvus mokymasis: išsirinkite kitą geriausią dalyką, kurį norite pažymėti 🎯📈

Aktyvus mokymasis apverčia įprastą srautą. Užuot atsitiktinai atrinkę duomenis žymėjimui, leidžiate modeliui prašyti informatyviausių pavyzdžių: didelis neapibrėžtumas, dideli nesutarimai, įvairūs atstovai arba taškai, esantys netoli sprendimo ribos. Tinkamai sudarius imtį, sumažinamas žymėjimo švaistymas ir sutelkiamas dėmesys į poveikį. Šiuolaikinės apklausos, apimančios gilų aktyvų mokymąsi, rodo gerus rezultatus su mažiau žymėjimų, kai orakulinis ciklas yra gerai suprojektuotas [4].

Paprastas receptas, nuo kurio galite pradėti, be jokių dramų:

  • Treniruokitės su mažu sėklų rinkiniu.

  • Įvertinkite nepaženklintą telkinį.

  • Pasirinkite didžiausią K pagal neapibrėžtumą arba modelio nesutarimus.

  • Pažymėkite. Permokykite. Pakartokite nedidelėmis partijomis.

  • Stebėkite patvirtinimo kreives ir atitikimo metriką, kad nesivaikytumėte triukšmo.

Suprasite, kad tai veikia, kai jūsų modelis pagerės, o mėnesinės ženklinimo išlaidos nepadvigubės.


Kokybės kontrolė, kuri iš tikrųjų veikia 🧪

Jums nereikia virinti vandenyno. Atlikite šiuos patikrinimus:

  • Auksiniai klausimai : įterpkite žinomus elementus ir stebėkite kiekvieno etikečių kūrėjo tikslumą.

  • Konsensusas dėl sprendimo : dvi nepriklausomos etiketės ir recenzentas dėl nesutarimų.

  • Anotatorių tarpusavio sutarimas : naudokite α, kai turite kelis anotacijas arba nepilnas žymas, κ poroms; nepersistenkite su vienu slenksčiu – kontekstas yra svarbus [1].

  • Gairių pataisymai : pasikartojančios klaidos paprastai reiškia dviprasmiškus nurodymus, o ne blogus anotacijas.

  • Poslinkio patikrinimai : palyginkite etikečių pasiskirstymą pagal laiką, geografiją, įvesties kanalus.

Jei pasirinksite tik vieną rodiklį, rinkitės sutapimą. Tai greitas sveikatos signalas. Šiek tiek ydinga metafora: jei jūsų žymekliai nėra suderinti, jūsų modelis veikia ant nestabilių ratų.


Darbo jėgos modeliai: vidinis, BPO, minios arba hibridinis 👥

  • Vidinis : geriausiai tinka jautriems duomenims, subtilioms sritims ir greitam tarpfunkciniam mokymuisi.

  • Specializuoti tiekėjai : pastovus pralaidumas, apmokyti kokybės užtikrinimo specialistai ir aprėptis įvairiose laiko juostose.

  • Minios finansavimo paslaugos : nebrangios užduotys, bet reikės stiprių aukso pozicijų ir šlamšto kontrolės.

  • Hibridinis : išlaikykite pagrindinę ekspertų komandą ir išnaudokite išorinius pajėgumus.

Kad ir ką pasirinktumėte, investuokite į pradinius bandymus, gairių mokymus, kalibravimo etapus ir dažną grįžtamąjį ryšį. Pigios etiketės, kurios verčia jas keisti tris kartus, nėra pigios.


Kaina, laikas ir investicijų grąža: greita realybės patikra 💸⏱️

Išlaidos suskirstomos į darbo jėgą, platformą ir kokybės užtikrinimą. Apytiksliam planavimui susikurkite savo produktų ir paslaugų teikimo planą taip:

  • Pralaidumo tikslas : elementų skaičius per dieną vienam etikečių spausdintuvui × etikečių spausdintuvai.

  • QA pridėtinės išlaidos : dvigubai pažymėtų arba peržiūrėtų elementų procentas.

  • Perdirbimo dažnis : biudžetas pakartotiniam anotavimui po gairių atnaujinimų.

  • Automatizavimo kėlimas : modeliu paremtos išankstinės etiketės arba programinės taisyklės gali reikšmingai (ne stebuklingai, bet reikšmingai) sumažinti rankinį darbą.

Jei viešųjų pirkimų skyrius prašo pateikti skaičių, pateikite jiems modelį, o ne spėjimą, ir nuolat jį atnaujinkite, kol jūsų gairės taps stabilios.


Spąstai, į kuriuos pateksite bent kartą, ir kaip jų išvengti 🪤

  • Instrukcijų plitimas : gairės virsta novele. Pataisykite jas sprendimų medžiais ir paprastais pavyzdžiais.

  • Klasių išsipūtimas : per daug klasių su neaiškiomis ribomis. Sujunkite arba apibrėžkite griežtą „kitą“ naudodami politiką.

  • Per didelis indeksavimas pagal greitį : skubotos etiketės tyliai kenkia mokymo duomenims. Įterpkite auksines vertes; apribokite blogiausius nuolydžius.

  • Įrankio užrakinimas : greiti eksporto formatai. Iš anksto nuspręskite dėl JSONL schemų ir idempotentinių elementų ID.

  • Įvertinimo ignoravimas : jei pirmiausia nepažymėsite „eval“ rinkinio, niekada nežinosite, kas pagerėjo.

Būkime atviri, retkarčiais atsitrauksi. Tai gerai. Visa gudrybė – užsirašyti tą atsitraukimą, kad kitą kartą tai būtų sąmoningai.


Trumpi DUK: greiti ir sąžiningi atsakymai 🙋♀️

K: Ženklinimas ir anotavimas – ar jie skiriasi?
A: Praktiškai žmonės juos vartoja kaip sinonimus. Anotavimas yra žymėjimo arba žymėjimo veiksmas. Ženklinimas dažnai reiškia tiesos sampratą, kokybės užtikrinimą ir gaires. Bulvė, bulvė.

K: Ar galiu praleisti ženklinimą naudodamas sintetinius duomenis arba savikontrolę?
A: Galite sumažinti , bet ne praleisti. Jums vis tiek reikia paženklintų duomenų vertinimui, apsauginiams barjerams, tiksliam derinimui ir su produktu susijusiam elgesiui. Silpna priežiūra gali padidinti jūsų galimybes, kai vien rankinio ženklinimo nepakanka [3].

K: Ar man vis tiek reikia kokybės metrikų, jei mano recenzentai yra ekspertai?
A: Taip. Ekspertai taip pat nesutaria. Naudokite sutapimo metrikas (κ/α), kad surastumėte neaiškius apibrėžimus ir dviprasmiškas klases, o tada sugriežtinkite ontologiją ar taisykles [1].

K: Ar žmogaus įtraukimas į procesą yra tik rinkodara?
A: Ne. Tai praktinis modelis, kai žmonės vadovauja, taiso ir vertina modelio elgesį. Tai rekomenduojama patikimose dirbtinio intelekto rizikos valdymo praktikose [2].

K: Kaip nustatyti, ką toliau žymėti?
A: Pradėkite nuo aktyvaus mokymosi: imkite pačius neapibrėžčiausius arba įvairiausius pavyzdžius, kad kiekvienas naujas žymėjimas maksimaliai pagerintų modelį [4].


Lauko užrašai: maži dalykai, kurie daro didelį skirtumą ✍️

  • Savo saugykloje laikykite gyvą taksonomijos

  • Išsaugokite „prieš“ ir „po“ pavyzdžius, kai atnaujinate gaires.

  • Sukurkite mažytį, tobulą aukso rinkinį ir apsaugokite jį nuo užteršimo.

  • Keisti kalibravimo sesijas : rodyti 10 elementų, tyliai pažymėti, palyginti, aptarti, atnaujinti taisykles.

  • Stebėjimo etikečių analitikos malonūs rezultatai – patikimi ataskaitų suvestinės, jokios gėdos. Rasite mokymo galimybių, o ne piktadarių.

  • pridėkite modeliu pagrįstus pasiūlymus . Jei išankstinės etiketės yra neteisingos, jos sulėtina žmones. Jei jos dažnai būna teisingos, tai stebuklinga.


Baigiamosios pastabos: etiketės yra jūsų produkto atmintis 🧩💡

Kas iš esmės yra dirbtinio intelekto duomenų ženklinimas? Tai jūsų būdas nuspręsti, kaip modelis turėtų matyti pasaulį, priimant vieną kruopštų sprendimą vienu metu. Padarykite tai gerai ir viskas vėliau taps lengviau: didesnis tikslumas, mažiau regresijų, aiškesnės diskusijos apie saugumą ir šališkumą, sklandesnis pristatymas. Padarykite tai nerūpestingai ir nuolat klausinėsite, kodėl modelis elgiasi netinkamai – kai atsakymas jau bus jūsų duomenų rinkinyje su netinkamu pavadinimu. Ne viskam reikia didžiulės komandos ar modernios programinės įrangos, bet viskam reikia priežiūros.

Per ilgai neskaičiau : investuokite į aiškią ontologiją, parašykite aiškias taisykles, išmatuokite atitikimą, derinkite rankines ir programines žymas ir leiskite aktyviam mokymuisi pasirinkti kitą geriausią elementą. Tada kartokite. Vėl. Ir vėl... ir, keista, jums patiks. 😄


Nuorodos

[1] Artstein, R. ir Poesio, M. (2008). Tarpprogramių suderinamumas skaičiuojamojoje lingvistikoje . Skaičiuojamoji lingvistika, 34(4), 555–596. (Aptariama κ/α ir kaip interpretuoti suderinamumą, įskaitant trūkstamus duomenis.)
PDF

[2] NIST (2023). Dirbtinio intelekto rizikos valdymo sistema (AI RMF 1.0) . (Žmogaus priežiūra, dokumentavimas ir rizikos kontrolė patikimam DI.)
PDF

[3] Ratner, AJ, De Sa, C., Wu, S., Selsam, D. ir Ré, C. (2016). Duomenų programavimas: greitas didelių mokymo rinkinių kūrimas . „NeurIPS“. (Pagrindinis silpnos priežiūros ir triukšmingų etikečių šalinimo metodas.)
PDF

[4] Li, D., Wang, Z., Chen, Y. ir kt. (2024). Giluminio aktyvaus mokymosi tyrimas: naujausi pasiekimai ir naujos ribos . (Įrodymai ir modeliai, skirti efektyviai naudoti žymas aktyviam mokymuisi.)
PDF

[5] NIST (2010). SP 800-122: Asmeniškai identifikuojamos informacijos (PII) konfidencialumo apsaugos vadovas . (Kas laikoma PII ir kaip ją apsaugoti duomenų sraute.)
PDF

Raskite naujausią dirbtinį intelektą oficialioje dirbtinio intelekto asistentų parduotuvėje

Apie mus

Atgal į tinklaraštį