Kas yra dirbtinio intelekto duomenų rinkinys?

Kas yra dirbtinio intelekto duomenų rinkinys?

Jei kuriate, perkate ar tiesiog vertinate dirbtinio intelekto sistemas, susidursite su vienu apgaulingai paprastu klausimu – kas yra dirbtinio intelekto duomenų rinkinys ir kodėl jis toks svarbus? Trumpai tariant: tai jūsų modelio kuras, receptų knyga ir kartais kompasas. 

Straipsniai, kuriuos galbūt norėsite perskaityti po šio:

🔗 Kaip dirbtinis intelektas prognozuoja tendencijas
Nagrinėjama, kaip dirbtinis intelektas analizuoja modelius, kad prognozuotų būsimus įvykius ir elgesį.

🔗 Kaip išmatuoti dirbtinio intelekto našumą
Tikslumo, efektyvumo ir modelio patikimumo vertinimo metrikos ir metodai.

🔗 Kaip kalbėtis su dirbtiniu intelektu
Gairės, kaip sukurti geresnę sąveiką, siekiant patobulinti dirbtinio intelekto generuojamus atsakymus.

🔗 Kas yra dirbtinio intelekto raginimas?
Apžvalga, kaip raginimai formuoja dirbtinio intelekto rezultatus ir bendrą komunikacijos kokybę.


Kas yra dirbtinio intelekto duomenų rinkinys? Trumpas apibrėžimas 🧩

Kas yra dirbtinio intelekto duomenų rinkinys? Tai pavyzdžių, iš kurių jūsų modelis mokosi arba yra vertinamas, rinkinys. Kiekvienas pavyzdys turi:

  • Įvesties duomenys – modelio matomos funkcijos, pvz., teksto fragmentai, vaizdai, garso įrašai, lentelių eilutės, jutiklių rodmenys, grafikai.

  • Tikslai – tai žymos arba rezultatai, kuriuos modelis turėtų numatyti, pvz., kategorijos, skaičiai, teksto apimtys, veiksmai arba kartais visai nieko.

  • Metaduomenys – kontekstas, pvz., šaltinis, rinkimo metodas, laiko žymos, licencijos, sutikimo informacija ir pastabos apie kokybę.

Įsivaizduokite tai kaip kruopščiai supakuotą pietų dėžutę savo modeliui: ingredientai, etiketės, maistingumo faktai ir, žinoma, lipnus lapelis su užrašu „šios dalies nevalgykite“. 🍱

Prižiūrimoms užduotims matysite įvestis, susietas su aiškiomis etiketėmis. Neprižiūrimoms užduotims matysite įvestis be etikečių. Pastiprinamojo mokymosi atveju duomenys dažnai atrodo kaip epizodai arba trajektorijos su būsenomis, veiksmais, atlygiais. Daugiarūšio darbo pavyzdžiuose tekstas + vaizdas + garsas gali būti sujungti viename įraše. Skamba prabangiai; dažniausiai tai santechnika.

Naudingi pradmenys ir praktika: duomenų lapų idėja duomenų rinkiniams padeda komandoms paaiškinti, kas yra viduje ir kaip tai turėtų būti naudojama [1], o modelių kortelės papildo duomenų dokumentaciją modelio pusėje [2].

 

DI duomenų rinkinys

Kas sudaro gerą dirbtinio intelekto duomenų rinkinį ✅

Būkime atviri, daugelis modelių sėkmingi, nes duomenų rinkinys nebuvo blogas. „Geras“ duomenų rinkinys yra:

  • Atspindi realius naudojimo atvejus, o ne tik laboratorines sąlygas.

  • Tiksliai paženklinta , su aiškiomis gairėmis ir periodiškais sprendimais. Sutarimo metrikos (pvz., „kappa“ stiliaus priemonės) padeda patikrinti nuoseklumą.

  • Pakankamai išbaigtas ir subalansuotas , kad būtų išvengta tylaus gedimo ilgose uodegose. Disbalansas yra normalu; aplaidumas – ne.

  • Kilmė aiški , su sutikimu, licencija ir dokumentuotais leidimais. Nuobodūs dokumentai užkerta kelią įdomiems teisminiams ginčams.

  • Gerai dokumentuota naudojant duomenų korteles arba duomenų lapus, kuriuose nurodytas numatytas naudojimas, ribos ir žinomi gedimų režimai [1]

  • Valdoma versijų kūrimu, pakeitimų žurnalais ir patvirtinimais. Jei negalite atkurti duomenų rinkinio, negalite atkurti ir modelio. NIST dirbtinio intelekto rizikos valdymo sistemos duomenų kokybė ir dokumentacija laikomi svarbiausiais rūpesčiais [3].


Dirbtinio intelekto duomenų rinkinių tipai pagal tai, ką darote 🧰

Pagal užduotį

  • Klasifikacija – pvz., šlamštas ir ne šlamštas, vaizdų kategorijos.

  • Regresija – numatyti tolydžiąją reikšmę, pvz., kainą ar temperatūrą.

  • Sekos žymėjimas – įvardyti subjektai, kalbos dalys.

  • Karta – santrauka, vertimas, paveikslėlių subtitrai.

  • Rekomendacija – naudotojas, elementas, sąveikos, kontekstas.

  • Anomalijų aptikimas – reti įvykiai laiko eilutėse arba žurnaluose.

  • Pastiprinimo mokymasis – būsena, veiksmas, atlygis, kita būsena sekos.

  • Paieška – dokumentai, užklausos, aktualumo vertinimai.

Pagal modalumą

  • Lentelėje – stulpeliai, tokie kaip amžius, pajamos, darbuotojų kaita. Nepakankamai įvertintas, žiauriai efektyvus.

  • Tekstas – dokumentai, pokalbiai, kodas, forumo įrašai, produktų aprašymai.

  • Vaizdai – nuotraukos, medicininiai skenavimai, palydovinės išklotinės; su kaukėmis arba be jų, langeliai, pagrindiniai taškai.

  • Garsas – bangų formos, transkriptai, kalbėtojų žymos.

  • Vaizdo įrašas – kadrai, laiko anotacijos, veiksmų žymos.

  • Grafai – mazgai, briaunos, atributai.

  • Laiko eilutės – jutikliai, finansai, telemetrija.

Prižiūrint

  • Paženklintas (aukso, sidabro, automatiškai paženklintas), silpnai paženklintas , neženklintas , sintetinis . Parduotuvėje pirktas pyrago mišinys gali būti neblogas – jei atidžiai perskaitysite ant pakuotės.


Dėžutės viduje: struktūra, skaidymai ir metaduomenys 📦

Tvirtas duomenų rinkinys paprastai apima:

  • Schema – tipizuoti laukai, vienetai, leistinos reikšmės, nulinių reikšmių apdorojimas.

  • Padalijimai – mokymas, patvirtinimas, testavimas. Testavimo duomenis laikykite sandariai uždarytus – elkitės su jais kaip su paskutiniu šokolado gabalėliu.

  • Imties planas – kaip rinkote pavyzdžius iš populiacijos; venkite patogiųjų imčių iš vieno regiono ar įrenginio.

  • Papildymai – apvertimai, apkarpymai, triukšmas, perfrazavimas, kaukės. Geri, kai sąžiningi; žalingi, kai išranda modelius, kurie niekada nepasikartoja gamtoje.

  • Versijų kūrimas – duomenų rinkinys v0.1, v0.2… su pakeitimų žurnalais, kuriuose aprašomos skirtumų reikšmės.

  • Licencijos ir sutikimas – naudojimo teisės, platinimas ir ištrynimo srautai. Nacionalinės duomenų apsaugos reguliavimo institucijos (pvz., JK ICO) pateikia praktiškus, teisėto tvarkymo kontrolinius sąrašus [4].


Duomenų rinkinio gyvavimo ciklas, žingsnis po žingsnio 🔁

  1. Apibrėžkite sprendimą – ką nuspręs modelis ir kas nutiks, jei jis bus neteisingas.

  2. Taikymo srities ypatybės ir žymos – išmatuojami, stebimi, etiški rinkti.

  3. Šaltinių duomenys – instrumentai, žurnalai, apklausos, viešieji korpusai, partneriai.

  4. Sutikimas ir teisiniai aspektai – privatumo pranešimai, atsisakymas teikti informaciją, duomenų kiekio mažinimas. Žr. reguliavimo institucijos gaires, kuriose paaiškinta „kodėl“ ir „kaip“ [4].

  5. Rinkti ir saugoti – saugus saugojimas, prieiga pagal vaidmenis, asmeninių duomenų tvarkymas.

  6. Žymė – vidiniai komentatoriai, sutelktinis finansavimas, ekspertai; kokybės valdymas naudojant aukso užduotis, auditus ir susitarimų metriką.

  7. Išvalyti ir normalizuoti – pašalinti pasikartojimus, tvarkyti trūkumus, standartizuoti vienetus, pataisyti kodavimą. Nuobodus, herojiškas darbas.

  8. Padalinkite ir patvirtinkite – užkirskite kelią duomenų nutekėjimui; stratifikuokite, jei reikia; pirmenybę teikite laiko atžvilgiu suskirstytam laikui laikinių duomenų atveju; ir apgalvotai naudokite kryžminį patvirtinimą patikimiems įverčiams gauti [5].

  9. Dokumentas – duomenų lapas arba duomenų kortelė; numatytas naudojimas, įspėjimai, apribojimai [1].

  10. Stebėjimas ir atnaujinimas – dreifo aptikimas, atnaujinimo dažnis, galiojimo pabaigos planai. NIST dirbtinio intelekto RMF įrėmina šį nuolatinį valdymo ciklą [3].

Greitas, realiame pasaulyje pritaikomas patarimas: komandos dažnai „laimi demonstracinį testą“, bet stringa gamyboje, nes jų duomenų rinkinys tyliai kinta – atsiranda naujų produktų linijų, pervadintas laukas arba pasikeičia politika. Paprastas pakeitimų žurnalas ir periodiškas pakartotinis anotavimas padeda išvengti daugumos šių problemų.


Duomenų kokybė ir vertinimas – ne taip nuobodu, kaip skamba 🧪

Kokybė yra daugialypė:

  • Tikslumas – ar etiketės teisingos? Naudokite sutarimo metriką ir periodinį vertinimą.

  • Išsamumas – aprėpkite sritis ir klases, kurių jums tikrai reikia.

  • Nuoseklumas – venkite prieštaringų etikečių panašiems įvesties duomenims.

  • Savalaikiškumas – pasenę duomenys suakmenina prielaidas.

  • Sąžiningumas ir šališkumas – aprėptis įvairiose demografinėse grupėse, kalbose, įrenginiuose, aplinkose; pradėti nuo aprašomųjų auditų, o tada – nuo ​​testų nepalankiausiomis sąlygomis. Dokumentacijai pirmiausia taikomos praktikos (duomenų lapai, modelių kortelės) šiuos patikrinimus padaro matomus [1], o valdymo sistemos juos pabrėžia kaip rizikos kontrolės priemones [3].

Modelio vertinimui naudokite tinkamus padalijimus ir sekite tiek vidutinius, tiek blogiausios grupės rodiklius. Puikus vidurkis gali paslėpti spragas. Kryžminio patvirtinimo pagrindai yra gerai aprašyti standartiniuose ML įrankių dokumentuose [5].


Etika, privatumas ir licencijavimas – apsauginiai turėklai 🛡️

Etiniai duomenys nėra vibracija, tai procesas:

  • Sutikimas ir tikslo apribojimas – aiškiai nurodykite naudojimo būdus ir teisinius pagrindus [4].

  • Asmeniškai identifikuojamų duomenų tvarkymas – atitinkamai sumažinkite, pseudonimizuokite arba anonimizuokite; kai rizika yra didelė, apsvarstykite privatumo didinimo technologijų naudojimą.

  • Priskyrimas ir licencijos – laikykitės bendrinimo panašiais tikslais ir komercinio naudojimo apribojimų.

  • Šališkumas ir žala – klaidingų koreliacijų auditas („dienos šviesa = saugu“ naktį bus labai painu).

  • Teisinė gynyba – žinokite, kaip pašalinti duomenis gavus prašymą ir kaip atšaukti su jais apmokytus modelius (dokumentuokite tai savo duomenų lape) [1].


Koks dydis yra pakankamai didelis? Dydis ir signalo bei triukšmo santykis 📏

Nykščio taisyklė: daugiau pavyzdžių paprastai padeda , jei jie yra aktualūs ir beveik nesikartoja. Tačiau kartais geriau turėti mažiau, aiškesnių, geriau paženklintų pavyzdžių nei kalnus netvarkingų pavyzdžių.

Stebėkite:

  • Mokymosi kreivės – nubraižykite našumo ir imties dydžio palyginimą, kad pamatytumėte, ar esate susieti su duomenimis, ar su modeliu.

  • Ilgalaikė aprėptis – retos, bet kritinės klasės dažnai reikalauja tikslinio rinkimo, o ne tik didesnio kiekio duomenų.

  • Pažymėkite triukšmą – išmatuokite, tada sumažinkite; nedidelis kiekis yra toleruojamas, potvynio banga – ne.

  • Pasiskirstymo poslinkis – mokymo duomenys iš vieno regiono ar kanalo gali būti neapibendrinami kitam; patvirtinkite juos su tiksliniais testo duomenimis [5].

Kilus abejonių, pabandykite atlikti nedidelius bandymus ir juos išplėsti. Tai kaip prieskonių – įberkite, paragaukite, pakoreguokite, pakartokite.


Kur rasti ir tvarkyti duomenų rinkinius 🗂️

Populiarūs ištekliai ir įrankiai (dabar nereikia įsiminti URL adresų):

  • „Hugging Face“ duomenų rinkiniai – programinis įkėlimas, apdorojimas, bendrinimas.

  • „Google“ duomenų rinkinio paieška – metapaieška internete.

  • UCI ML saugykla – kuruojami klasikiniai pradinių lygių ir mokymo metodai.

  • OpenML – užduotys + duomenų rinkiniai + paleidimai su kilme.

  • AWS atvirieji duomenys / „Google Cloud“ viešieji duomenų rinkiniai – talpinami, didelio masto korpusai.

Profesionalo patarimas: ne tik atsisiųskite. Perskaitykite licenciją ir duomenų lapą , tada dokumentuokite savo kopiją nurodydami versijų numerius ir kilmę [1].


Ženklinimas ir anotavimas – vieta, kur deramasi dėl tiesos ✍️

Anotacija yra ta vieta, kur jūsų teorinis etikečių vadovas grumiasi su realybe:

  • Užduoties planas – parašykite aiškias instrukcijas su pavyzdžiais ir priešingais pavyzdžiais.

  • Anotatorių mokymai – sėkite atsakymus auksu, atlikite kalibravimo ciklus.

  • Kokybės kontrolė – naudokite susitarimo metriką, konsensuso mechanizmus ir periodinius auditus.

  • Įrankiai – rinkitės įrankius, kurie užtikrina schemų patvirtinimą ir peržiūros eiles; net skaičiuoklės gali dirbti su taisyklėmis ir patikrinimais.

  • Grįžtamojo ryšio ciklai – fiksuokite komentatoriaus pastabas ir modeliuokite klaidas, kad patobulintumėte vadovą.

Jei jautiesi lyg redaguotum žodyną su trimis draugais, kurie nesutaria dėl kablelių... tai normalu. 🙃


Duomenų dokumentavimas – kaip aiškiai išreikšti numanomas žinias 📒

Supaprastintame duomenų lape arba duomenų kortelėje turėtų būti pateikta:

  • Kas jį surinko, kaip ir kodėl.

  • Numatytas naudojimas ir ne pagal taikymo sritį esantis naudojimas.

  • Žinomi trūkumai, šališkumas ir gedimo režimai.

  • Ženklinimo protokolas, kokybės užtikrinimo etapai ir sutarčių statistika.

  • Licencija, sutikimas, susisiekimas dėl problemų, pašalinimo procesas.

Šablonai ir pavyzdžiai: duomenų rinkinių ir modelių kortelių yra plačiai naudojami kaip atspirties taškai [1].

Rašykite kūrimo metu, o ne po to. Atmintis yra nepastovi laikmena.


Palyginimo lentelė – vietos, kur rasti arba talpinti dirbtinio intelekto duomenų rinkinius 📊

Taip, tai šiek tiek subjektyvi nuomonė. Ir formuluotės tyčia šiek tiek netolygios. Viskas gerai.

Įrankis / saugykla Auditorija Kaina Kodėl tai veikia praktikoje
Apkabinančių veidų duomenų rinkiniai Tyrėjai, inžinieriai Laisvas lygis Greitas įkėlimas, transliacija, bendruomenės scenarijai; puikūs dokumentai; versuoti duomenų rinkiniai
„Google“ duomenų rinkinių paieška Visi Nemokama Platus paviršiaus plotas; puikiai tinka atradimams; kartais nenuoseklūs metaduomenys
UCI ML saugykla Studentai, pedagogai Nemokama Kuruoti klasikiniai kūriniai; nedideli, bet tvarkingi; tinka pradiniams etapams ir mokymui
OpenML Reprodukcijos tyrėjai Nemokama Užduotys + duomenų rinkiniai + paleidimai kartu; gražūs kilmės pėdsakai
AWS atvirųjų duomenų registras Duomenų inžinieriai Dažniausiai nemokama Petabaitų masto talpinimas; prieiga debesijos pagrindu; stebėjimo išėjimo išlaidos
Kaggle duomenų rinkiniai Praktikai Nemokama Lengvas dalijimasis, scenarijai, konkursai; bendruomenės signalai padeda filtruoti triukšmą
„Google Cloud“ viešieji duomenų rinkiniai Analitikai, komandos Nemokama + debesis Talpinta netoli skaičiavimo sistemos; „BigQuery“ integracija; atsargus atsiskaitymas
Akademiniai portalai, laboratorijos Nišos ekspertai Skiriasi Labai specializuota; kartais nepakankamai dokumentuota – vis tiek verta paieškoti

(Jei langelis atrodo plepus, tai yra tyčia.)


Pirmojo namo statyba – praktiškas pradinis rinkinys 🛠️

Norite pereiti nuo „kas yra dirbtinio intelekto duomenų rinkinys“ prie „aš jį sukūriau, jis veikia“. Išbandykite šį minimalų kelią:

  1. Užrašykite sprendimą ir metriką , pvz., sumažinkite gaunamų palaikymo komandų netikslumus numatydami tinkamą komandą. Metrika: makro-F1.

  2. Pateikite 5 teigiamus ir 5 neigiamus pavyzdžius – pateikite tikrų bilietų pavyzdžių; nefabrikuokite jų.

  3. Parengti etikečių vadovą – vieną puslapį; aiškios įtraukimo / neįtraukimo taisyklės.

  4. Surinkite nedidelį, realų imties kiekį – kelis šimtus bilietų įvairiose kategorijose; pašalinkite nereikalingą asmeninę informaciją.

  5. Padalijimas su nuotėkio patikrinimais – visus to paties kliento pranešimus laikykite viename padalijime; dispersijai įvertinti naudokite kryžminį patikrinimą [5].

  6. Anotuok su QA – du komentatoriai poaibyje; išspręsk nesutarimus; atnaujink vadovą.

  7. Apmokykite paprastą bazinę liniją – pirmiausia logistiką (pvz., linijinius modelius arba kompaktiškus transformatorius). Esmė yra išbandyti duomenis, o ne laimėti medalius.

  8. Peržiūrėkite klaidas – kur nepavyksta ir kodėl; atnaujinkite duomenų rinkinį, o ne tik modelį.

  9. Dokumentas – mažas duomenų lapas: šaltinis, etikečių vadovo nuoroda, skaidymai, žinomos ribos, licencija [1].

  10. Planuokite atnaujinimą – atsiranda naujų kategorijų, naujas slengas, nauji domenai; suplanuokite nedidelius, dažnus atnaujinimus [3].

Iš šios serijos sužinosite daugiau nei iš tūkstančio pakartotinių bandymų. Taip pat, prašau, išsaugokite atsargines kopijas.


Dažnos klaidos, kurios tyko komandose 🪤

  • Duomenų nutekėjimas – atsakymas praslysta funkcijose (pvz., naudojant po sprendimo gautus laukus rezultatams numatyti). Jaučiasi kaip sukčiavimas, nes taip ir yra.

  • Sekli įvairovė – viena geografija ar įrenginys maskuojasi kaip pasaulinis. Testai atskleis siužeto vingį.

  • Etikečių pokytis – kriterijai laikui bėgant keičiasi, bet etikečių vadovas – ne. Dokumentuokite ir versijuokite savo ontologiją.

  • Nepakankamai apibrėžti tikslai – jei negalite apibrėžti blogos prognozės, jūsų duomenys taip pat negalės to padaryti.

  • Netvarkingos licencijos – dabar skinkyti, o vėliau atsiprašyti – ne strategija.

  • Per didelis papildymas – sintetiniai duomenys, kurie moko nerealistiškų artefaktų, pavyzdžiui, apmokyti virėją valgyti plastikinius vaisius.


Greiti DUK apie pačią frazę ❓

  • Ar „Kas yra dirbtinio intelekto duomenų rinkinys?“ yra tik apibrėžimas? Dažniausiai tai taip pat signalas, kad jums rūpi nuobodžios detalės, kurios užtikrina modelių patikimumą.

  • Ar man visada reikia etikečių? Ne. Neprižiūrimos, savarankiškai prižiūrimos ir RL konfigūracijos dažnai praleidžia aiškias etiketes, tačiau kuravimas vis tiek svarbus.

  • Ar galiu naudoti viešuosius duomenis bet kam? Ne. Gerbkite licencijas, platformos sąlygas ir privatumo įsipareigojimus [4].

  • Didesnis ar geresnis? Idealiu atveju abu. Jei jau reikia rinktis, pirmiausia rinkitės geresnį.


Baigiamosios pastabos – ką galite padaryti ekrano kopijoje 📌

Jei kas nors jūsų paklaus, kas yra dirbtinio intelekto duomenų rinkinys , atsakykite: tai kuruojamas, dokumentuotas pavyzdžių rinkinys, kuris moko ir testuoja modelį, apimantis valdymo principus, kad žmonės galėtų pasitikėti rezultatais. Geriausi duomenų rinkiniai yra reprezentatyvūs, gerai paženklinti, teisiškai švarūs ir nuolat prižiūrimi. Visa kita yra detalės – svarbios detalės – apie struktūrą, skaidymus ir visus tuos mažus apsauginius turėklus, kurie neleidžia modeliams nuklysti į srautą. Kartais procesas atrodo kaip sodininkystė su skaičiuoklėmis; kartais – kaip pikselių banda. Bet kuriuo atveju investuokite į duomenis, ir jūsų modeliai elgsis mažiau keistai. 🌱🤖


Nuorodos

[1] Duomenų rinkinių lapai – Gebru ir kt., arXiv. Nuoroda
[2] Modelių kortelės modelių ataskaitoms – Mitchell ir kt., arXiv. Nuoroda
[3] NIST dirbtinio intelekto rizikos valdymo sistema (AI RMF 1.0) . Nuoroda
[4] JK BDAR gairės ir ištekliai – Informacijos komisaro biuras (ICO). Nuoroda
[5] Kryžminis patvirtinimas: įverčių našumo vertinimas – „scikit-learn“ naudotojo vadovas. Nuoroda


Raskite naujausią dirbtinį intelektą oficialioje dirbtinio intelekto asistentų parduotuvėje

Apie mus

Atgal į tinklaraštį