Kas yra kompiuterinis matymas dirbtiniame intelekte?

Kas yra kompiuterinė rega dirbtiniame intelekte?

Jei kada nors atrakinote telefoną veido atpažinimo funkcija, nuskaitėte kvitą ar spoksojote į savitarnos kasos kamerą ir svarstėte, ar ji vertina jūsų avokadą, tikriausiai esate susidūrę su kompiuterine rega. Paprastai tariant, kompiuterinė rega dirbtiniame intelekte yra tai, kaip mašinos išmoksta matyti ir suprasti vaizdus bei vaizdo įrašus pakankamai gerai, kad galėtų priimti sprendimus. Naudinga? Be abejo. Kartais stebina? Taip pat taip. O kartais, jei būsime atviri, šiek tiek šiurpi. Geriausiu atveju ji paverčia netvarkingus pikselius praktiškais veiksmais. Blogiausiu atveju – spėlioja ir svyruoja. Panagrinėkime išsamiau.

Straipsniai, kuriuos galbūt norėsite perskaityti po šio:

🔗 Kas yra dirbtinio intelekto šališkumas?
Kaip dirbtinio intelekto sistemose susidaro šališkumas ir kaip jį aptikti bei sumažinti.

🔗 Kas yra nuspėjamasis dirbtinis intelektas?
Kaip nuspėjamasis dirbtinis intelektas naudoja duomenis tendencijoms ir rezultatams numatyti.

🔗 Kas yra dirbtinio intelekto instruktorius? Kokios yra
dirbtinio intelekto mokymus atliekančių specialistų pareigos, įgūdžiai ir įrankiai?

🔗 Kas yra „Google Vertex AI“?
„Google“ vieningos DI platformos, skirtos modeliams kurti ir diegti, apžvalga.


Kas tiksliai yra kompiuterinė rega dirbtiniame intelekte? 📸

Kompiuterinė rega dirbtiniame intelekte yra dirbtinio intelekto šaka, kuri moko kompiuterius interpretuoti ir samprotauti apie vaizdinius duomenis. Tai procesas nuo neapdorotų pikselių iki struktūrizuotos reikšmės: „tai STOP ženklas“, „tie pėstieji“, „suvirinimo siūlė brokuota“, „čia yra sąskaitos faktūros suma“. Jis apima tokias užduotis kaip klasifikavimas, aptikimas, segmentavimas, sekimas, gylio įvertinimas, OCR ir kt., sujungtas naudojant šablonų mokymosi modelius. Formali sritis apima klasikinę geometriją iki modernaus gilaus mokymosi, su praktinėmis vadovų sistemomis, kurias galite kopijuoti ir koreguoti [1].

Trumpas pasakojimas: įsivaizduokite pakavimo liniją su kuklia 720p kamera. Lengvas detektorius aptinka kamštelius, o paprastas sekiklis penkis kadrus iš eilės patvirtina, kad jie yra sulygiuoti, prieš uždegdamas žalią šviesą buteliui. Neįmantrus, bet pigus, greitas ir sumažina pakartotinio darbo poreikį.


Kuo naudingas kompiuterinis matymas dirbtiniame intelekte? ✅

  • Signalo ir veiksmo srautas : vaizdinė įvestis tampa veiksmą skatinančia išvestimi. Mažiau ataskaitų suvestinės, daugiau sprendimų.

  • Apibendrinimas : Turint tinkamus duomenis, vienas modelis gali apdoroti įvairiausius vaizdus. Ne idealiai, o kartais net stebėtinai gerai.

  • Duomenų svertas : Kameros yra pigios ir visur. Regėjimas paverčia tą pikselių vandenyną įžvalga.

  • Greitis : modeliai gali apdoroti kadrus realiuoju laiku, naudodami nedidelę aparatinę įrangą, arba beveik realiuoju laiku, priklausomai nuo užduoties ir skiriamosios gebos.

  • Suderinamumas : Paprastus veiksmus sujunkite į patikimas sistemas: aptikimas → sekimas → kokybės kontrolė.

  • Ekosistema : įrankiai, iš anksto apmokyti modeliai, etalonai ir bendruomenės palaikymas – vienas didžiulis kodo turgus.

Būkime atviri, paslaptis nėra paslaptis: geri duomenys, drausmingas vertinimas, kruopštus diegimas. Visa kita – praktika... ir galbūt kava. ☕


Kaip kompiuterinė rega dirbtiniame intelekte viename protingame kanale 🧪

  1. Vaizdų gavimas.
    Kameros, skaitytuvai, dronai, telefonai. Atidžiai pasirinkite jutiklio tipą, ekspoziciją, objektyvą ir kadrų dažnį. Nereikia tvarkyti nuotraukų ir pan.

  2. Išankstinis apdorojimas.
    Jei reikia, pakeiskite dydį, apkirpkite, normalizuokite, pašalinkite suliejimą arba triukšmą. Kartais mažas kontrasto pakeitimas kalnus perkelia. [4]

  3. Etiketės ir duomenų rinkiniai.
    Ribojamieji langeliai, daugiakampiai, pagrindiniai taškai, teksto aprėptys. Subalansuotos, reprezentatyvios etiketės – antraip jūsų modelis išmoks netolygių įpročių.

  4. Modeliavimas

    • Klasifikacija : „Kuri kategorija?“

    • Aptikimas : „Kur yra objektai?“

    • Segmentacija : „Kurie pikseliai priklauso kuriam daiktui?“

    • Pagrindiniai aspektai ir poza : „Kur yra jungtys arba orientyrai?“

    • OCR : „Koks tekstas yra paveikslėlyje?“

    • Gylis ir 3D : „Kaip toli viskas yra?“
      Architektūros skiriasi, tačiau dominuoja konvoliuciniai tinklai ir transformatorinio stiliaus modeliai. [1]

  5. Mokymai:
    duomenų skaidymas, hiperparametrų derinimas, reguliavimas, papildymas. Ankstyvas sustabdymas prieš įsimenant foną.

  6. Vertinimas.
    OCR naudokite užduočiai tinkamus rodiklius, pvz., mAP, IoU, F1, CER/WER. Nesirinkite vien tik norimų rezultatų. Palyginkite sąžiningai. [3]

  7. Diegimas.
    Optimizuokite pagal tikslą: debesies paketinės užduotys, duomenų išvedimas įrenginyje, periferiniai serveriai. Stebėkite poslinkį. Permokykite, kai keičiasi pasaulis.

Gilieji tinklai paskatino kokybinį šuolį, kai dideli duomenų rinkiniai ir skaičiavimai pasiekė kritinę masę. Tokie lyginamosios analizės kaip „ImageNet“ iššūkis padarė šią pažangą matomą ir nenumaldomą. [2]


Pagrindinės užduotys, kurias iš tikrųjų naudosite (ir kada) 🧩

  • Vaizdo klasifikacija : viena etiketė vienam vaizdui. Naudokite greitiems filtrams, atrankos rūšiavimui arba kokybės vartams.

  • Objektų aptikimas : dėžės aplink daiktus. Mažmeninės prekybos nuostolių prevencija, transporto priemonių aptikimas, laukinių gyvūnų skaičiavimas.

  • Egzempliorių segmentavimas : pikselių tikslumo siluetai kiekvienam objektui. Gamybos defektai, chirurginiai įrankiai, agrotechnika.

  • Semantinė segmentacija : klasė pagal pikselį be atskirų egzempliorių. Miesto kelių vaizdai, žemės danga.

  • Pagrindinių taškų aptikimas ir poza : sąnariai, orientyrai, veido bruožai. Sporto analizė, ergonomika, papildytoji realybė.

  • Sekimas : objektų sekimas laikui bėgant. Logistika, eismas, saugumas.

  • OCR ir dokumentų dirbtinis intelektas : teksto ištraukimas ir maketo analizavimas. Sąskaitos faktūros, kvitai, formos.

  • Gylis ir 3D : rekonstrukcija iš kelių vaizdų arba monokulinių užuominų. Robotika, papildytoji realybė, kartografavimas.

  • Vizualiniai subtitrai : apibendrinkite scenas natūralia kalba. Prieinamumas, paieška.

  • Regėjimo ir kalbos modeliai : multimodalinis samprotavimas, paieškos papildyta rega, pagrįsta kokybės užtikrinimas.

Mažo dėklo įspūdis: parduotuvėse detektorius pažymi trūkstamas lentynų apdailas; sekiklis neleidžia du kartus įskaityti darbuotojų papildytų prekių; paprasta taisyklė nukreipia mažai patikimus kadrus žmogaus peržiūrai. Tai mažas orkestras, kuris dažniausiai išlieka harmoningas.


Palyginimo lentelė: įrankiai greitesniam siuntimui 🧰

Šiek tiek keista tyčia. Taip, tarpai keisti – žinau.

Įrankis / Sistema Geriausiai tinka Licencija / kaina Kodėl tai veikia praktikoje
OpenCV Išankstinis apdorojimas, klasikinis CV, greiti POC Nemokamas – atvirojo kodo Didžiulis įrankių rinkinys, stabilios API sąsajos, išbandytos mūšyje; kartais viskas, ko jums reikia. [4]
PyTorch Moksliniams tyrimams palankūs mokymai Nemokama Dinaminiai grafikai, didžiulė ekosistema, daugybė pamokų.
TensorFlow/Keras Gamyba dideliu mastu Nemokama Subrendusių vartotojų pateikimo parinktys, tinkamos tiek mobiliesiems įrenginiams, tiek periferiniams įrenginiams.
Ultralytics YOLO Greitas objektų aptikimas Nemokami + mokami priedai Lengvas treniruočių ciklas, konkurencingas greičio ir tikslumo derinys, kategoriškas, bet patogus.
Detectron2 / MMDetection Stiprios bazinės linijos, segmentavimas Nemokama Etaloninės klasės modeliai su atkartojamais rezultatais.
„OpenVINO“ / „ONNX“ vykdymo aplinka Išvadų optimizavimas Nemokama Sumažinkite delsą, plačiai diegkite be perrašymo.
Tesseract OCR su biudžetu Nemokama Veikia neblogai, jei išvalai vaizdą... kartais tikrai reikėtų.

Kas lemia kompiuterinės regos kokybę dirbtiniame intelekte 🔧

  • Duomenų aprėptis : apšvietimo pokyčiai, kampai, fonai, kraštiniai atvejai. Jei tai įmanoma, įtraukite tai.

  • Etikečių kokybė : Nenuoseklūs langeliai arba netvarkingi daugiakampiai kenkia mAP. Truputis kokybės užtikrinimo labai padeda.

  • Išmanūs papildymai : apkirpimas, pasukimas, ryškumo virpėjimas, dirbtinio triukšmo pridėjimas. Būkite realistiški, o ne atsitiktinis chaosas.

  • Modelio atrankos atitikimas : naudokite aptikimą ten, kur reikia aptikimo – neverskite klasifikatoriaus spėlioti vietų.

  • Poveikį atitinkantys rodikliai : jei klaidingai neigiami rezultatai kenkia labiau, optimizuokite atkūrimą. Jei klaidingai teigiami rezultatai kenkia labiau, pirmiausia – tikslumas.

  • Glaudus grįžtamasis ryšys : žurnalų klaidos, pervadinimas, pakartotinis mokymas. Išvalymas, pakartojimas. Šiek tiek nuobodus, bet nepaprastai efektyvus.

Aptikimui / segmentavimui bendruomenės standartas yra vidutinis tikslumas, apskaičiuotas pagal IoU slenksčius, dar vadinamas COCO stiliaus mAP . Žinojimas, kaip apskaičiuojamas IoU ir AP@{0.5:0.95}, apsaugo lyderių sąrašo teiginius nuo akinančių dešimtainių skaičių. [3]


Realaus pasaulio naudojimo atvejai, kurie nėra hipotetiniai 🌍

  • Mažmeninė prekyba : lentynų analizė, nuostolių prevencija, eilių stebėjimas, planogramų atitiktis.

  • Gamyba : paviršiaus defektų aptikimas, surinkimo patikra, roboto valdymas.

  • Sveikatos priežiūra : radiologinis triažas, instrumentinis aptikimas, ląstelių segmentavimas.

  • Mobilumas : ADAS, eismo kameros, automobilių stovėjimo vietų užimtumas, mikromobilumo stebėjimas.

  • Žemės ūkis : pasėlių skaičiavimas, ligų nustatymas, pasirengimas derliui.

  • Draudimas ir finansai : žalos vertinimas, KYC patikrinimai, sukčiavimo žymos.

  • Statyba ir energetika : saugos atitiktis, nuotėkių aptikimas, korozijos stebėjimas.

  • Turinys ir prieinamumas : automatiniai subtitrai, moderavimas, vaizdinė paieška.

Pastebėsite dėsningumą: rankinį nuskaitymą pakeiskite automatiniu atrankos metodu, o kai pasitikėjimas savimi sumažėja, kreipkitės į žmones. Ne žavinga, bet tai keičiasi.


Svarbūs duomenys, etiketės ir metrika 📊

  • Klasifikacija : Tikslumas, F1 disbalansui.

  • Aptikimas : mAP per IoU slenksčius; tikrinkite pagal klasę AP ir dydžio talpyklas. [3]

  • Segmentavimas : mIoU, Dice; patikrinkite ir egzemplioriaus lygio klaidas.

  • Sekimas : MOTA, IDF1; pakartotinio identifikavimo kokybė yra tylusis herojus.

  • OCR : Simbolių klaidų dažnis (CER) ir žodžių klaidų dažnis (WER); dažnai vyrauja maketavimo klaidos.

  • Regresinės užduotys : gylio arba pozos nustatymui naudojamos absoliučios / santykinės paklaidos (dažnai logaritminėse skalėse).

Dokumentuokite savo vertinimo protokolą, kad kiti galėtų jį atkartoti. Tai neseksualu, bet padeda išlikti sąžiningam.


Statyti ir pirkti – ir kur tai vykdyti 🏗️

  • Debesis : Lengviausia pradėti, puikiai tinka paketiniams darbo krūviams. Stebėkite išeinančiosios sąnaudas.

  • Perdangos įrenginiai : mažesnė delsa ir geresnis privatumas. Jums rūpės kvantavimas, duomenų apdorojimas ir greitintuvai.

  • Mobilusis telefonas įrenginyje : Nuostabu, kai telpa. Optimizuokite modelius ir laikrodžio akumuliatoriaus veikimo laiką.

  • Hibridas : išankstinis filtras periferijoje, daug darbo debesyje. Geras kompromisas.

Nuobodžiai patikimas stekas: prototipas su „PyTorch“, standartinio detektoriaus apmokymas, eksportavimas į ONNX, spartinimas naudojant „OpenVINO/ONNX Runtime“ ir „OpenCV“ naudojimas išankstiniam apdorojimui ir geometrijai (kalibravimui, homografijai, morfologijai). [4]


Rizika, etika ir sunkūs dalykai, apie kuriuos reikia kalbėti ⚖️

Regėjimo sistemos gali paveldėti duomenų rinkinių paklaidas arba operacines akląsias zonas. Nepriklausomi vertinimai (pvz., NIST FRVT) išmatavo demografinius veido atpažinimo klaidų dažnio skirtumus tarp algoritmų ir sąlygų. Tai nėra priežastis panikuoti, bet tai yra priežastis atidžiai testuoti, dokumentuoti apribojimus ir nuolat stebėti gamyboje. Jei diegiate su tapatybe ar saugumu susijusius naudojimo atvejus, įtraukite žmonių peržiūros ir apeliacijų mechanizmus. Privatumas, sutikimas ir skaidrumas nėra pasirenkami priedai. [5]


Greitas pradžios planas, kuriuo iš tikrųjų galite vadovautis 🗺️

  1. Apibrėžkite sprendimą.
    Kokių veiksmų sistema turėtų imtis pamačiusi vaizdą? Tai neleidžia optimizuoti tuštybės metrikų.

  2. Surinkite fragmentišką duomenų rinkinį.
    Pradėkite nuo kelių šimtų vaizdų, atspindinčių jūsų tikrąją aplinką. Atidžiai pažymėkite – net jei tai jūs ir trys lipnūs lapeliai.

  3. Pasirinkite bazinį modelį.
    Pasirinkite paprastą magistralę su iš anksto apmokytais svoriais. Kol kas nesivaikykite egzotiškų architektūrų. [1]

  4. Mokykite, žurnaluokite, vertinkite
    sekimo metriką, painiavos taškus ir gedimų režimus. Užsirašykite „keistus atvejus“ – sniegą, blizgesį, atspindžius, keistus šriftus.

  5. Užtvirtinkite ciklą.
    Pridėkite kietuosius negatyvus, ištaisykite etikečių poslinkį, pakoreguokite papildymus ir iš naujo nustatykite slenksčius. Maži pakeitimai susidės. [3]

  6. Įdiekite plonesnę versiją.
    Kvantuokite ir eksportuokite. Matuokite delsą/pralaidumą realioje aplinkoje, o ne žaisliniame lyginamajame teste.

  7. Stebėkite ir kartokite.
    Rinkkite gedimų duomenis, peržymėkite, iš naujo apmokykite. Planuokite periodinius vertinimus, kad jūsų modelis nesuakmenėtų.

Profesionalo patarimas: pažymėkite mažytį ciniškiausio komandos draugo nustatytą ribojimą. Jei jis negali jame nieko padaryti, tikriausiai esate pasiruošę.


Dažni gedimai, kurių reikėtų vengti 🧨

  • Mokymai fotografuoti švarius studijinius vaizdus, ​​pritaikymas realiame pasaulyje su lietumi ant objektyvo.

  • Optimizavimas bendram mAP, kai iš tikrųjų rūpi viena kritinė klasė. [3]

  • Ignoruojant klasių disbalansą, stebimasi, kodėl reti įvykiai išnyksta.

  • Per didelis padidinimas, kol modelis išmoksta dirbtinius artefaktus.

  • Praleisti kameros kalibravimą ir tada amžinai kovoti su perspektyvos klaidomis. [4]

  • Tikėjimas lyderių lentelės skaičiais neatkartojant tikslios vertinimo konfigūracijos. [2][3]


Šaltiniai, kuriuos verta įsiminti 🔗

Jei mėgstate pagrindinę medžiagą ir kursų užrašus, šie dokumentai yra puikus pasirinkimas norint įgyti pagrindų, praktikos ir lyginamosios gebėjimų. Nuorodas rasite Literatūros šaltiniai “: CS231n užrašai, „ImageNet“ iššūkio dokumentas, COCO duomenų rinkinys / vertinimo dokumentai, „OpenCV“ dokumentai ir NIST FRVT ataskaitos. [1][2][3][4][5]


Baigiamosios pastabos – arba „Per ilga, neskaičiau“ 🍃

Kompiuterinė regos technologija dirbtiniame intelekte pikselius paverčia sprendimais. Ji sužiba, kai susiejate tinkamą užduotį su tinkamais duomenimis, išmatuojate tinkamus dalykus ir iteruojate neįprastai disciplinuotai. Įrankiai yra dosnūs, etalonai yra vieši, o kelias nuo prototipo iki gamybos yra stebėtinai trumpas, jei sutelkiate dėmesį į galutinį sprendimą. Aiškiai suformuluokite savo etiketes, pasirinkite poveikį atitinkančius rodiklius ir leiskite modeliams atlikti sunkų darbą. O jei padeda metafora – įsivaizduokite tai kaip labai greito, bet tiesiogine prasme veikiančio praktikanto mokymą pastebėti, kas svarbu. Rodote pavyzdžius, ištaisote klaidas ir palaipsniui patikite jai realų darbą. Ne tobula, bet pakankamai arti, kad būtų transformuojanti. 🌟


Nuorodos

  1. CS231n: Gilusis mokymasis kompiuterinei regai (kurso užrašai) – Stanfordo universitetas.
    Skaityti daugiau

  2. „ImageNet“ didelio masto vizualinio atpažinimo iššūkis (straipsnis) – Russakovsky ir kt.
    (skaityti daugiau)

  3. COCO duomenų rinkinys ir vertinimas – oficiali svetainė (užduočių apibrėžimai ir mAP/IoU konvencijos).
    Skaityti daugiau

  4. „OpenCV“ dokumentacija (v4.x) – išankstinio apdorojimo, kalibravimo, morfologijos ir kt. moduliai.
    Skaitykite daugiau

  5. NIST FRVT 3 dalis: Demografiniai efektai (NISTIR 8280) – nepriklausomas veido atpažinimo tikslumo vertinimas skirtingose ​​demografinėse grupėse.
    Skaityti daugiau

Raskite naujausią dirbtinį intelektą oficialioje dirbtinio intelekto asistentų parduotuvėje

Apie mus

Atgal į tinklaraštį