Kiek tiksliai dirbtinis intelektas skaito ranka rašytą tekstą?

Dirbtinio intelekto gebėjimas skaityti rankraštį kinta nevienodai. Jis gali efektyviai užfiksuoti tvarkingo ir aiškaus rašysenos esmę, tačiau vertinant svarbų turinį, pavyzdžiui, vardus ar medicinines pastabas, patartina rezultatus patikrinti rankiniu būdu dėl galimų klaidų.

Kokia technologija geriausiai tinka kursyviniam teksto atpažinimui?

Kursyviniam rašymui atpažinti rekomenduojamos ranka rašytą tekstą palaikančios OCR (optinio simbolių atpažinimo) sistemos, o ne tradiciniai spausdinto teksto OCR sprendimai, nes jos specialiai sukurtos apdoroti sujungtus brūkšnius, būdingus kursyviniam rašymui.

Kokie veiksniai lemia rankraščio atpažinimo tikslumą?

Kursyvinio rašysenos atpažinimo tikslumui įtakos turi tokie veiksniai kaip vaizdo aiškumas, rašysenos nuoseklumas ir naudojamos OCR priemonės kokybė. Švarūs, didelės raiškos gerai parašyto kursyvinio teksto nuskaitymai žymiai pagerina rezultatus.

Kuo skiriasi ranka rašytas tekstas nuo spausdinto teksto OCR atpažinimo požiūriu?

Kursyvinis rašymas OCR sistemai kelia unikalių iššūkių dėl raidžių jungties ir individualių rašymo stilių skirtumų. Dėl to sunku lengvai nustatyti, kur baigiasi viena raidė, o kur prasideda kita, todėl dažnai pasitaiko daugiau klaidų.

Ar būtina, kad žmogus peržiūrėtų svarbią informaciją, išgautą iš ranka rašyto rašymo?

Taip, ypač svarbios informacijos, tokios kaip vardai, pavardės, adresai ir asmens tapatybės dokumentai, atveju labai svarbu atlikti rankinę dirbtinio intelekto išgautų rezultatų peržiūrą. Vien tik pasikliaujant dirbtinio intelekto išvestimi be patikrinimo, galima padaryti didelių klaidų.

Kokie yra patarimai, kaip pagerinti OCR rezultatus iš ranka rašyto vaizdų?

Norėdami pagerinti OCR rezultatus, fotografuodami užtikrinkite tolygų apšvietimą, išlaikykite lygiagretų kameros kampą popieriui, naudokite didelę skiriamąją gebą ir apkirpkite vaizdus, kad sufokusuotumėte tekstą, tuo pačiu padidindami kontrastą, kad ploni brūkšniai būtų aiškesni.

Ar dirbtinis intelektas gali išgauti parašus iš ranka rašytų dokumentų ir ar tai patikima?

Dirbtinis intelektas gali aptikti ir pateikti informaciją apie parašus, tačiau paprastai jis sutelkia dėmesį į jų vietą ir patikimumo lygį, o ne tiesiogiai perrašo juos į vardus. Norint tiksliai išgauti vardus, dažnai reikia rankiniu būdu patvirtinti.

Ar dirbtinis intelektas gali skaityti kursyvą?

Trumpas atsakymas: Taip – dirbtinis intelektas gali skaityti rankraštį, tačiau patikimumas labai skiriasi. Jis paprastai veikia gerai, kai rašysena yra nuosekli, o nuskaitytas tekstas ar nuotrauka yra aiški; jei rašysena sunkiai įskaitoma, neryški, labai stilizuota arba tekstas yra svarbus (vardai, pavardės, adresai, medicininės / teisinės pastabos), numatykite klaidas ir pasikliaukite žmogaus atliekama patikra.

Svarbiausios išvados:

Patikimumas: Tikėkitės „esminio lygio“ tikslumo, kai tekstas tvarkingas, o vaizdai aiškūs.

Įrankiai: kursyviniams puslapiams naudokite ranka rašytą OCR, o ne spausdinto teksto OCR.

Patikrinimas: pirmiausia peržiūrėkite mažai patikimus rezultatus, ypač svarbius laukus ir ID.

Kokybės kontrolė: patobulinkite fiksavimą (apšvietimą, kampą, skiriamąją gebą), kad sumažintumėte atpažinimo klaidas.

Privatumas: tvarkydami privačius dokumentus, redaguokite neskelbtinus duomenis arba naudokite vietines parinktis.

Straipsniai, kuriuos galbūt norėsite perskaityti po šio:

🔗 Kiek tikslus yra dirbtinis intelektas realiomis sąlygomis
Išskaido, kas daro įtaką dirbtinio intelekto tikslumui atliekant skirtingas užduotis.

🔗 Kaip žingsnis po žingsnio išmokti dirbtinio intelekto
Pradedantiesiems pritaikytas veiksmų planas, padėsiantis užtikrintai mokytis dirbtinio intelekto.

🔗 Kiek vandens sunaudoja dirbtinis intelektas
Paaiškina, iš kur ir kodėl dirbtinis intelektas sunaudoja vandenį.

🔗 Kaip dirbtinis intelektas prognozuoja tendencijas ir modelius
Parodo, kaip modeliai prognozuoja paklausą, elgesį ir rinkos pokyčius.

Ar dirbtinis intelektas gali patikimai skaityti kursyvą? 🤔

Ar dirbtinis intelektas gali skaityti rankraštį? Taip – šiuolaikinis OCR / rašysenos atpažinimas gali ištraukti rankraštį iš vaizdų ir nuskaitytų dokumentų, ypač kai rašysena yra nuosekli, o vaizdas aiškus. Pavyzdžiui, pagrindinės OCR platformos aiškiai palaiko rankraščio išskyrimą kaip savo pasiūlymo dalį. [1][2][3]

Bet „patikimai“ iš tikrųjų priklauso nuo to, ką turite omenyje:

Jei turite omenyje „pakankamai gerai, kad suprastumėte esmę“ – dažnai taip ✅
Jei turite omenyje „pakankamai tikslus teisiniams vardams, adresams ar medicininėms išrašams be patikrinimo“ – ne, nesaugu 🚩
Jei turite omenyje „bet kokį rašinėlį akimirksniu paversti tobulu tekstu“ – būkime atviri... ne 😬

Dirbtiniam intelektui sunkiausia, kai:

Raidės susilieja (klasikinis kursyvinio rašymo uždavinys)
Rašalas blankus, popierius tekstūruotas arba matomas perteklius
Rašysena labai asmeniška (keistos kilpos, nenuoseklūs pasvirimai)
Tekstas yra istorinis / stilizuotas arba jame naudojamos neįprastos raidžių formos / rašyba
Nuotrauka iškreipta, neryški, su šešėliais (telefonu darytos nuotraukos po lempa... visi esame tai patyrę)

Taigi, geresnis įrėminimas yra toks: DI gali skaityti kursyvu, bet tam reikia tinkamos sąrankos ir tinkamo įrankio. [1][2][3]

Kodėl rankraštis yra sudėtingesnis nei „įprastas“ OCR 😵💫

Atspausdintas optinis atpažinimas (OCR) yra tarsi LEGO kaladėlių skaitymas – atskiros formos, tvarkingi kraštai.
Kursyvas yra kaip spagečiai – sujungti brūkšniai, nenuoseklūs tarpai ir retkarčiais… meniniai sprendimai 🍝

Pagrindiniai skausmo taškai:

Segmentacija: raidės jungiasi, todėl „kur baigiasi viena raidė“ tampa tikra problema
Variacija: du žmonės rašo „tą patį“ laišką visiškai skirtingais būdais
Priklausomybė nuo konteksto: norint iššifruoti netvarkingą raidę, dažnai reikia spėlioti žodžių lygmeniu
Jautrumas triukšmui: nedidelis suliejimas gali užmaskuoti plonus brūkšnius, apibrėžiančius raides

Štai kodėl ranka rašyti palaikantys OCR produktai dažniausiai remiasi mašininio mokymosi / gilaus mokymosi modeliais, o ne senamadiška „rasti kiekvieną atskirą simbolį“ logika. [2][5]

Kas daro „dirbtinio intelekto kursyvinį skaitytoją“ geru ✅

Jei renkatės sprendimą, tikrai gera rašymo ranka / kursyvu sistema paprastai turi:

Įdiegta ranka rašyto teksto palaikymo funkcija (ne tik „spausdintas tekstas“) [1][2][3]
Maketo suvokimas (kad galėtų susidoroti su dokumentais, o ne tik su viena teksto eilute) [2][3]
Pasitikėjimo balai + ribojantys langeliai (kad galėtumėte greitai peržiūrėti neaiškias dalis) [2][3]
Kalbos valdymas (įvairūs rašymo stiliai ir daugiakalbis tekstas yra problema) [2]
Žmonių informavimo galimybės bet kokiems svarbiems klausimams (medicininiams, teisiniams, finansiniams)

Be to – nuobodu, bet realu – jis turėtų apdoroti jūsų įvestis: nuotraukas, PDF failus, kelių puslapių nuskaitymus ir „Aš tai padariau kampu automobilyje“ vaizdus 😵. [2][3]

Palyginimo lentelė: įrankiai, kuriuos žmonės naudoja klausdami „Ar dirbtinis intelektas gali skaityti kursyvą?“ 🧰

Kainos nežadamos (nes kainos mėgsta keistis). Tai pajėgumų, o ne kasos krepšelio įspūdis.

Įrankis / platforma	Geriausiai tinka	Kodėl tai veikia (ir kur ne)
„Google Cloud Vision“ (ranka rašytą optinį atpažinimą) [1]	Greitas ištraukimas iš vaizdų / nuskaitymų	Sukurta tekstui ir rašysenai vaizduose aptikti ; puikus pradinis taškas, kai vaizdas švarus, ir mažiau tinkamas, kai rašysena tampa chaotiška. [1]
„Microsoft Azure“ skaitymo OCR („Azure Vision“ / dokumentų analizė) [2]	Mišrūs spausdinti ir ranka rašyti dokumentai	Aiškiai palaiko spausdinto ir ranka rašyto teksto išgavimą ir pateikia vietos bei patikimumo informaciją; taip pat gali būti vykdomas naudojant vietinius konteinerius, kad būtų galima griežčiau kontroliuoti duomenis. [2]
„Amazon“ tekstas [3]	Formos / struktūrizuoti dokumentai + ranka rašytas tekstas + patikrinimai „ar pasirašyta?“	Ištraukia tekstą / rašyseną / duomenis ir apima parašų funkciją, kuri aptinka parašus / inicialus ir grąžina vietą bei patikimumą. Puikiai tinka, kai reikia struktūros; vis tiek reikia peržiūrėti netvarkingas pastraipas. [3]
Transkribus [4]	Istoriniai dokumentai + daug to paties autoriaus puslapių	Stiprus, kai galima naudoti viešus modelius arba apmokyti pasirinktinius modelius konkrečiam rašysenos stiliui – scenarijus „tas pats rašytojas, daug puslapių“ yra ta vieta, kur jis gali išties sužibėti. [4]
Kraken (OCR/HTR) [5]	Tyrimai + istoriniai scenarijai + individualūs mokymai	Atviras, apmokomas OCR/HTR, specialiai pritaikytas sujungtiems raštams , nes gali mokytis iš nesegmentuotų eilučių duomenų (todėl nereikia pirmiausia pjaustyti kursyvu į idealiai mažas raides). Sąranka yra praktiškesnė. [5]

Išsamiai: kaip dirbtinis intelektas skaito kursyvą po gaubtu 🧠

Sėkmingiausios kursyvinio skaitymo sistemos veikia labiau kaip transkripcija , o ne „kiekvienos raidės atpažinimas“. Štai kodėl šiuolaikiniuose OCR dokumentuose kalbama apie mašininio mokymosi modelius ir rašysenos išskyrimą, o ne apie paprastus simbolių šablonus. [2][5]

Supaprastintas vamzdynas:

Išankstinis apdorojimas (iškreipimas, triukšmo šalinimas, kontrasto gerinimas)
Aptikti teksto sritis (kur yra rašymas)
Linijų segmentavimas (atskiros rašysenos eilutės)
Sekos atpažinimas (teksto numatymas visoje eilutėje)
Rezultatas + patikimumas (kad žmonės galėtų peržiūrėti neapibrėžtas dalis) [2][3]

Ši „sekos per liniją“ idėja yra svarbi priežastis, kodėl rašysenos modeliai gali susidoroti su kursyvu: jie neprivalo idealiai „atspėti kiekvienos raidės ribos“. [5]

Kokios kokybės galite realiai tikėtis (priklausomai nuo naudojimo atvejo) 🎯

Šią dalį žmonės praleidžia ir vėliau supyksta. Taigi... štai ji.

Geri šansai 👍

Švarus kursyvas ant linijuoto popieriaus
Vienas rašytojas, nuoseklus stilius
Didelės skiriamosios gebos ir gero kontrasto nuskaitymas
Trumpi užrašai su bendru žodynu

Mišrūs šansai 😬

Užrašai klasėje (piešinėliai + rodyklės + paraščių chaosas)
Fotokopijų fotokopijos (ir prakeiktas trečios kartos suliejimas)
Dienoraščiai su išblukusiu rašalu
Keli rašytojai tame pačiame puslapyje
Užrašai su santrumpomis, pravardėmis, vidiniais juokeliais

Rizikinga – nepasitikėkite be peržiūros 🚩

Medicininės pažymos, teisiniai patvirtinimai, finansiniai įsipareigojimai
Viskas su vardais, adresais, asmens kodais, sąskaitų numeriais
Istoriniai rankraščiai su neįprasta rašyba ar raidžių formomis

Jei tai svarbu, DI išvestį traktuokite kaip juodraštį, o ne kaip galutinę tiesą.

Įprasto darbo eigos pavyzdys:
Ranka rašytas priėmimo formas skaitmeninanti komanda atlieka OCR funkciją, o tada rankiniu būdu tikrina tik mažai patikimus laukus (vardus, datas, ID numerius). Tai yra modelis „DI siūlo, žmogus patvirtina“ – ir taip išlaikomas greitis ir logiškas mąstymas. [2][3]

Geresnių rezultatų gavimas (dirbtinio intelekto mažiau painiavos palaikymas) 🛠️

Fotografavimo patarimai (telefonu arba skaitytuvu)

Naudokite tolygų apšvietimą (venkite šešėlių per visą puslapį)
Laikykite kamerą lygiagrečiai popieriui (venkite trapecijos formos puslapių)
Pasirinkite didesnę raišką , nei manote, kad jums reikia
Venkite agresyvių „grožio filtrų“ – jie gali ištrinti plonus potėpius

Valymo patarimai (prieš atpažinimą)

Apkirpti iki teksto srities (atsisveikinimas, stalo kraštai, rankos, kavos puodeliai ☕)
Šiek tiek padidinkite kontrastą (bet nepaverskite popieriaus tekstūros pūga)
Ištiesinti puslapį (iškreipti)
Jei linijos persidengia arba paraštės netvarkingos, padalinkite į atskirus vaizdus

Darbo eigos patarimai (tyliai ir veiksmingai)

Naudokite ranka rašytą optinį simbolių atpažinimą (skamba akivaizdžiai... žmonės vis dar to nepastebi) [1][2][3]
Pasitikėjimo balai: pirmiausia peržiūrėkite vietas, kuriose pasitikėjimas mažas [2][3]
Jei turite daug to paties autoriaus puslapių, apsvarstykite individualų mokymą (būtent čia ir įvyksta šuolis nuo „meh“ iki „vau“) [4][5]

„Ar dirbtinis intelektas gali skaityti parašus ir smulkius raštelius kursyvu?“ 🖊️

Parašai yra jų pačių žvėris.

Parašas dažnai yra artimesnis ženklui nei įskaitomam tekstui, todėl daugelis dokumentų sistemų jį traktuoja kaip kažką, ką reikia aptikti (ir surasti), o ne „perrašyti į vardą“. Pavyzdžiui, „Amazon Textract“ parašų funkcija sutelkia dėmesį į parašų / inicialų aptikimą ir vietos bei patikimumo grąžinimą, o ne į „įvesto vardo atspėjimą“. [3]

Taigi, jei jūsų tikslas yra „išgauti asmens vardą iš parašo“, tikėkitės nusivylimo, nebent parašas būtų iš esmės įskaitomas ranka rašytas.

Privatumas ir saugumas: ranka rašytų užrašų įkėlimas ne visada yra lengvas 🔒

Jei tvarkote medicininius įrašus, studentų informaciją, klientų formas ar asmeninius laiškus: atkreipkite dėmesį, kur dedami šie vaizdai.

Saugesni modeliai:

Pirmiausia pašalinkite identifikatorius (vardus, pavardes, adresus, sąskaitų numerius)
Jei įmanoma, jautriems darbo krūviams pirmenybę teikite vietinėms / vietoje diegimo parinktims (kai kurie OCR paketai palaiko konteinerių diegimą) [2]
Žmonių atliekamas svarbių laukų peržiūros ciklas

Premija: kai kurie dokumentų darbo srautai taip pat naudoja vietos informaciją (ribojamuosius langelius), kad palaikytų redagavimo srautus. [3]

Galutiniai komentarai 🧾✨

Ar dirbtinis intelektas gali skaityti rankraštį? Taip – ir tai stebėtinai gerai, kai:

vaizdas yra švarus
rašysena yra nuosekli
įrankis iš tiesų sukurtas rašysenos atpažinimui [1][2][3]

Tačiau rankraštis iš prigimties yra netvarkingas, todėl sąžininga taisyklė yra tokia: naudokite dirbtinį intelektą, kad paspartintumėte transkripciją, o tada peržiūrėkite išvestį.

Realus pavyzdys: ranka rašytų priėmimo formų skaitmeninimas 📝

Scenarijus

Įsivaizduokite nedidelę kineziterapijos kliniką su 500 senų popierinių priėmimo formų. Daugumoje formų yra spausdintų langelių, kursyvu rašytų pastabų, datų, telefono numerių, šeimos gydytojų vardų, traumų aprašymų ir parašų mišinys.

Klinikai nereikia tobulos magijos „skaityti viską automatiškai“. Jai reikia saugesnio darbo eigos: naudoti dirbtinį intelektą transkripcijos projektui parengti, o tada paprašyti registratoriaus patikrinti laukus, kuriuose klaidos būtų svarbios.

Tai puikiai tinka ranka rašytam OCR, nes dokumentai turi pasikartojantį išdėstymą, tačiau juos vis tiek reikia peržiūrėti žmogui, nes vardai, datos, adresai ir medicininės pastabos yra didelės rizikos laukai.

Ko reikia darbo eigai

Aiškūs kiekvienos formos nuskaitymai, idealiai 300 DPI arba aukštesni
Ranka rašyti palaikanti OCR priemonė
Ištrauktų laukų skaičiuoklė arba duomenų bazė
„Būtinų tikrinimų“ laukų sąrašas: paciento vardas, pavardė, gimimo data, telefono numeris, adresas, vartojami vaistai, alergijos, šeimos gydytojo vardas ir pavardė bei parašo statusas
Recenzentas, kuris lygina mažo patikimumo laukus su originaliu nuskaitymu

Instrukcijos pavyzdys

Nustatydami ekstrahavimą, naudokite tokio tipo instrukcijas:

Perskaitykite šią ranka rašytą priėmimo formą ir išskirkite šiuos laukus: vardą ir pavardę, gimimo datą, telefono numerį, adresą, vizito priežastį, traumos datą, vartojamus vaistus, alergijas, šeimos gydytojo vardą, kontaktinį asmenį nelaimės atveju ir ar yra parašas.

Rezultatą pateikite paprastoje lentelėje. Bet kurį neaiškų lauką pažymėkite kaip „Reikia peržiūrėti“, o ne spėliokite. Jei žodis yra iš dalies įskaitomas, pateikite geriausią savo supratimą ir po jo pridėkite „neaišku“. Neišgalvokite trūkstamų detalių.

Kaip tai išbandyti

Prieš apdorodami kiekvieną formą, pradėkite nuo nedidelio bandymų rinkinio.

Naudokite 30 formų, suskirstytų į tris grupes:

10 tvarkingų formų su aiškiu kursyvu
10 vidutinių formų su mišriu šriftu ir kursyvu
10 sunkiai įskaitomų formų su blankiu rašalu, perbrauktais žodžiais arba neįprastu rašysenos raštu

Kiekvienai formai palyginkite dirbtinio intelekto išvestį su rankiniu būdu perrašytu tekstu

Kiek laukų buvo teisingai
Kiek jų buvo pažymėta kaip „Reikia peržiūrėti“?
Kiek neteisingų laukų nebuvo pažymėti
Kiek laiko užtruko rankinis įvedimas prieš ir po OCR naudojimo

Geras testas nėra tiesiog „ar dirbtinis intelektas perskaitė puslapį?“, bet „ar darbo eiga pastebėjo rizikingas klaidas prieš naudojant duomenis?“

Rezultatas

Iliustracinis rezultatas: Remiantis 30 formų testo laiku, rankinis įvedimas užtruko apie 4 minutes vienai formai arba iš viso 120 minučių.

Naudojant ranka rašyto optinio atpažinimo (OCR) ir žmogaus atliekamą peržiūrą, buvo atlikta:

45 sekundės OCR apdorojimui ir eksportavimui vienai formai
90 sekundžių žmogaus peržiūrai kiekvienai formai
Iš viso apie 67,5 minutės 30 formų užpildymui

Tai leidžia sutaupyti maždaug 52,5 minutės su 30 formų arba maždaug 1 minutę 45 sekundes kiekvienai formai.

Tikslumas taip pat turi būti matuojamas pagal lauko tipą. Šiame pavyzdyje pateiktas bandymas:

Bendrųjų pastabų laukai buvo tinkami naudoti su gist 26 iš 30 formų
Vardus ir datas vis dar reikėjo tikrinti rankiniu būdu visose 30 formų
7 formose buvo bent vienas kritinis laukas, pažymėtas „Reikia peržiūrėti“
Dviejose formose buvo žodis, susijęs su vaistu arba alergija, kurį dirbtinis intelektas neteisingai perskaitė ir pastebėjo tik žmogus, peržiūrintis asmuo

Taigi, laimėjimas nėra „nereikia žmonių“. Laimėjimas yra greitesnis pirmojo perdavimo transkripcijos procesas, tuo pačiu išlaikant žmogiškąjį prieigą prie rizikingos informacijos.

Kas gali nutikti ne taip

Didžiausia klaida – per daug pasitikėti tvarkingai atrodančiu rezultatu. Dirbtinis intelektas gali pateikti užtikrintai atrodantį atsakymą net ir tada, kai rašysena yra dviprasmiška.

Kitos dažnos problemos:

Formų skenavimas maža raiška
Šešėlių arba puslapio kreivių iškraipymas tekste
Spausdinto teksto OCR naudojimas vietoj ranka rašyto OCR
Parašų traktavimas kaip skaitomų vardų
Nesugebėjimas peržiūrėti vardų, datų, vaistų, alergijų ir asmens dokumentų
Įkelti jautrias formas į įrankį nepatikrinus privatumo valdiklių

Praktiškas išsinešimui skirtas maistas

Kursyviniams dokumentams geriausias darbo eigos būdas yra ne „DI pakeičia transkripciją“. Tai „DI sukuria pirmąjį juodraštį, o žmonės patikrina rizikingas dalis“. Tai suteikia greičio neapsimetinėjant, kad sudėtingas rašysenos raštas staiga tapo be klaidų.

DUK

Ar dirbtinis intelektas gali tiksliai perskaityti ranka rašytą rankraštį?

Dirbtinis intelektas gali skaityti rankraštį, tačiau tikslumas labai priklauso nuo to, koks tvarkingas ir nuoseklus yra rašysena, ir nuo to, koks aiškus atrodo vaizdas ar nuskaitytas tekstas. Daugeliu atvejų to pakanka, kad būtų galima užfiksuoti užrašo esmę. Dėl bet kokių svarbių dalykų, pavyzdžiui, vardų, adresų ar medicininio / teisinio turinio, tikėkitės klaidų ir planuokite žmogaus atliekamą patikrinimą.

Koks OCR variantas geriausias rašant ranka: įprastas OCR ar ranka rašytas OCR?

Kursyvui geriau tinka ranka rašytas OCR, o ne spausdinto teksto OCR. Spausdintas OCR sukurtas švariems, atskirtiems simboliams, o kursyvui reikalingi modeliai, kurie gali interpretuoti sujungtus brūkšnius ir žodžių lygio kontekstą. Daugelyje pagrindinių OCR platformų dabar yra ranka rašyto teksto išskyrimo funkcijos, kurios paprastai yra tinkama vieta pradėti kursyvu rašytus puslapius.

Kodėl kursyvas sukelia daugiau klaidų nei spausdintas tekstas?

Rašyti kursyvu yra sunkiau, nes raidės jungiasi, tarpai svyruoja, o individualūs rašymo stiliai gali labai skirtis. Dėl to daug mažiau akivaizdu, kur baigiasi viena raidė, o kita prasideda, nei spausdintame tekste. Maži trūkumai, tokie kaip neryškumas, blankus rašalas ar tekstūruotas popierius, taip pat gali ištrinti plonus brūkšnius, kurie turi prasmę, o tai greitai padidina atpažinimo klaidų skaičių.

Kiek patikimas yra dirbtinis intelektas skaitant vardus, adresus ir asmens kodus kursyvu?

Tai didžiausios rizikos kategorija. Net kai dirbtinis intelektas gerai apdoroja aplinkinį tekstą, tokie svarbūs laukai kaip vardai, adresai, sąskaitų numeriai ar ID yra tie, kur nedidelės atpažinimo klaidos turi didelių pasekmių. Įprastas metodas yra dirbtinio intelekto išvestį traktuoti kaip juodraštį: naudoti patikimumo balus neaiškioms dalims pažymėti, o tada pirmiausia teikti pirmenybę rankinei tų svarbių laukų peržiūrai.

Koks yra geriausias darbo procesas, norint patikimai skaityti kursyvą dideliu mastu?

Praktinis darbo eigos modelis yra „DI siūlo, žmogus patvirtina“. Paleiskite ranka rašytą OCR, tada peržiūrėkite mažai patikimus rezultatus, o ne tikrinkite viską. Daugelis OCR sistemų pateikia patikimumo balus ir vietos duomenis (pvz., ribojančius langelius), kurie padeda greitai rasti dalis, kurios greičiausiai yra klaidingos. Šis metodas praktiškai suderina greitį ir tikslumą dokumentuose.

Kaip pagerinti telefono nuotraukų OCR rezultatus kursyvu?

Fotografavimo kokybė yra labai svarbi. Naudokite tolygų apšvietimą, kad išvengtumėte šešėlių, laikykite fotoaparatą lygiagrečiai puslapiui, kad sumažintumėte iškraipymus, ir pasirinkite didesnę skiriamąją gebą, nei manote, kad reikia. Apkirpimas iki teksto srities, kruopštus kontrasto padidinimas ir vaizdo iškreipimas gali sumažinti klaidas. Venkite per didelių „grožio“ filtrų, kurie gali užmaskuoti plonus rašiklio brūkštelėjimus.

Ar dirbtinis intelektas gali skaityti kursyvu parašytus parašus ir konvertuoti juos į spausdintus vardus?

Parašai paprastai traktuojami kitaip nei įprastas ranka rašytas tekstas, nes jie dažnai labiau primena žymę nei įskaitomą tekstą. Daugelis sistemų sutelkia dėmesį į parašo buvimo ir vietos aptikimą (ir patikimumo užtikrinimą), o ne į jo perrašymą į asmens vardą. Jei jums reikia pasirašiusiojo vardo, paprastai pasikliaujate atskiru spausdintu lauku arba rankiniu patvirtinimu.

Ar verta apmokyti pritaikytą modelį rašyti ranka?

Tai gali būti tiesa, ypač jei turite daug to paties rašytojo puslapių arba dokumentuose naudojamas vienodas rašysenos stilius. Esant „ta pati ranka, daug puslapių“ scenarijams, individualus mokymas gali reikšmingai pagerinti rezultatus, palyginti su bendriniais modeliais. Jei jūsų įvesties duomenys skiriasi priklausomai nuo rašytojo ir stiliaus, rezultatai dažnai būna mažesni ir vis tiek reikės peržiūros etapo.

Ar saugu įkelti ranka rašytus užrašus į OCR paslaugą?

Tai priklauso nuo turinio jautrumo ir apdorojimo vietos. Jei tvarkote privačius dokumentus, pvz., medicininius įrašus, studentų duomenis ar klientų formas, saugesnis būdas yra pirmiausia pašalinti identifikatorius ir, kai įmanoma, naudoti griežtesnes diegimo parinktis. Žmogaus atliekamas svarbių laukų peržiūros ciklas taip pat sumažina riziką, kad bus imtasi veiksmų dėl neteisingai ištrauktų duomenų.

Nuorodos

[1] „Google Cloud OCR“ naudojimo atvejo apžvalga, įskaitant ranka rašyto teksto atpažinimo palaikymą naudojant „Cloud Vision“. Skaityti daugiau
[2] „Microsoft“ OCR (skaitymo) apžvalga, apimanti spausdintų ir ranka rašytų tekstų ištraukimą, patikimumo balus ir konteinerių diegimo parinktis. Skaityti daugiau
[3] AWS įrašas, kuriame paaiškinama „Textract“ parašų funkcija, skirta parašams / inicialams aptikti su vietos ir patikimumo išvestimi. Skaityti daugiau
[4] „Transkribus“ vadovas, kodėl (ir kada) reikia mokyti teksto atpažinimo modelį konkretiems rašysenos stiliams. Skaityti daugiau
[5] „Kraken“ dokumentacija apie OCR / HTR modelių mokymą naudojant nesegmentuotus sujungtų scenarijų eilučių duomenis. Skaityti daugiau

Raskite naujausią dirbtinį intelektą oficialioje dirbtinio intelekto asistentų parduotuvėje

Apie mus

Atgal į tinklaraštį