Ar dirbtinis intelektas gali skaityti kursyvą?

Ar dirbtinis intelektas gali skaityti kursyvą?

Trumpas atsakymas: Taip – ​​dirbtinis intelektas gali skaityti rankraštį, tačiau patikimumas labai skiriasi. Jis paprastai veikia gerai, kai rašysena yra nuosekli, o nuskaitytas tekstas ar nuotrauka yra aiški; jei rašysena sunkiai įskaitoma, neryški, labai stilizuota arba tekstas yra svarbus (vardai, pavardės, adresai, medicininės / teisinės pastabos), numatykite klaidas ir pasikliaukite žmogaus atliekama patikra.

Svarbiausios išvados:

Patikimumas : Tikėkitės „esminio lygio“ tikslumo, kai tekstas tvarkingas, o vaizdai aiškūs.

Įrankiai : kursyviniams puslapiams naudokite ranka rašytą OCR, o ne spausdinto teksto OCR.

Patikrinimas : pirmiausia peržiūrėkite mažai patikimus rezultatus, ypač svarbius laukus ir ID.

Kokybės kontrolė : patobulinkite fiksavimą (apšvietimą, kampą, skiriamąją gebą), kad sumažintumėte atpažinimo klaidas.

Privatumas : tvarkydami privačius dokumentus, redaguokite neskelbtinus duomenis arba naudokite vietines parinktis.

Straipsniai, kuriuos galbūt norėsite perskaityti po šio:

🔗 Kiek tikslus yra dirbtinis intelektas realiomis sąlygomis
Išskaido, kas daro įtaką dirbtinio intelekto tikslumui atliekant skirtingas užduotis.

🔗 Kaip žingsnis po žingsnio išmokti dirbtinio intelekto
Pradedantiesiems pritaikytas veiksmų planas, padėsiantis užtikrintai mokytis dirbtinio intelekto.

🔗 Kiek vandens sunaudoja dirbtinis intelektas
Paaiškina, iš kur ir kodėl dirbtinis intelektas sunaudoja vandenį.

🔗 Kaip dirbtinis intelektas prognozuoja tendencijas ir modelius
Parodo, kaip modeliai prognozuoja paklausą, elgesį ir rinkos pokyčius.


Ar dirbtinis intelektas gali patikimai skaityti kursyvą? 🤔

Ar dirbtinis intelektas gali skaityti rankraštį? Taip – ​​šiuolaikinis OCR / rašysenos atpažinimas gali ištraukti rankraštį iš vaizdų ir nuskaitytų dokumentų, ypač kai rašysena yra nuosekli, o vaizdas aiškus. Pavyzdžiui, pagrindinės OCR platformos aiškiai palaiko rankraščio išskyrimą kaip savo pasiūlymo dalį. [1][2][3]

Bet „patikimai“ iš tikrųjų priklauso nuo to, ką turite omenyje:

  • Jei turite omenyje „pakankamai gerai, kad suprastumėte esmę“ – dažnai taip ✅

  • Jei turite omenyje „pakankamai tikslus teisiniams vardams, adresams ar medicininėms išrašams be patikrinimo“ – ne, nesaugu 🚩

  • Jei turite omenyje „bet kokį rašinėlį akimirksniu paversti tobulu tekstu“ – būkime atviri... ne 😬

Dirbtiniam intelektui sunkiausia, kai:

  • Raidės susilieja (klasikinis kursyvinio rašymo uždavinys)

  • Rašalas blankus, popierius tekstūruotas arba matomas perteklius

  • Rašysena labai asmeniška (keistos kilpos, nenuoseklūs pasvirimai)

  • Tekstas yra istorinis / stilizuotas arba jame naudojamos neįprastos raidžių formos / rašyba

  • Nuotrauka iškreipta, neryški, su šešėliais (telefonu darytos nuotraukos po lempa... visi esame tai patyrę)

Taigi, geresnis įrėminimas yra toks: DI gali skaityti kursyvu, bet tam reikia tinkamos sąrankos ir tinkamo įrankio . [1][2][3]

 

DI kursyvas

Kodėl rankraštis yra sudėtingesnis nei „įprastas“ OCR 😵💫

Atspausdintas optinis atpažinimas (OCR) yra tarsi LEGO kaladėlių skaitymas – atskiros formos, tvarkingi kraštai.
Kursyvas yra kaip spagečiai – sujungti brūkšniai, nenuoseklūs tarpai ir retkarčiais… meniniai sprendimai 🍝

Pagrindiniai skausmo taškai:

  • Segmentacija: raidės jungiasi, todėl „kur baigiasi viena raidė“ tampa tikra problema

  • Variacija: du žmonės rašo „tą patį“ laišką visiškai skirtingais būdais

  • Priklausomybė nuo konteksto: norint iššifruoti netvarkingą raidę, dažnai reikia spėlioti žodžių lygmeniu

  • Jautrumas triukšmui: nedidelis suliejimas gali užmaskuoti plonus brūkšnius, apibrėžiančius raides

Štai kodėl ranka rašyti palaikantys OCR produktai dažniausiai remiasi mašininio mokymosi / gilaus mokymosi modeliais, o ne senamadiška „rasti kiekvieną atskirą simbolį“ logika. [2][5]


Kas daro „dirbtinio intelekto kursyvinį skaitytoją“ geru ✅

Jei renkatės sprendimą, tikrai gera rašymo ranka / kursyvu sistema paprastai turi:

  • Įdiegta ranka rašyto teksto palaikymo funkcija (ne tik „spausdintas tekstas“) [1][2][3]

  • Maketo suvokimas (kad galėtų susidoroti su dokumentais, o ne tik su viena teksto eilute) [2][3]

  • Pasitikėjimo balai + ribojantys langeliai (kad galėtumėte greitai peržiūrėti neaiškias dalis) [2][3]

  • Kalbos valdymas (įvairūs rašymo stiliai ir daugiakalbis tekstas yra problema) [2]

  • Žmonių informavimo galimybės bet kokiems svarbiems klausimams (medicininiams, teisiniams, finansiniams)

Be to – nuobodu, bet realu – jis turėtų apdoroti jūsų įvestis: nuotraukas, PDF failus, kelių puslapių nuskaitymus ir „Aš tai padariau kampu automobilyje“ vaizdus 😵. [2][3]


Palyginimo lentelė: įrankiai, kuriuos žmonės naudoja klausdami „Ar dirbtinis intelektas gali skaityti kursyvą?“ 🧰

Kainos nežadamos (nes kainos mėgsta keistis). Tai pajėgumų , o ne kasos krepšelio įspūdis.

Įrankis / platforma Geriausiai tinka Kodėl tai veikia (ir kur ne)
„Google Cloud Vision“ (ranka rašytą optinį atpažinimą) [1] Greitas ištraukimas iš vaizdų / nuskaitymų rašysenai aptikti ; puikus pradinis taškas, kai vaizdas švarus, ir mažiau tinkamas, kai rašysena tampa chaotiška. [1]
„Microsoft Azure“ skaitymo OCR („Azure Vision“ / dokumentų analizė) [2] Mišrūs spausdinti ir ranka rašyti dokumentai Aiškiai palaiko spausdinto ir ranka rašyto teksto išgavimą ir pateikia vietos bei patikimumo informaciją ; taip pat gali būti vykdomas naudojant vietinius konteinerius, kad būtų galima griežčiau kontroliuoti duomenis. [2]
„Amazon“ tekstas [3] Formos / struktūrizuoti dokumentai + ranka rašytas tekstas + patikrinimai „ar pasirašyta?“ Ištraukia tekstą / rašyseną / duomenis ir apima parašų funkciją, kuri aptinka parašus / inicialus ir grąžina vietą bei patikimumą . Puikiai tinka, kai reikia struktūros; vis tiek reikia peržiūrėti netvarkingas pastraipas. [3]
Transkribus [4] Istoriniai dokumentai + daug to paties autoriaus puslapių Stiprus, kai galima naudoti viešus modelius arba apmokyti pasirinktinius modelius konkrečiam rašysenos stiliui – scenarijus „tas pats rašytojas, daug puslapių“ yra ta vieta, kur jis gali išties sužibėti. [4]
Kraken (OCR/HTR) [5] Tyrimai + istoriniai scenarijai + individualūs mokymai Atviras, apmokomas OCR/HTR, specialiai pritaikytas sujungtiems raštams , nes gali mokytis iš nesegmentuotų eilučių duomenų (todėl nereikia pirmiausia pjaustyti kursyvu į idealiai mažas raides). Sąranka yra praktiškesnė. [5]

Išsamiai: kaip dirbtinis intelektas skaito kursyvą po gaubtu 🧠

Sėkmingiausios kursyvinio skaitymo sistemos veikia labiau kaip transkripcija , o ne „kiekvienos raidės atpažinimas“. Štai kodėl šiuolaikiniuose OCR dokumentuose kalbama apie mašininio mokymosi modelius ir rašysenos išskyrimą, o ne apie paprastus simbolių šablonus. [2][5]

Supaprastintas vamzdynas:

  1. Išankstinis apdorojimas (iškreipimas, triukšmo šalinimas, kontrasto gerinimas)

  2. Aptikti teksto sritis (kur yra rašymas)

  3. Linijų segmentavimas (atskiros rašysenos eilutės)

  4. Sekos atpažinimas (teksto numatymas visoje eilutėje)

  5. Rezultatas + patikimumas (kad žmonės galėtų peržiūrėti neapibrėžtas dalis) [2][3]

Ši „sekos per liniją“ idėja yra svarbi priežastis, kodėl rašysenos modeliai gali susidoroti su kursyvu: jie neprivalo idealiai „atspėti kiekvienos raidės ribos“. [5]


Kokios kokybės galite realiai tikėtis (priklausomai nuo naudojimo atvejo) 🎯

Šią dalį žmonės praleidžia ir vėliau supyksta. Taigi... štai ji.

Geri šansai 👍

  • Švarus kursyvas ant linijuoto popieriaus

  • Vienas rašytojas, nuoseklus stilius

  • Didelės skiriamosios gebos ir gero kontrasto nuskaitymas

  • Trumpi užrašai su bendru žodynu

Mišrūs šansai 😬

  • Užrašai klasėje (piešinėliai + rodyklės + paraščių chaosas)

  • Fotokopijų fotokopijos (ir prakeiktas trečios kartos suliejimas)

  • Dienoraščiai su išblukusiu rašalu

  • Keli rašytojai tame pačiame puslapyje

  • Užrašai su santrumpomis, pravardėmis, vidiniais juokeliais

Rizikinga – nepasitikėkite be peržiūros 🚩

  • Medicininės pažymos, teisiniai patvirtinimai, finansiniai įsipareigojimai

  • Viskas su vardais, adresais, asmens kodais, sąskaitų numeriais

  • Istoriniai rankraščiai su neįprasta rašyba ar raidžių formomis

Jei tai svarbu, DI išvestį traktuokite kaip juodraštį, o ne kaip galutinę tiesą.

Įprasto darbo eigos pavyzdys:
Ranka rašytas priėmimo formas skaitmeninanti komanda atlieka OCR funkciją, o tada rankiniu būdu tikrina tik mažai patikimus laukus (vardus, datas, ID numerius). Tai yra modelis „DI siūlo, žmogus patvirtina“ – ir taip išlaikomas greitis ir logiškas mąstymas. [2][3]


Geresnių rezultatų gavimas (dirbtinio intelekto mažiau painiavos palaikymas) 🛠️

Fotografavimo patarimai (telefonu arba skaitytuvu)

  • Naudokite tolygų apšvietimą (venkite šešėlių per visą puslapį)

  • Laikykite kamerą lygiagrečiai popieriui (venkite trapecijos formos puslapių)

  • Pasirinkite didesnę raišką , nei manote, kad jums reikia

  • Venkite agresyvių „grožio filtrų“ – jie gali ištrinti plonus potėpius

Valymo patarimai (prieš atpažinimą)

  • Apkirpti iki teksto srities (atsisveikinimas, stalo kraštai, rankos, kavos puodeliai ☕)

  • Šiek tiek padidinkite kontrastą (bet nepaverskite popieriaus tekstūros pūga)

  • Ištiesinti puslapį (iškreipti)

  • Jei linijos persidengia arba paraštės netvarkingos, padalinkite į atskirus vaizdus

Darbo eigos patarimai (tyliai ir veiksmingai)

  • Naudokite ranka rašytą optinį simbolių atpažinimą (skamba akivaizdžiai... žmonės vis dar to nepastebi) [1][2][3]

  • Pasitikėjimo balai : pirmiausia peržiūrėkite vietas, kuriose pasitikėjimas mažas [2][3]

  • Jei turite daug to paties autoriaus puslapių, apsvarstykite individualų mokymą (būtent čia ir įvyksta šuolis nuo „meh“ iki „vau“) [4][5]


„Ar dirbtinis intelektas gali skaityti parašus ir smulkius raštelius kursyvu?“ 🖊️

Parašai yra jų pačių žvėris.

Parašas dažnai yra artimesnis ženklui nei įskaitomam tekstui, todėl daugelis dokumentų sistemų jį traktuoja kaip kažką, ką reikia aptikti (ir surasti), o ne „perrašyti į vardą“. Pavyzdžiui, „Amazon Textract“ parašų funkcija sutelkia dėmesį į parašų / inicialų aptikimą ir vietos bei patikimumo grąžinimą, o ne į „įvesto vardo atspėjimą“. [3]

Taigi, jei jūsų tikslas yra „išgauti asmens vardą iš parašo“, tikėkitės nusivylimo, nebent parašas būtų iš esmės įskaitomas ranka rašytas.


Privatumas ir saugumas: ranka rašytų užrašų įkėlimas ne visada yra lengvas 🔒

Jei tvarkote medicininius įrašus, studentų informaciją, klientų formas ar asmeninius laiškus: atkreipkite dėmesį, kur dedami šie vaizdai.

Saugesni modeliai:

  • Pirmiausia pašalinkite identifikatorius (vardus, pavardes, adresus, sąskaitų numerius)

  • Jei įmanoma, jautriems darbo krūviams pirmenybę teikite vietinėms / vietoje diegimo

  • Žmonių atliekamas svarbių laukų peržiūros ciklas

Premija: kai kurie dokumentų darbo srautai taip pat naudoja vietos informaciją (ribojamuosius langelius), kad palaikytų redagavimo srautus. [3]


Galutiniai komentarai 🧾✨

Ar dirbtinis intelektas gali skaityti rankraštį? Taip – ​​ir tai stebėtinai gerai, kai:

  • vaizdas yra švarus

  • rašysena yra nuosekli

  • įrankis iš tiesų sukurtas rašysenos atpažinimui [1][2][3]

Tačiau rankraštis iš prigimties yra netvarkingas, todėl sąžininga taisyklė yra tokia: naudokite dirbtinį intelektą, kad paspartintumėte transkripciją, o tada peržiūrėkite išvestį .


DUK

Ar dirbtinis intelektas gali tiksliai perskaityti ranka rašytą rankraštį?

Dirbtinis intelektas gali skaityti rankraštį, tačiau tikslumas labai priklauso nuo to, koks tvarkingas ir nuoseklus yra rašysena, ir nuo to, koks aiškus atrodo vaizdas ar nuskaitytas tekstas. Daugeliu atvejų to pakanka, kad būtų galima užfiksuoti užrašo esmę. Dėl bet kokių svarbių dalykų, pavyzdžiui, vardų, adresų ar medicininio / teisinio turinio, tikėkitės klaidų ir planuokite žmogaus atliekamą patikrinimą.

Koks OCR variantas geriausias rašant ranka: įprastas OCR ar ranka rašytas OCR?

Kursyvui geriau tinka ranka rašytas OCR, o ne spausdinto teksto OCR. Spausdintas OCR sukurtas švariems, atskirtiems simboliams, o kursyvui reikalingi modeliai, kurie gali interpretuoti sujungtus brūkšnius ir žodžių lygio kontekstą. Daugelyje pagrindinių OCR platformų dabar yra ranka rašyto teksto išskyrimo funkcijos, kurios paprastai yra tinkama vieta pradėti kursyvu rašytus puslapius.

Kodėl kursyvas sukelia daugiau klaidų nei spausdintas tekstas?

Rašyti kursyvu yra sunkiau, nes raidės jungiasi, tarpai svyruoja, o individualūs rašymo stiliai gali labai skirtis. Dėl to daug mažiau akivaizdu, kur baigiasi viena raidė, o kita prasideda, nei spausdintame tekste. Maži trūkumai, tokie kaip neryškumas, blankus rašalas ar tekstūruotas popierius, taip pat gali ištrinti plonus brūkšnius, kurie turi prasmę, o tai greitai padidina atpažinimo klaidų skaičių.

Kiek patikimas yra dirbtinis intelektas skaitant vardus, adresus ir asmens kodus kursyvu?

Tai didžiausios rizikos kategorija. Net kai dirbtinis intelektas gerai apdoroja aplinkinį tekstą, tokie svarbūs laukai kaip vardai, adresai, sąskaitų numeriai ar ID yra tie, kur nedidelės atpažinimo klaidos turi didelių pasekmių. Įprastas metodas yra dirbtinio intelekto išvestį traktuoti kaip juodraštį: naudoti patikimumo balus neaiškioms dalims pažymėti, o tada pirmiausia teikti pirmenybę rankinei tų svarbių laukų peržiūrai.

Koks yra geriausias darbo procesas, norint patikimai skaityti kursyvą dideliu mastu?

Praktinis darbo eigos modelis yra „DI siūlo, žmogus patvirtina“. Paleiskite ranka rašytą OCR, tada peržiūrėkite mažai patikimus rezultatus, o ne tikrinkite viską. Daugelis OCR sistemų pateikia patikimumo balus ir vietos duomenis (pvz., ribojančius langelius), kurie padeda greitai rasti dalis, kurios greičiausiai yra klaidingos. Šis metodas praktiškai suderina greitį ir tikslumą dokumentuose.

Kaip pagerinti telefono nuotraukų OCR rezultatus kursyvu?

Fotografavimo kokybė yra labai svarbi. Naudokite tolygų apšvietimą, kad išvengtumėte šešėlių, laikykite fotoaparatą lygiagrečiai puslapiui, kad sumažintumėte iškraipymus, ir pasirinkite didesnę skiriamąją gebą, nei manote, kad reikia. Apkirpimas iki teksto srities, kruopštus kontrasto padidinimas ir vaizdo iškreipimas gali sumažinti klaidas. Venkite per didelių „grožio“ filtrų, kurie gali užmaskuoti plonus rašiklio brūkštelėjimus.

Ar dirbtinis intelektas gali skaityti kursyvu parašytus parašus ir konvertuoti juos į spausdintus vardus?

Parašai paprastai traktuojami kitaip nei įprastas ranka rašytas tekstas, nes jie dažnai labiau primena žymę nei įskaitomą tekstą. Daugelis sistemų sutelkia dėmesį į parašo buvimo ir vietos aptikimą (ir patikimumo užtikrinimą), o ne į jo perrašymą į asmens vardą. Jei jums reikia pasirašiusiojo vardo, paprastai pasikliaujate atskiru spausdintu lauku arba rankiniu patvirtinimu.

Ar verta apmokyti pritaikytą modelį rašyti ranka?

Tai gali būti tiesa, ypač jei turite daug to paties rašytojo puslapių arba dokumentuose naudojamas vienodas rašysenos stilius. Esant „ta pati ranka, daug puslapių“ scenarijams, individualus mokymas gali reikšmingai pagerinti rezultatus, palyginti su bendriniais modeliais. Jei jūsų įvesties duomenys skiriasi priklausomai nuo rašytojo ir stiliaus, rezultatai dažnai būna mažesni ir vis tiek reikės peržiūros etapo.

Ar saugu įkelti ranka rašytus užrašus į OCR paslaugą?

Tai priklauso nuo turinio jautrumo ir apdorojimo vietos. Jei tvarkote privačius dokumentus, pvz., medicininius įrašus, studentų duomenis ar klientų formas, saugesnis būdas yra pirmiausia pašalinti identifikatorius ir, kai įmanoma, naudoti griežtesnes diegimo parinktis. Žmogaus atliekamas svarbių laukų peržiūros ciklas taip pat sumažina riziką, kad bus imtasi veiksmų dėl neteisingai ištrauktų duomenų.

Nuorodos

[1] „Google Cloud OCR“ naudojimo atvejo apžvalga, įskaitant ranka rašyto teksto atpažinimo palaikymą naudojant „Cloud Vision“. Skaityti daugiau
[2] „Microsoft“ OCR (skaitymo) apžvalga, apimanti spausdintų ir ranka rašytų tekstų ištraukimą, patikimumo balus ir konteinerių diegimo parinktis. Skaityti daugiau
[3] AWS įrašas, kuriame paaiškinama „Textract“ parašų funkcija, skirta parašams / inicialams aptikti su vietos ir patikimumo išvestimi. Skaityti daugiau
[4] „Transkribus“ vadovas, kodėl (ir kada) reikia mokyti teksto atpažinimo modelį konkretiems rašysenos stiliams. Skaityti daugiau
[5] „Kraken“ dokumentacija apie OCR / HTR modelių mokymą naudojant nesegmentuotus sujungtų scenarijų eilučių duomenis. Skaityti daugiau

Raskite naujausią dirbtinį intelektą oficialioje dirbtinio intelekto asistentų parduotuvėje

Apie mus

Atgal į tinklaraštį