Kaip veikia dirbtinio intelekto didinimas

Kaip veikia dirbtinio intelekto didinimas?

Trumpas atsakymas: dirbtinio intelekto didinimas veikia apmokant modelį su suporuotais žemos ir didelės skiriamosios gebos vaizdais, o tada panaudojant juos numatomiems papildomiems pikseliams didinimo metu numatyti. Jei modelis apmokymo metu matė panašias tekstūras ar veidus, jis gali pridėti įtikinamų detalių; jei ne, jis gali „haliucinuoti“ tokius artefaktus kaip aureolės, vaškinė oda ar mirgėjimas vaizdo įraše. 

Svarbiausios išvados:

Prognozė: modelis sukuria tikėtinas detales, o ne garantuotą realybės rekonstrukciją.

Modelio pasirinkimas: CNN tinklai paprastai būna stabilesni; GAN tinklai gali atrodyti ryškesni, tačiau rizikuoja išrasti naujas funkcijas.

Artefaktų patikrinimai: atkreipkite dėmesį į aureoles, pasikartojančias tekstūras, „beveik raides“ ir plastikinius veidus.

Vaizdo įrašo stabilumas: naudokite laikinius metodus, kitaip matysite mirgėjimą ir dreifą tarp kadrų.

Didelio pavojaus naudojimas: jei tikslumas svarbus, atskleiskite apdorojimo aplinkybes ir rezultatus traktuokite kaip iliustracinius.

Kaip veikia dirbtinio intelekto didinimas? Infografika.

Tikriausiai esate tai matę: mažytis, traškus paveikslėlis virsta kažkuo pakankamai ryškiu, kad būtų galima atsispausdinti, transliuoti ar įdėti į pristatymą nesukeliant jokio susiraukimo. Jaučiasi kaip sukčiavimas. Ir – gerąja prasme – taip ir yra 😅

Taigi, dirbtinio intelekto didinimo principas yra labiau susijęs su kai kuo konkretesniu nei „kompiuteris paryškina detales“ (mojuodamas ranka) ir artimesniu teiginiui „modelis prognozuoja tikėtiną didelės skiriamosios gebos struktūrą, remdamasis modeliais, kuriuos išmoko iš daugybės pavyzdžių“ („Deep Learning for Image Super-resolution: A Survey“). Šis prognozavimo žingsnis yra visas žaidimas – ir todėl dirbtinio intelekto didinimas gali atrodyti stulbinamai... arba šiek tiek plastiko... arba kaip jūsų katė užsiaugino papildomus ūsus.

Straipsniai, kuriuos galbūt norėsite perskaityti po šio:

🔗 Kaip veikia dirbtinis intelektas
Sužinokite DI modelių, duomenų ir išvadų pagrindus.

🔗 Kaip mokosi dirbtinis intelektas
Sužinokite, kaip mokymo duomenys ir atsiliepimai laikui bėgant pagerina modelio našumą.

🔗 Kaip dirbtinis intelektas aptinka anomalijas
Supraskite pradinius modelius ir kaip dirbtinis intelektas greitai pažymi neįprastą elgesį.

🔗 Kaip dirbtinis intelektas prognozuoja tendencijas
Ištirkite prognozavimo metodus, kurie padeda pastebėti signalus ir numatyti būsimą paklausą.


Kaip veikia dirbtinio intelekto didinimas: pagrindinė idėja kasdieniais žodžiais tariant 🧩

Raiškos didinimas reiškia skiriamosios gebos didinimą: daugiau pikselių, didesnis vaizdas. Tradicinis raiškos didinimas (pvz., bikubinis) iš esmės ištempia pikselius ir išlygina perėjimus (bikubinė interpoliacija). Tai gerai, bet negalima sukurti naujų detalių – jis tik interpoliuoja.

Dirbtinio intelekto didinimas bando kažką drąsesnio (tyrimų pasaulyje dar vadinamo „super raiška“) (Gilusis mokymasis vaizdų super raiškai: apklausa):

  • Jis žiūri į mažos raiškos įvestį

  • Atpažįsta raštus (kraštus, tekstūras, veido bruožus, teksto brūkšnius, audinio pynimą...)

  • Numato, kaip turėtų atrodyti didesnės raiškos versija

  • Sukuria papildomus pikselių duomenis, kurie atitinka tuos šablonus

Ne „tobulai atkurti realybę“, o greičiau „padaryti labai įtikinamą spėjimą“ (vaizdo super raiška naudojant giliuosius konvoliucinius tinklus (SRCNN)). Jei tai skamba šiek tiek įtartinai, neklystate – bet būtent todėl tai taip gerai veikia 😄

Taip, tai reiškia, kad dirbtinio intelekto didinimas iš esmės yra kontroliuojama haliucinacija... bet produktyviai, pikselius tausojant.


Kas lemia gerą dirbtinio intelekto didinimo versiją? ✅🛠️

Jei vertinate dirbtinio intelekto didinimo funkciją (arba iš anksto nustatytą nustatymą), štai kas dažniausiai yra svarbiausia:

  • Detalių atkūrimas neperkaitinant.
    Geras raiškos didinimas suteikia traškumo ir struktūros, o ne traškumo triukšmo ar dirbtinių porų.

  • Briaunų disciplina.
    Švarios linijos išlieka švarios. Blogi modeliai sukelia briaunų svyravimą arba aureolių atsiradimą.

  • Tekstūros realizmas.
    Plaukai neturėtų tapti teptuko potėpiu. Plyta neturėtų tapti pasikartojančiu rašto antspaudu.

  • Triukšmo ir glaudinimo valdymas
    Daugelis kasdienių vaizdų yra mirtinai suredaguojami JPEG formatu. Geras konverteris šios žalos nepadidina (Real-ESRGAN).

  • Veidų ir teksto atpažinimas
    Veidai ir tekstas yra lengviausiai pastebimos klaidos. Geri modeliai su jomis elgiasi švelniai (arba turi specializuotus režimus).

  • Nuoseklumas visuose kadruose (vaizdo įrašams).
    Jei detalės mirga nuo kadro iki kadro, jūsų akys ims rėkti. Vaizdo įrašo konvertavimas į aukštesnę raišką priklauso nuo laiko stabilumo („BasicVSR“ (CVPR 2021)).

  • Valdikliai, kurie yra prasmingi.
    Jums reikia skaidrių, kurie atitiktų realius rezultatus: triukšmo šalinimas, suliejimo šalinimas, artefaktų šalinimas, grūdelių išlaikymas, ryškinimas... praktiniai dalykai.

Tyli taisyklė, kuri galioja: „geriausias“ vaizdo konvertavimas dažnai būna tas, kurio vos pastebite. Tiesiog atrodo, kad iš pradžių turėjote geresnę kamerą 📷✨


Palyginimo lentelė: populiarios dirbtinio intelekto didinimo parinktys (ir kam jos tinka) 📊🙂

Žemiau pateikiamas praktinis palyginimas. Kainos yra sąmoningai miglotos, nes įrankiai skiriasi priklausomai nuo licencijos, paketų, skaičiavimo išlaidų ir visų kitų įdomių dalykų.

Įrankis / metodas Geriausiai tinka Kainos vibracija Kodėl tai veikia (apytiksliai)
„Topaz“ stiliaus staliniai vaizdo keitikliai („Topaz Photo“, „Topaz Video“) Nuotraukos, vaizdo įrašai, paprastas darbo procesas Mokamas Stiprūs bendrieji modeliai + daug derinimo, dažniausiai „tiesiog veikia“..
„Adobe“ „Super Resolution“ tipo funkcijos („Adobe Enhance“ > „Super Resolution“) Fotografai jau yra toje ekosistemoje Prenumeratos Tvirta detalių rekonstrukcija, paprastai konservatyvi (mažiau dramatizmo)
Real-ESRGAN / ESRGAN variantai (Real-ESRGAN, ESRGAN) „Pasidaryk pats“, kūrėjai, paketiniai darbai Nemokamai (bet daug laiko reikalaujantis) Puikiai detalizuoja tekstūrą, bet neatsargiai gali atrodyti aštriai ant veidų
Difuzijos pagrindu veikiantys didinimo režimai (SR3) Kūrybinis darbas, stilizuoti rezultatai Mišrus Gali sukurti nuostabias detales – taip pat gali sugalvoti nesąmones, tad… taip
Žaidimų konverteriai (DLSS/FSR stiliaus) (NVIDIA DLSS, AMD FSR 2) Žaidimai realiuoju laiku ir jų perteikimas Supakuota Naudoja judesio duomenis ir išmoktus ankstesnius duomenis – sklandaus našumo pergalė 🕹️
Debesijos paslaugų didinimo paslaugos Patogumas, greitos pergalės Mokėjimas už naudojimą Greitas + keičiamo dydžio, bet jūs keičiate kontrolę, o kartais ir subtilumą
Į vaizdo įrašus orientuoti dirbtinio intelekto didinimo įrenginiai („BasicVSR“, „Topaz Video“) Seni filmuoti kadrai, anime, archyvai Mokamas Laikini triukai mirgėjimui sumažinti + specializuoti vaizdo modeliai
„Išmaniojo“ telefono / galerijos vaizdo konvertavimas į aukštesnę versiją Atsitiktinis naudojimas Įtraukta Lengvi modeliai, pritaikyti maloniam našumui, o ne tobulumui (vis tiek patogūs)

Formatavimo keistenybės prisipažinimas: „Paid-ish“ atlieka daug darbo toje lentelėje. Bet jūs suprantate mintį 😅


Didžioji paslaptis: modeliai išmoksta atvaizdavimą nuo mažos iki didelės raiškos 🧠➡️🖼️

Daugelio dirbtinio intelekto didinimo metodų pagrindas yra prižiūrimo mokymosi sistema (vaizdo super raiška naudojant giliuosius konvoliucinius tinklus (SRCNN)):

  1. Pradėkite nuo didelės raiškos vaizdų („tiesos“)

  2. Sumažinti jų skiriamąją gebą iki mažos skiriamosios gebos versijų („įvestis“)

  3. Apmokyti modelį atkurti originalią didelės raiškos nuotrauką iš mažos raiškos

Laikui bėgant modelis išmoksta tokias koreliacijas kaip:

  • „Toks neryškumas aplink akį dažniausiai būdingas blakstienoms.“

  • „Šis pikselių sankaupa dažnai nurodo serifinį tekstą“

  • „Šis krašto gradientas atrodo kaip stogo linija, o ne atsitiktinis triukšmas.“

Tai ne konkrečių vaizdų įsiminimas (paprastąja prasme), o statistinės struktūros mokymasis („Deep Learning for Image Super-resolution: A Survey“). Įsivaizduokite tai kaip tekstūrų ir kraštų gramatikos mokymąsi. Ne poezijos gramatikos, greičiau... IKEA vadovo gramatika 🪑📦 (gremėzdiška metafora, bet pakankamai artima).


Esmė: kas nutinka darant išvadas (kai keičiate mastą) ⚙️✨

Kai vaizdą tiekiate į dirbtinio intelekto didinimo įrenginį, paprastai naudojamas toks kanalas:

  • Išankstinis apdorojimas

  • Funkcijų išskyrimas

    • Ankstyvieji sluoksniai aptinka kraštus, kampus, gradientus

    • Gilesni sluoksniai aptinka modelius: tekstūras, formas, veido komponentus

  • Rekonstrukcija

    • Modelis sukuria didesnės raiškos elementų žemėlapį

    • Tada konvertuoja tai į tikrąją pikselių išvestį

  • Postapdorojimas

    • Pasirinktinai galandimas

    • Pasirinktinai triukšmo slopinimas

    • Pasirenkamas artefaktų slopinimas (skambėjimas, aureolės, blokavimas)

Viena subtili detalė: daugelis įrankių padidina plytelių dydį, o tada sulieja siūles. Puikūs įrankiai paslepia plytelių ribas. Paprasti įrankiai palieka neryškias tinklelio žymes, jei prisimerksite. Ir taip, jūs prisimerksite, nes žmonės mėgsta apžiūrinėti smulkius defektus 300 % priartinimu kaip maži gremlinai 🧌


Pagrindinės modelių šeimos, naudojamos dirbtinio intelekto didinimui (ir kodėl jos atrodo kitokios) 🤖📚

1) CNN pagrindu sukurta itin didelė skiriamoji geba (klasikinis darbinis arkliukas)

Konvoliuciniai neuroniniai tinklai puikiai tinka vietiniams šablonams: briaunoms, tekstūroms, mažoms struktūroms (vaizdo super skiriamoji geba naudojant giliuosius konvoliucinius tinklus (SRCNN)).

  • Privalumai: greitas, stabilus, mažiau netikėtumų

  • Trūkumai: gali atrodyti šiek tiek „apdirbtas“, jei stipriai spaudžiamas

2) GAN pagrindu veikiantis didinimas (ESRGAN stiliaus) 🎭

GAN (Generatyviniai priešpriešiniai tinklai) apmoko generatorių kurti didelės raiškos vaizdus, ​​kurių diskriminatorius negali atskirti nuo tikrų (Generatyviniai priešpriešiniai tinklai).

  • Privalumai: ryškios detalės, įspūdinga tekstūra

  • Trūkumai: gali išgalvoti detales, kurių nebuvo – kartais neteisingos, kartais neįtikėtinos (SRGAN, ESRGAN)

GAN gali suteikti jums kvapą gniaužiantį ryškumą. Jis taip pat gali suteikti jūsų portretuojamam objektui papildomą antakį. Taigi... rinkitės savo kovas 😬

3) Difuzija pagrįstas mastelio keitimas (kūrybinis pakaitos simbolis) 🌫️➡️🖼️

Difuzijos modeliai triukšmą šalina palaipsniui ir gali būti valdomi, kad būtų gautas didelės raiškos detalumas (SR3).

  • Privalumai: gali būti neįtikėtinai geras patikimose detalėse, ypač kūrybiniame darbe

  • Trūkumai: gali nukrypti nuo originalios tapatybės / struktūros, jei aplinka yra agresyvi (SR3)

Čia „didinimas“ pradeda susilieti su „perkūrimu“. Kartais to ir norisi. Kartais ne.

4) Vaizdo įrašo konvertavimas į aukštesnę raišką išlaikant laiko nuoseklumą 🎞️

Vaizdo įrašų didinimas dažnai prideda judesį suvokiančią logiką:

  • Naudoja gretimus kadrus detalėms stabilizuoti („BasicVSR“ (CVPR 2021))

  • Stengiasi išvengti mirgėjimo ir ropojimo artefaktų

  • Dažnai derina itin didelę skiriamąją gebą su triukšmo mažinimu ir persidengimo šalinimu („Topaz Video“)

Jei vaizdo konvertavimas į aukštesnę raišką yra tarsi vieno paveikslo restauravimas, tai vaizdo įrašo konvertavimas į aukštesnę raišką yra tarsi vartomos knygos restauravimas nereikalaujant, kad veikėjo nosis keistų formą kiekviename puslapyje. O tai... sunkiau, nei atrodo.


Kodėl dirbtinio intelekto didinimas kartais atrodo netikras (ir kaip tai atpažinti) 👀🚩

Dirbtinio intelekto didinimas neveikia atpažįstamai. Kai išmoksite modelius, juos matysite visur, pavyzdžiui, nusipirkę naują automobilį, staiga pastebėsite tą modelį kiekvienoje gatvėje 😵💫

Dažnas pasakoja:

  • Veido odos depiliacija vašku (per daug triukšmo mažinimo ir lyginimo)

  • Pernelyg paryškinti aureolės kraštuose (klasikinė „viršijimo“ teritorija) (bikubinė interpoliacija)

  • Pasikartojančios tekstūros (plytų sienos tampa kopijavimo ir įklijavimo raštais)

  • Traškus mikrokontrastas , kuris šaukia „algoritmas“

  • Teksto iškraipymas, kai raidės tampa beveik raidėmis (blogiausias tipas)

  • Detalių poslinkis, kai smulkūs elementai nežymiai keičiasi, ypač difuzijos darbo eigoje (SR3)

Sudėtinga dalis: kartais šie artefaktai iš pirmo žvilgsnio atrodo „geriau“. Jūsų smegenims patinka ryškumas. Tačiau po akimirkos atrodo... ne taip.

Gera taktika – atitolinti vaizdą ir patikrinti, ar jis atrodo natūraliai esant normaliam žiūrėjimo atstumui. Jei gerai atrodo tik priartinus 400 %, tai ne pergalė, tai tik hobis 😅


Kaip veikia dirbtinio intelekto didinimas: mokymo pusė be matematikos galvos skausmo 📉🙂

Superrezoliucijos modelių mokymas paprastai apima:

Tipiniai nuostolių tipai:

Nuolat vyksta ginčas:

  • Padarykite jį ištikimą originalui
    vs

  • Padarykite jį vizualiai patrauklų

Skirtingi įrankiai patenka į skirtingas šio spektro vietas. Jums gali būti patogiau pasirinkti vieną iš jų, priklausomai nuo to, ar restauruojate šeimos nuotraukas, ar ruošiate plakatą, kur „gražus vaizdas“ yra svarbesnis nei teismo ekspertizės tikslumas.


Praktiniai darbo eigos būdai: nuotraukos, seni nuskaitymai, anime ir vaizdo įrašai 📸🧾🎥

Nuotraukos (portretai, peizažai, produktų nuotraukos)

Geriausia praktika paprastai yra tokia:

  • Pirmiausia šiek tiek slopinkite triukšmą (jei reikia)

  • Prabangus su konservatyviais nustatymais

  • Įberkite grūdų, jei viskas atrodo per sklandžiai (taip, tikrai)

Grūdai kaip druska. Per daug sugadina vakarienę, bet jokie negali būti šiek tiek blankūs 🍟

Seni nuskaitymai ir labai suspausti vaizdai

Tai sunkiau, nes modelis gali suspaudimo blokus laikyti „tekstūra“.
Pabandykite:

  • Artefaktų pašalinimas arba atblokavimas

  • Tada pakelkite kartelę

  • Tada lengvas paryškinimas (ne per daug... žinau, visi taip sako, bet vis tiek)

Anime ir linijinis menas

Linijinis menas turi privalumų:

  • Modeliai, kurie išsaugo švarius kraštus

  • Sumažintos tekstūros haliucinacijos.
    Anime vaizdo konvertavimas į aukštesnę raišką dažnai atrodo puikiai, nes formos yra paprastesnės ir nuoseklesnės. (Laimei.)

Vaizdo įrašas

Vaizdo įraše pateikiami papildomi veiksmai:

  • Triukšmo slopinimas

  • Deinterlace (tam tikriems šaltiniams)

  • Prabangus

  • Laikinas išlyginimas arba stabilizavimas (BasicVSR (CVPR 2021))

  • Papildomas grūdų įterpimas siekiant sanglaudos

Jei praleidžiate laiko pastovumą, gaunate tą mirgantį detalių mirgėjimą. Kai jį pastebite, nebegalite jo pamiršti. Kaip girgždanti kėdė tyliame kambaryje 😖


Nustatymų pasirinkimas be didelių spėlionių (maža atmintinė) 🎛️😵💫

Štai tinkamas pradinis mąstymo būdas:

  • Jei veidai atrodo plastiški,
    sumažinkite triukšmo slopinimą, sumažinkite ryškinimą, išbandykite veidą tausojantį modelį ar režimą.

  • Jei tekstūros atrodo per daug intensyvios,
    sumažinkite slankiklius „detalių paryškinimas“ arba „detalių atkūrimas“, po to pridėkite subtilų grūdėtumą.

  • Jei kraštai šviečia,
    sumažinkite ryškumą, patikrinkite aureolių slopinimo parinktis.

  • Jei vaizdas atrodo per daug „dirbtinio intelekto“,
    rinkitės konservatyvesnius veiksmus. Kartais geriausias sprendimas yra tiesiog... mažiau.

Taip pat: nedidinkite vaizdo 8 kartus vien todėl, kad galite. Švarus 2 ar 4 kartus padidinimas dažnai yra optimalus rezultatas. Be to, jūs prašote modelio rašyti fanfikciją apie jūsų pikselius 📖😂


Etika, autentiškumas ir nepatogus „tiesos“ klausimas 🧭😬

Dirbtinio intelekto didinimas ištrina ribą:

  • Restauravimas reiškia susigrąžinti tai, kas buvo

  • Patobulinimas reiškia pridėti tai, ko nebuvo

Su asmeninėmis nuotraukomis paprastai viskas gerai (ir puiku). Su žurnalistika, teisiniais įrodymais, medicininiu vaizdavimu ar bet kuo, kur svarbi ištikimybė... reikia būti atsargiems (OSAC/NIST: Standartinis teismo skaitmeninių vaizdų valdymo vadovas, SWGDE teismo vaizdų analizės gairės).

Paprasta taisyklė:

  • Jei statymai dideli, dirbtinio intelekto didinimą laikykite iliustraciniu, o ne galutiniu pavyzdžiu.

Taip pat informacijos atskleidimas svarbus profesiniame kontekste. Ne todėl, kad dirbtinis intelektas yra blogis, o todėl, kad auditorija nusipelno žinoti, ar detalės buvo rekonstruotos, ar užfiksuotos. Tai tiesiog... pagarba.


Baigiamosios pastabos ir trumpa santrauka 🧡✅

Taigi, dirbtinio intelekto didinimo principas veikia taip: modeliai išmoksta, kaip didelės raiškos detalės linkusios būti susijusios su mažos raiškos modeliais, o tada didinimo metu numato tikėtinus papildomus pikselius („Deep Learning for Image Super-resolution: A Survey“). Priklausomai nuo modelių šeimos (CNN, GAN, difuzija, vaizdo-laikinis), ši prognozė gali būti konservatyvi ir tiksli... arba drąsi ir kartais neprognozuojama 😅

Trumpa apžvalga

Jei nori, papasakok, ką keiti (veidai, senos nuotraukos, vaizdo įrašai, anime, nuskaitytas tekstas), ir aš pasiūlysiu nustatymų strategiją, kuri padės išvengti įprastų „DI išvaizdos“ spąstų 🎯🙂

Realus pavyzdys: senų prekyvietės produktų nuotraukų raiškos didinimas 📸

Scenarijus

Maža naudotų fotoaparatų parduotuvė iš senos svetainės eksportavo 40 produktų nuotraukų, kurių plotis – 800 pikselių. Savininkas nori jas pakartotinai panaudoti naujame el. prekybos puslapyje, kuriame rekomenduojamas vaizdo dydis yra 1600 pikselių pločio.

Problema: įprastas dydžio keitimas fotoaparatus paverčia minkštais, o agresyvus dirbtinio intelekto didinimas gali įtartinai netikrus paversti gumines rankenas, serijos numerius ir objektyvų žymėjimus. Tai svarbu, nes pirkėjai prieš pirkdami pasikliauja šia informacija.

Tikslas nėra tobulai „atkurti“ trūkstamą informaciją. Tikslas – sukurti aiškesnius sąrašų vaizdus, ​​​​išsaugant originalius failus, nes dirbtinio intelekto didinimas prognozuoja tikėtinas detales, o ne garantuoja teisingumą.

Ko reikia darbo eigai

Originalios produkto nuotraukos, geriausia mažiausiai suspaustos versijos

Tikslinis išvesties dydis, pvz., 2 kartus padidintas plotis nuo 800 pikselių iki 1600 pikselių

Įrankis arba modelis su atskirais triukšmo šalinimo, ryškinimo ir artefaktų šalinimo valdikliais

Paprastas teksto, kraštų, logotipų, varžtų, sagų, odos tekstūros ir atspindžių peržiūros kontrolinis sąrašas

Aplankas originalams ir atskiras aplankas redaguotiems eksportuotiems failams, kad niekas nebūtų perrašyta

Instrukcijos pavyzdys

Testuodami dirbtinio intelekto didinimo įrenginį, naudokite tokio tipo instrukcijas:

Šios produkto nuotraukos mastelį padidinkite 2 kartus, kad ji būtų rodoma el. prekybos skelbime. Objekto formą, logotipo išdėstymą, objektyvo žymėjimus, mygtukų kraštus ir paviršiaus tekstūrą išlaikykite kuo artimesnę originalui. Naudokite nedidelį suspaudimo išvalymą, mažą ryškinimą ir venkite papildomo teksto, įbrėžimų, etikečių, serijos numerių ar dekoratyvinių detalių išradimo. Galutinis vaizdas turėtų atrodyti natūralus esant įprastam produkto puslapio dydžiui, o ne dirbtinai ryškus esant 400 % priartinimui.

Kaip tai išbandyti

Prieš apdorodami visą partiją, pradėkite nuo penkių mišrių vaizdų:

Viena švari produkto nuotrauka su geru apšvietimu

Vienas JPEG formatu suspaustas vaizdas su blokiškumu

Viena nuotrauka su smulkiu spausdintu tekstu arba objektyvo žymėmis

Vienas tamsus vaizdas su triukšmu šešėliuose

Vienas vaizdas su atspindinčiu metalu arba stiklu

Po padidinimo palyginkite kiekvieną rezultatą su originalu, kai vaizdas yra 100 % ir 200 %. Patikrinkite, ar prekių ženklai, ratukai, varžtai, prievadai ir tekstūros raštai vis dar sutampa. Jei modelis sukuria „beveik raides“ arba netikrus paviršiaus žymes, sumažinkite ryškinimo arba detalių atkūrimo nustatymą.

Rezultatas

Iliustracinis rezultatas: pagrįstas penkių vaizdų bandymo laiko matavimu prieš ir po šio darbo eigos naudojimo.

Rankinis valymas ir dydžio keitimas užtruko apie 9 minutes vienam vaizdui arba 45 minutes penkiems vaizdams.

Dirbtinio intelekto pagalba atliktas darbo procesas truko apie 3 minutes vienam vaizdui arba 15 minučių penkiems vaizdams.

Tai maždaug 30 minučių sutaupyta penkiems vaizdams arba apie 4 valandas sutaupyta iš 40 vaizdų partijos.

Kokybės patikrinimo rezultatas: 4 iš 5 vaizdų sėkmingai praėjo pirmąją peržiūrą. Vienas vaizdas nebuvo patikrintas, nes didinimo funkcija iškraipė smulkų objektyvo tekstą, todėl jis buvo apdorotas iš naujo, sumažinant ryškumą ir be teksto patobulinimo.

Vertingas rodiklis čia yra ne tik „atrodo ryškiau“. Tai yra: kiek vaizdų be išgalvotų detalių praeina greta esančių peržiūrų?

Kas gali nutikti ne taip

Modelis gali paversti dulkes, JPEG blokus ar įbrėžimus „tikra“ tekstūra.

Smulkus tekstas gali tapti netikru tekstu, kuris atrodo įtikinamas, kol nepriartinate.

Per didelis triukšmo slopinimas gali suteikti gumai, odai ar šlifuotam metalui vaško įvaizdį.

Stiprus galandimas gali sukurti aureoles aplink gaminio kraštus.

Paketinis apdorojimas gali paslėpti klaidas, todėl prieš eksportuodami viską peržiūrėkite pavyzdį.

Elektroninei prekybai saugiausia taisyklė yra paprasta: niekada nenaudokite dirbtinio intelekto didinimo, kad paslėptumėte pažeidimus, pakeistumėte produkto būklę ar suteiktumėte jam naujesnę išvaizdą.

Praktiškas išsinešimui skirtas maistas

Dirbtinio intelekto didinimas veikia geriausiai, kai jį traktuojate kaip kontroliuojamą užbaigimo žingsnį, o ne kaip stebuklingą taisymo mygtuką. Naudokite konservatyvius 2× nustatymus, patikrinkite pirkėjams rūpimas detales ir išsaugokite originalų vaizdą, kad redaguota versija išliktų patikima.

Realus pavyzdys: seno mokomojo vaizdo įrašo raiškos didinimas nepaverčiant jo blizgučiais

Scenarijus

Maža mokymo įmonė 2014 m. įrašė 7 minučių trukmės saugos demonstracinį vaizdo įrašą 720p raiška. Turinys vis dar vertingas, tačiau filmuota medžiaga įmonės naujoje svetainėje atrodo blankiai, ypač didesniuose nešiojamųjų kompiuterių ekranuose.

Komanda nori eksportuoti švaresnę 1080p versiją be perfilmavimo. Rizika ta, kad agresyvus dirbtinio intelekto didinimas gali paversti veidus vaškiniais, tekstą ant ženklų paversti „beveik žodžiais“ arba sukurti mirgančią tekstūrą nuo kadro iki kadro.

Tikslas nėra padaryti vaizdo įrašą visiškai naują. Tikslas – padaryti jį aiškesnį, stabilesnį ir mažiau suspaustą, išlaikant instruktoriaus veidą, įspėjamuosius ženklus, rankų judesius ir įrangos detales ištikimas originalui.

Ko reikia darbo eigai

Originalus vaizdo įrašo failas, jei įmanoma, ne suspaustas atsisiuntimas iš socialinių tinklų

Tikslinis eksporto dydis, pvz., 720p į 1080p, o ne iš karto pereiti prie 4K

Vaizdo įrašų didinimo programa su triukšmo šalinimo, ryškinimo, glaudinimo taisymo ir laikinio nuoseklumo parinktimis

Trumpas bandomasis klipas su veidais, judesiu, tekstu ir detaliais paviršiais

Mirgėjimo, aureolių, iškreipto teksto, veido tekstūros ir judančių kraštų peržiūros kontrolinis sąrašas

Išsaugota originalaus vaizdo įrašo kopija palyginimui ir atskleidimui, jei reikia

Instrukcijos pavyzdys

Prieš apdorodami visą vaizdo įrašą, naudokite šią instrukciją:

Padidinkite šio 720p mokomojo vaizdo įrašo raišką iki 1080p. Pirmenybę teikite natūraliam judesiui, stabiliems kraštams, įskaitomam esamam tekstui ir realistiškai odos tekstūrai. Naudokite nedidelį suspaudimo taisymą ir mažą ryškinimą. Nekurkite trūkstamo teksto, logotipų, etikečių, įbrėžimų, veido detalių ar įrangos žymėjimų. Venkite mirgėjimo nuo kadro iki kadro. Galutinis rezultatas turėtų atrodyti aiškesnis esant įprastam žiūrėjimo dydžiui, o ne dirbtinai ryškus pristabdžius ir priartinus.

Kaip tai išbandyti

Prieš apdorojant visą 7 minučių failą, eksportuokite 20 sekundžių trukmės pavyzdį, kuriame yra:

Instruktoriaus veidas kalbant

Ranka juda per kadrą

Įspėjamoji etiketė arba smulkiai spausdintas tekstas

Tekstūruotas paviršius, pavyzdžiui, audinys, betonas, šlifuotas metalas arba plastikas

Kameros panoraminis judesys arba bet koks drebantis judesys

Peržiūrėkite pavyzdį du kartus: vieną kartą įprastu greičiu ir vieną kartą pristabdę, kadras po kadro. Įprastu greičiu ieškokite mirgėjimo, šliaužiančios tekstūros ar nenatūralaus judesio aplink kraštus. Pristabdę palyginkite originalią ir padidinto formato versijas, kad patikrintumėte, ar tekstas, mygtukai, įrankiai ir veido bruožai vis dar sutampa.

Rezultatas

Iliustracinis rezultatas: pagrįstas vieno 20 sekundžių trukmės bandomojo klipo laiko nustatymu ir tų pačių nustatymų pritaikymu 7 minučių trukmės vaizdo įrašui.

Rankinis „dydžio keitimo ir paryškinimo“ darbo eiga, įskaitant eksportavimą ir peržiūrą, užtruko apie 35 minutes, tačiau rezultatas parodė matomą žvilgesį ant instruktoriaus plaukų ir aureoles aplink saugos ženklus.

Dirbtinio intelekto pagalba atliktas darbo procesas, įskaitant bandomuosius eksportus, užtruko apie 55 minutes, tačiau peržiūros problemos sumažėjo nuo 8 matomų problemų pirmajame eksporte iki 2 nedidelių problemų galutiniame eksporte.

Galutinė versija atitiko 10 iš 12 peržiūros kontrolinio sąrašo patikrinimų. Likusios dvi problemos buvo šiek tiek blankus foninis tekstas ir nedidelis triukšmas viename tamsiame kampe. Abi problemos buvo priimtos, nes instruktorius, įranga ir saugos veiksmai išliko vizualiai nuoseklūs.

Reikšmingas rodiklis čia nėra „pasiekta 1080p raiška“. Svarbu: kiek sekundžių vaizdo įrašo rodomi blaškantys artefaktai įprasto atkūrimo metu?

Kas gali nutikti ne taip

Modelis gali pagaląsti suspaudimo blokus ir padaryti juos panašius į tikrą tekstūrą.

Smulkus tekstas gali atrodyti užtikrinčiau, bet mažiau tiksliai.

Veidai gali tapti pernelyg lygūs, jei triukšmo slopinimas yra per didelis.

Judantys kraštai gali mirgėti, jei įrankis kiekvieną kadrą apdoroja pernelyg atskirai.

4K eksportas gali atrodyti blogiau nei santūrus 1080p eksportas, nes modelis turi išrasti per daug detalių.

Didžiausia klaida – vertinti tik pristabdytą kadrą. Vaizdo įrašo konvertavimas į aukštesnę raišką turi atrodyti natūraliai judant, o ne tik įspūdingai kaip statinis vaizdas.

Praktiškas išsinešimui skirtas maistas

Vaizdo įrašams dirbtinio intelekto didinimas geriausiai veikia, kai pirmiausia išbandomas trumpas kadras, didinimas išlieka nedidelis ir judesys vertinamas pirmiausia, o tik tada ryškumas. Šiek tiek švelnesnis, bet stabilus rezultatas paprastai yra geresnis nei ryškus vaizdas, kuris mirga kaskart, kai kas nors pajuda.


DUK

Dirbtinio intelekto didinimas ir kaip jis veikia

Dirbtinio intelekto didinimas (dažnai vadinamas „superraiška“) padidina vaizdo skiriamąją gebą, numatydamas trūkstamas didelės skiriamosios gebos detales pagal mokymo metu išmoktus modelius. Užuot tiesiog ištempęs pikselius, kaip tai daroma bikubinės interpoliacijos būdu, modelis tiria kraštus, tekstūras, veidus ir į tekstą panašius potėpius, o tada generuoja naujus pikselių duomenis, kurie atitinka tuos išmoktus modelius. Tai mažiau „realybės atkūrimas“, o labiau „įtikinamas spėjimas“, kuris skamba natūraliai.

DI didinimas, palyginti su bikubiniu arba tradiciniu dydžio keitimu

Tradiciniai didinimo metodai (pvz., bikubinis) daugiausia interpoliuoja tarp esamų pikselių, išlygindami perėjimus nesukurdami naujų detalių. Dirbtinio intelekto didinimas siekia atkurti tikėtiną struktūrą atpažindamas vaizdinius ženklus ir numatydamas, kaip atrodo didelės raiškos šių ženklų versijos. Štai kodėl dirbtinio intelekto rezultatai gali atrodyti žymiai ryškesni, taip pat todėl jie gali įterpti artefaktų arba „išrasti“ detales, kurių nebuvo šaltinyje.

Kodėl veidai gali atrodyti vaškuoti arba pernelyg lygūs

Vaškiniai veidai dažniausiai atsiranda dėl agresyvaus triukšmo mažinimo ir išlyginimo, derinamo su paryškinimu, kuris pašalina natūralią odos tekstūrą. Daugelis įrankių triukšmą ir smulkią tekstūrą apdoroja panašiai, todėl vaizdo „valymas“ gali ištrinti poras ir subtilias detales. Įprastas būdas yra sumažinti triukšmo mažinimą ir paryškinimą, naudoti veido išsaugojimo režimą, jei toks yra, o tada vėl pridėti šiek tiek grūdėtumo, kad rezultatas atrodytų mažiau plastiškas ir labiau fotografinis.

Dažniausi dirbtinio intelekto didinimo artefaktai, į kuriuos reikia atkreipti dėmesį

Tipiniai požymiai yra aureolės aplink kraštus, pasikartojantys tekstūros raštai (kaip kopijavimo ir įklijavimo plytos), traškus mikrokontrastas ir tekstas, kuris virsta „beveik raidėmis“. Difuzijos pagrindu veikiančiuose darbo eigose taip pat galite pastebėti detalių poslinkį, kai smulkūs elementai subtiliai pasikeičia. Vaizdo įrašuose mirgėjimas ir detalių slinkimas per kadrus yra didelės pavojaus signalinės reikšmės. Jei gerai atrodo tik esant dideliam priartinimui, nustatymai tikriausiai per agresyvūs.

Kaip GAN, CNN ir difuzijos didinimo įrankiai paprastai skiriasi rezultatuose

CNN pagrindu sukurta itin didelė skiriamoji geba paprastai būna stabilesnė ir labiau nuspėjama, tačiau per daug išnaudota gali atrodyti „apdorota“. GAN pagrindu sukurtos parinktys (ESRGAN stiliaus) dažnai sukuria ryškesnę tekstūrą ir suvokiamą ryškumą, tačiau jos gali sukelti neteisingas detales, ypač veiduose. Difuzija pagrįstas didinimas gali sukurti gražias, tikėtinas detales, tačiau jos gali nukrypti nuo pradinės struktūros, jei orientavimo ar stiprumo nustatymai yra per stiprūs.

Praktinė nustatymų strategija, kaip išvengti „pernelyg dirbtinio intelekto“ išvaizdos

Pradėkite konservatyviai: prieš griebdamiesi ekstremalių veiksnių, padidinkite vaizdą 2× arba 4×. Jei veidai atrodo plastiški, sumažinkite triukšmo šalinimą ir ryškinimą ir išbandykite veidų atpažinimo režimą. Jei tekstūros tampa per daug intensyvios, sumažinkite detalių išryškinimą ir vėliau apsvarstykite galimybę pridėti subtilų grūdėtumą. Jei kraštai švyti, sumažinkite ryškinimą ir patikrinkite aureolės ar artefaktų slopinimą. Daugelyje kanalų „mažiau“ laimi, nes taip išsaugomas tikėtinas realizmas.

Senų nuskaitytų vaizdų arba stipriai JPEG suspaustų vaizdų tvarkymas prieš konvertavimą į aukštesnę versiją

Suspausti vaizdai yra keblūs, nes modeliai gali blokinius artefaktus traktuoti kaip tikrą tekstūrą ir juos sustiprinti. Įprastas darbo eiga pirmiausia pašalina artefaktus arba juos išblokuoja, tada padidina mastą ir, jei reikia, šiek tiek paryškina. Skenuojant, švelnus valymas gali padėti modeliui sutelkti dėmesį į tikrąją struktūrą, o ne į pažeidimus. Tikslas – sumažinti „netikrų tekstūrų užuominų“, kad didinimo specialistas nebūtų priverstas daryti užtikrintų spėjimų iš triukšmingų įvesties duomenų.

Kodėl vaizdo įrašų didinimas yra sudėtingesnis nei nuotraukų

Vaizdo įrašo konvertavimas turi būti nuoseklus visuose kadruose, o ne geras tik viename nejudančiame vaizde. Jei detalės mirga nuo kadro iki kadro, rezultatas greitai pradeda blaškyti dėmesį. Į vaizdo įrašą orientuoti metodai naudoja laiko informaciją iš gretimų kadrų, kad stabilizuotų rekonstrukciją ir išvengtų mirgėjimo artefaktų. Daugelyje darbo eigų taip pat yra triukšmo šalinimas, tam tikrų šaltinių deinterlacavimas ir pasirenkamas grūdelių atkūrimas, kad visa seka atrodytų vientisa, o ne dirbtinai ryški.

Kai dirbtinio intelekto didinimas netinka arba juo rizikinga pasikliauti

Dirbtinio intelekto didinimas geriausiai vertinamas kaip patobulinimas, o ne įrodymas. Svarbiose situacijose, tokiose kaip žurnalistika, teisiniai įrodymai, medicininis vaizdavimas ar teismo ekspertizė, „įtikinamų“ pikselių generavimas gali klaidinti, nes gali būti pridėta neužfiksuotų detalių. Saugesnis požiūris yra naudoti jį iliustraciniu būdu ir atskleisti, kad dirbtinio intelekto procesas rekonstravo detalę. Jei tikslumas yra labai svarbus, išsaugokite originalus ir dokumentuokite kiekvieną apdorojimo žingsnį bei aplinką.

Nuorodos

  1. arXivGilusis mokymasis vaizdų itin didelei skiriamajai gebai: apžvalgaarxiv.org

  2. arXivitin didelės skiriamosios gebos vaizdo kūrimas naudojant giliuosius konvoliucinius tinklus (SRCNN)arxiv.org

  3. arXivReal-ESRGANarxiv.org

  4. arXiv - ESRGAN - arxiv.org

  5. arXiv - SR3 - arxiv.org

  6. NVIDIA kūrėjasNVIDIA DLSSdeveloper.nvidia.com

  7. AMD GPUOpen„FidelityFX Super Resolution 2“gpuopen.com

  8. Kompiuterinės regos fondo (CVF) atvira prieiga„BasicVSR“: esminių komponentų paieška vaizdo įrašų itin didelės raiškos raiškoje (CVPR 2021)openaccess.thecvf.com

  9. arXivGeneratyvūs priešpriešiniai tinklaiarxiv.org

  10. arXiv - SRGAN - arxiv.org

  11. arXivSuvokimo praradimai (Johnson ir kt., 2016)arxiv.org

  12. „GitHub“„Real-ESRGAN“ saugykla (plytelių parinktys)github.com

  13. VikipedijaBikubinė interpoliacijawikipedia.org

  14. „Topaz Labs“„Topaz“ nuotraukatopazlabs.com

  15. „Topaz Labs“„Topaz“ vaizdo įrašastopazlabs.com

  16. „Adobe“ pagalbos centras„Adobe Enhance“ > Super raiškahelpx.adobe.com

  17. NIST / OSACStandartinis teismo ekspertizės skaitmeninių vaizdų valdymo vadovas (1.0 versija)nist.gov

  18. SWGDETeismo ekspertizės vaizdų analizės gairėsswgde.org

Raskite naujausią dirbtinį intelektą oficialioje dirbtinio intelekto asistentų parduotuvėje

Apie mus

Atgal į tinklaraštį

Papildomi DUK

  • Kuo DI didinimas skiriasi nuo tradicinių dydžio keitimo metodų?

    Dirbtinio intelekto didinimo technologija numato trūkstamas didelės raiškos detales esamuose vaizdo raštuose, o ne tiesiog ištempia pikselius, kaip tai daroma tradiciniais metodais, tokiais kaip bikubinė interpoliacija. Dėl to vaizdai tampa ryškesni ir detalesni.

  • Į kokius dažnus artefaktus turėčiau atkreipti dėmesį naudodamas dirbtinio intelekto didinimą?

    Įprasti artefaktai yra aureolės aplink kraštus, pasikartojantys tekstūros raštai, pernelyg lygūs arba vaškiniai paviršiai ir tekstas, kuris virsta „beveik raidėmis“. Svarbu stebėti šias problemas, kad rezultatas atrodytų natūraliai.

  • Kodėl veidai kartais po padidinimo atrodo pernelyg lygūs arba nerealistiški?

    Veidai gali atrodyti pernelyg lygūs dėl agresyvaus triukšmo mažinimo ir paryškinimo, kuris gali pašalinti tekstūras, tokias kaip poros. Norėdami išgauti natūralesnį vaizdą, apsvarstykite galimybę sumažinti triukšmo mažinimo ir paryškinimo nustatymus.

  • Ką daryti, jei panaudojus dirbtinio intelekto konvertavimą į aukštesnę raišką mano vaizdai atrodo traškūs arba juose per daug triukšmo?

    Jei jūsų nuotraukos atrodo traškios, pabandykite pakoreguoti triukšmo šalinimo ir detalių gerinimo slankiklius. Subtilus grūdėtumas taip pat gali padėti atkurti fotografiškesnį pojūtį.

  • Kaip GAN ir CNN modeliai skiriasi dirbtinio intelekto didinimo rezultatuose?

    CNN modeliai paprastai yra stabilūs ir nuspėjami, o GAN modeliai dažnai pateikia ryškesnes detales, tačiau rizikuoja įterpti nerealistiškus elementus. Pasirinkimas priklauso nuo to, ar jums reikia realizmo, ar patobulintos tekstūros.

  • Ar dirbtinio intelekto didinimas tinka vaizdo turiniui ir kokius iššūkius tai kelia?

    Taip, dirbtinio intelekto didinimas tinka vaizdo įrašams, tačiau tai gali būti sudėtinga, nes labai svarbus nuoseklumas visuose kadruose. Mirgančios ar mirgančios detalės gali blaškyti žiūrovus, todėl rekomenduojami specializuoti vaizdo įrašams skirti metodai.

  • Kada netinkama pasikliauti dirbtinio intelekto didinimu?

    Dirbtinio intelekto didinimas turėtų būti naudojamas atsargiai didelės rizikos scenarijuose, tokiuose kaip žurnalistika ar teismo ekspertizė, kur tikslumas yra labai svarbus. Tai geriausia traktuoti kaip patobulinimą, o ne kaip galutinį įrodymą, o dirbtinio intelekto procesų skaidrumas yra būtinas.

  • Į ką turėčiau atkreipti dėmesį keisdamas labai suspaustų vaizdų raišką?

    Labai suspaustų vaizdų atveju pradėkite nuo artefaktų šalinimo, kad sumažintumėte nepageidaujamą blokiškumą. Po to, jei reikia, galite padidinti mastelį ir pritaikyti nedidelį paryškinimą, kad išlaikytumėte detales nestiprindami suspaudimo artefaktų.