Trumpas atsakymas: dirbtinio intelekto didinimas veikia apmokant modelį su suporuotais žemos ir didelės skiriamosios gebos vaizdais, o tada panaudojant juos numatomiems papildomiems pikseliams didinimo metu numatyti. Jei modelis apmokymo metu matė panašias tekstūras ar veidus, jis gali pridėti įtikinamų detalių; jei ne, jis gali „haliucinuoti“ tokius artefaktus kaip aureolės, vaškinė oda ar mirgėjimas vaizdo įraše.
Svarbiausios išvados:
Prognozė : modelis sukuria tikėtinas detales, o ne garantuotą realybės rekonstrukciją.
Modelio pasirinkimas : CNN tinklai paprastai būna stabilesni; GAN tinklai gali atrodyti ryškesni, tačiau rizikuoja išrasti naujas funkcijas.
Artefaktų patikrinimai : atkreipkite dėmesį į aureoles, pasikartojančias tekstūras, „beveik raides“ ir plastikinius veidus.
Vaizdo įrašo stabilumas : naudokite laikinius metodus, kitaip matysite mirgėjimą ir dreifą tarp kadrų.
Didelio pavojaus naudojimas : jei tikslumas svarbus, atskleiskite apdorojimo aplinkybes ir rezultatus traktuokite kaip iliustracinius.

Tikriausiai esate tai matę: mažytis, traškus paveikslėlis virsta kažkuo pakankamai ryškiu, kad būtų galima atsispausdinti, transliuoti ar įdėti į pristatymą nesukeliant jokio susiraukimo. Jaučiasi kaip sukčiavimas. Ir – gerąja prasme – taip ir yra 😅
Taigi, dirbtinio intelekto didinimo principas yra labiau susijęs su kai kuo konkretesniu nei „kompiuteris paryškina detales“ (mojuodamas ranka) ir artimesniu teiginiui „modelis prognozuoja tikėtiną didelės skiriamosios gebos struktūrą, remdamasis modeliais, kuriuos išmoko iš daugybės pavyzdžių“ („ Deep Learning for Image Super-resolution: A Survey “). Šis prognozavimo žingsnis yra visas žaidimas – ir todėl dirbtinio intelekto didinimas gali atrodyti stulbinamai... arba šiek tiek plastiko... arba kaip jūsų katė užsiaugino papildomus ūsus.
Straipsniai, kuriuos galbūt norėsite perskaityti po šio:
🔗 Kaip veikia dirbtinis intelektas
Sužinokite DI modelių, duomenų ir išvadų pagrindus.
🔗 Kaip mokosi dirbtinis intelektas
Sužinokite, kaip mokymo duomenys ir atsiliepimai laikui bėgant pagerina modelio našumą.
🔗 Kaip dirbtinis intelektas aptinka anomalijas
Supraskite pradinius modelius ir kaip dirbtinis intelektas greitai pažymi neįprastą elgesį.
🔗 Kaip dirbtinis intelektas prognozuoja tendencijas
Ištirkite prognozavimo metodus, kurie padeda pastebėti signalus ir numatyti būsimą paklausą.
Kaip veikia dirbtinio intelekto didinimas: pagrindinė idėja kasdieniais žodžiais tariant 🧩
Raiškos didinimas reiškia skiriamosios gebos didinimą: daugiau pikselių, didesnis vaizdas. Tradicinis raiškos didinimas (pvz., bikubinis) iš esmės ištempia pikselius ir išlygina perėjimus ( bikubinė interpoliacija ). Tai gerai, bet negalima sukurti naujų detalių – jis tik interpoliuoja.
Dirbtinio intelekto didinimas bando kažką drąsesnio (tyrimų pasaulyje dar vadinamo „super raiška“) ( Gilusis mokymasis vaizdų super raiškai: apklausa ):
-
Jis žiūri į mažos raiškos įvestį
-
Atpažįsta raštus (kraštus, tekstūras, veido bruožus, teksto brūkšnius, audinio pynimą...)
-
turėtų atrodyti didesnės raiškos versija
-
Sukuria papildomus pikselių duomenis, kurie atitinka tuos šablonus
Ne „tobulai atkurti realybę“, o greičiau „padaryti labai įtikinamą spėjimą“ ( vaizdo super raiška naudojant giliuosius konvoliucinius tinklus (SRCNN) ). Jei tai skamba šiek tiek įtartinai, neklystate – bet būtent todėl tai taip gerai veikia 😄
Taip, tai reiškia, kad dirbtinio intelekto didinimas iš esmės yra kontroliuojama haliucinacija... bet produktyviai, pikselius tausojant.
Kas lemia gerą dirbtinio intelekto didinimo versiją? ✅🛠️
Jei vertinate dirbtinio intelekto didinimo funkciją (arba iš anksto nustatytą nustatymą), štai kas dažniausiai yra svarbiausia:
-
Detalių atkūrimas neperkaitinant.
Geras raiškos didinimas suteikia traškumo ir struktūros, o ne traškumo triukšmo ar dirbtinių porų. -
Briaunų disciplina.
Švarios linijos išlieka švarios. Blogi modeliai sukelia briaunų svyravimą arba aureolių atsiradimą. -
Tekstūros realizmas.
Plaukai neturėtų tapti teptuko potėpiu. Plyta neturėtų tapti pasikartojančiu rašto antspaudu. -
Triukšmo ir glaudinimo valdymas
Daugelis kasdienių vaizdų yra mirtinai suredaguojami JPEG formatu. Geras konverteris šios žalos nepadidina ( Real-ESRGAN ). -
Veidų ir teksto atpažinimas
Veidai ir tekstas yra lengviausiai pastebimos klaidos. Geri modeliai su jomis elgiasi švelniai (arba turi specializuotus režimus). -
Nuoseklumas visuose kadruose (vaizdo įrašams).
Jei detalės mirga nuo kadro iki kadro, jūsų akys ims rėkti. Vaizdo įrašo konvertavimas į aukštesnę raišką priklauso nuo laiko stabilumo ( „BasicVSR“ (CVPR 2021) ). -
Valdikliai, kurie yra prasmingi.
Jums reikia skaidrių, kurie atitiktų realius rezultatus: triukšmo šalinimas, suliejimo šalinimas, artefaktų šalinimas, grūdelių išlaikymas, ryškinimas... praktiniai dalykai.
Tyli taisyklė, kuri galioja: „geriausias“ vaizdo konvertavimas dažnai būna tas, kurio vos pastebite. Tiesiog atrodo, kad iš pradžių turėjote geresnę kamerą 📷✨
Palyginimo lentelė: populiarios dirbtinio intelekto didinimo parinktys (ir kam jos tinka) 📊🙂
Žemiau pateikiamas praktinis palyginimas. Kainos yra sąmoningai miglotos, nes įrankiai skiriasi priklausomai nuo licencijos, paketų, skaičiavimo išlaidų ir visų kitų įdomių dalykų.
| Įrankis / metodas | Geriausiai tinka | Kainos vibracija | Kodėl tai veikia (apytiksliai) |
|---|---|---|---|
| „Topaz“ stiliaus staliniai vaizdo keitikliai ( „Topaz Photo“ , „Topaz Video “) | Nuotraukos, vaizdo įrašai, paprastas darbo procesas | Mokamas | Stiprūs bendrieji modeliai + daug derinimo, dažniausiai „tiesiog veikia“.. |
| „Adobe“ „Super Resolution“ tipo funkcijos ( „Adobe Enhance“ > „Super Resolution “) | Fotografai jau yra toje ekosistemoje | Prenumeratos | Tvirta detalių rekonstrukcija, paprastai konservatyvi (mažiau dramatizmo) |
| Real-ESRGAN / ESRGAN variantai ( Real-ESRGAN , ESRGAN ) | „Pasidaryk pats“, kūrėjai, paketiniai darbai | Nemokamai (bet daug laiko reikalaujantis) | Puikiai detalizuoja tekstūrą, bet neatsargiai gali atrodyti aštriai ant veidų |
| Difuzijos pagrindu veikiantys didinimo režimai ( SR3 ) | Kūrybinis darbas, stilizuoti rezultatai | Mišrus | Gali sukurti nuostabias detales – taip pat gali sugalvoti nesąmones, tad… taip |
| Žaidimų konverteriai (DLSS/FSR stiliaus) ( NVIDIA DLSS , AMD FSR 2 ) | Žaidimai realiuoju laiku ir jų perteikimas | Supakuota | Naudoja judesio duomenis ir išmoktus ankstesnius duomenis – sklandaus našumo pergalė 🕹️ |
| Debesijos paslaugų didinimo paslaugos | Patogumas, greitos pergalės | Mokėjimas už naudojimą | Greitas + keičiamo dydžio, bet jūs keičiate kontrolę, o kartais ir subtilumą |
| Į vaizdo įrašus orientuoti dirbtinio intelekto didinimo įrenginiai ( „BasicVSR“ , „Topaz Video“ ) | Seni filmuoti kadrai, anime, archyvai | Mokamas | Laikini triukai mirgėjimui sumažinti + specializuoti vaizdo modeliai |
| „Išmaniojo“ telefono / galerijos vaizdo konvertavimas į aukštesnę versiją | Atsitiktinis naudojimas | Įtraukta | Lengvi modeliai, pritaikyti maloniam našumui, o ne tobulumui (vis tiek patogūs) |
Formatavimo keistenybės prisipažinimas: „Paid-ish“ atlieka daug darbo toje lentelėje. Bet jūs suprantate mintį 😅
Didžioji paslaptis: modeliai išmoksta atvaizdavimą nuo mažos iki didelės raiškos 🧠➡️🖼️
Daugelio dirbtinio intelekto didinimo metodų pagrindas yra prižiūrimo mokymosi sistema ( vaizdo super raiška naudojant giliuosius konvoliucinius tinklus (SRCNN) ):
-
Pradėkite nuo didelės raiškos vaizdų („tiesos“)
-
Sumažinti jų skiriamąją gebą iki mažos skiriamosios gebos versijų („įvestis“)
-
Apmokyti modelį atkurti originalią didelės raiškos nuotrauką iš mažos raiškos
Laikui bėgant modelis išmoksta tokias koreliacijas kaip:
-
„Toks neryškumas aplink akį dažniausiai būdingas blakstienoms.“
-
„Šis pikselių sankaupa dažnai nurodo serifinį tekstą“
-
„Šis krašto gradientas atrodo kaip stogo linija, o ne atsitiktinis triukšmas.“
Tai ne konkrečių vaizdų įsiminimas (paprastąja prasme), o statistinės struktūros mokymasis („ Deep Learning for Image Super-resolution: A Survey “). Įsivaizduokite tai kaip tekstūrų ir kraštų gramatikos mokymąsi. Ne poezijos gramatikos, greičiau... IKEA vadovo gramatika 🪑📦 (gremėzdiška metafora, bet pakankamai artima).
Esmė: kas nutinka darant išvadas (kai keičiate mastą) ⚙️✨
Kai vaizdą tiekiate į dirbtinio intelekto didinimo įrenginį, paprastai naudojamas toks kanalas:
-
Išankstinis apdorojimas
-
Konvertuoti spalvų erdvę (kartais)
-
Normalizuokite pikselių vertes
-
Suskirstyti vaizdą į dalis, jei jis didelis (VRAM realybės patikrinimas 😭) ( Real-ESRGAN saugykla (plytelių parinktys) )
-
-
Funkcijų išskyrimas
-
Ankstyvieji sluoksniai aptinka kraštus, kampus, gradientus
-
Gilesni sluoksniai aptinka modelius: tekstūras, formas, veido komponentus
-
-
Rekonstrukcija
-
Modelis sukuria didesnės raiškos elementų žemėlapį
-
Tada konvertuoja tai į tikrąją pikselių išvestį
-
-
Postapdorojimas
-
Pasirinktinai galandimas
-
Pasirinktinai triukšmo slopinimas
-
Pasirenkamas artefaktų slopinimas (skambėjimas, aureolės, blokavimas)
-
Viena subtili detalė: daugelis įrankių padidina plytelių dydį, o tada sulieja siūles. Puikūs įrankiai paslepia plytelių ribas. Paprasti įrankiai palieka neryškias tinklelio žymes, jei prisimerksite. Ir taip, jūs prisimerksite, nes žmonės mėgsta apžiūrinėti smulkius defektus 300 % priartinimu kaip maži gremlinai 🧌
Pagrindinės modelių šeimos, naudojamos dirbtinio intelekto didinimui (ir kodėl jos atrodo kitokios) 🤖📚
1) CNN pagrindu sukurta itin didelė skiriamoji geba (klasikinis darbinis arkliukas)
Konvoliuciniai neuroniniai tinklai puikiai tinka vietiniams šablonams: briaunoms, tekstūroms, mažoms struktūroms ( vaizdo super skiriamoji geba naudojant giliuosius konvoliucinius tinklus (SRCNN) ).
-
Privalumai: greitas, stabilus, mažiau netikėtumų
-
Trūkumai: gali atrodyti šiek tiek „apdirbtas“, jei stipriai spaudžiamas
2) GAN pagrindu veikiantis didinimas (ESRGAN stiliaus) 🎭
GAN (Generatyviniai priešpriešiniai tinklai) apmoko generatorių kurti didelės raiškos vaizdus, kurių diskriminatorius negali atskirti nuo tikrų ( Generatyviniai priešpriešiniai tinklai ).
-
Privalumai: ryškios detalės, įspūdinga tekstūra
-
Trūkumai: gali išgalvoti detales, kurių nebuvo – kartais neteisingos, kartais neįtikėtinos ( SRGAN , ESRGAN )
GAN gali suteikti jums kvapą gniaužiantį ryškumą. Jis taip pat gali suteikti jūsų portretuojamam objektui papildomą antakį. Taigi... rinkitės savo kovas 😬
3) Difuzija pagrįstas mastelio keitimas (kūrybinis pakaitos simbolis) 🌫️➡️🖼️
Difuzijos modeliai triukšmą šalina palaipsniui ir gali būti valdomi, kad būtų gautas didelės raiškos detalumas ( SR3 ).
-
Privalumai: gali būti neįtikėtinai geras patikimose detalėse, ypač kūrybiniame darbe
-
Trūkumai: gali nukrypti nuo originalios tapatybės / struktūros, jei aplinka yra agresyvi ( SR3 )
Čia „didinimas“ pradeda susilieti su „perkūrimu“. Kartais to ir norisi. Kartais ne.
4) Vaizdo įrašo konvertavimas į aukštesnę raišką išlaikant laiko nuoseklumą 🎞️
Vaizdo įrašų didinimas dažnai prideda judesį suvokiančią logiką:
-
Naudoja gretimus kadrus detalėms stabilizuoti ( „BasicVSR“ (CVPR 2021) )
-
Stengiasi išvengti mirgėjimo ir ropojimo artefaktų
-
Dažnai derina itin didelę skiriamąją gebą su triukšmo mažinimu ir persidengimo šalinimu ( „Topaz Video“ )
Jei vaizdo konvertavimas į aukštesnę raišką yra tarsi vieno paveikslo restauravimas, tai vaizdo įrašo konvertavimas į aukštesnę raišką yra tarsi vartomos knygos restauravimas nereikalaujant, kad veikėjo nosis keistų formą kiekviename puslapyje. O tai... sunkiau, nei atrodo.
Kodėl dirbtinio intelekto didinimas kartais atrodo netikras (ir kaip tai atpažinti) 👀🚩
Dirbtinio intelekto didinimas neveikia atpažįstamai. Kai išmoksite modelius, juos matysite visur, pavyzdžiui, nusipirkę naują automobilį, staiga pastebėsite tą modelį kiekvienoje gatvėje 😵💫
Dažnas pasakoja:
-
Veido odos depiliacija
-
Pernelyg paryškinti aureolės kraštuose (klasikinė „viršijimo“ teritorija) ( bikubinė interpoliacija )
-
Pasikartojančios tekstūros (plytų sienos tampa kopijavimo ir įklijavimo raštais)
-
Traškus mikrokontrastas , kuris šaukia „algoritmas“
-
Teksto iškraipymas, kai raidės tampa beveik raidėmis (blogiausias tipas)
-
Detalių poslinkis, kai smulkūs elementai nežymiai keičiasi, ypač difuzijos darbo eigoje ( SR3 )
Sudėtinga dalis: kartais šie artefaktai iš pirmo žvilgsnio atrodo „geriau“. Jūsų smegenims patinka ryškumas. Tačiau po akimirkos atrodo... ne taip.
Gera taktika – atitolinti vaizdą ir patikrinti, ar jis atrodo natūraliai esant normaliam žiūrėjimo atstumui. Jei gerai atrodo tik priartinus 400 %, tai ne pergalė, tai tik hobis 😅
Kaip veikia dirbtinio intelekto didinimas: mokymo pusė be matematikos galvos skausmo 📉🙂
Superrezoliucijos modelių mokymas paprastai apima:
-
Suporuoti duomenų rinkiniai (mažos raiškos įvestis, didelės raiškos taikinys) ( vaizdo super raiška naudojant giliuosius konvoliucinius tinklus (SRCNN) )
-
Nuostolių funkcijos , kurios baudžia už neteisingas rekonstrukcijas ( SRGAN )
Tipiniai nuostolių tipai:
-
Pikselių praradimas (L1/L2)
skatina tikslumą. Gali gauti šiek tiek neryškius rezultatus. -
Suvokimo praradimas.
Lygina gilesnius požymius (pvz., „ar tai atrodo panašiai“), o ne tikslius pikselius ( suvokimo praradimai (Johnson ir kt., 2016) ). -
Priešingybės praradimas (GAN)
skatina realizmą, kartais pažodinio tikslumo sąskaita ( SRGAN , generatyviniai priešingybės tinklai ).
Nuolat vyksta ginčas:
-
Padarykite jį ištikimą originalui
vs -
Padarykite jį vizualiai patrauklų
Skirtingi įrankiai patenka į skirtingas šio spektro vietas. Jums gali būti patogiau pasirinkti vieną iš jų, priklausomai nuo to, ar restauruojate šeimos nuotraukas, ar ruošiate plakatą, kur „gražus vaizdas“ yra svarbesnis nei teismo ekspertizės tikslumas.
Praktiniai darbo eigos būdai: nuotraukos, seni nuskaitymai, anime ir vaizdo įrašai 📸🧾🎥
Nuotraukos (portretai, peizažai, produktų nuotraukos)
Geriausia praktika paprastai yra tokia:
-
Pirmiausia šiek tiek slopinkite triukšmą (jei reikia)
-
Prabangus su konservatyviais nustatymais
-
Įberkite grūdų, jei viskas atrodo per sklandžiai (taip, tikrai)
Grūdai kaip druska. Per daug sugadina vakarienę, bet jokie negali būti šiek tiek blankūs 🍟
Seni nuskaitymai ir labai suspausti vaizdai
Tai sunkiau, nes modelis gali suspaudimo blokus laikyti „tekstūra“.
Pabandykite:
-
Artefaktų pašalinimas arba atblokavimas
-
Tada pakelkite kartelę
-
Tada lengvas paryškinimas (ne per daug... žinau, visi taip sako, bet vis tiek)
Anime ir linijinis menas
Linijinis menas turi privalumų:
-
Modeliai, kurie išsaugo švarius kraštus
-
Sumažintos tekstūros haliucinacijos.
Anime vaizdo konvertavimas į aukštesnę raišką dažnai atrodo puikiai, nes formos yra paprastesnės ir nuoseklesnės. (Laimei.)
Vaizdo įrašas
Vaizdo įraše pateikiami papildomi veiksmai:
-
Triukšmo slopinimas
-
Deinterlace (tam tikriems šaltiniams)
-
Prabangus
-
Laikinas išlyginimas arba stabilizavimas ( BasicVSR (CVPR 2021) )
-
Papildomas grūdų įterpimas siekiant sanglaudos
Jei praleidžiate laiko pastovumą, gaunate tą mirgantį detalių mirgėjimą. Kai jį pastebite, nebegalite jo pamiršti. Kaip girgždanti kėdė tyliame kambaryje 😖
Nustatymų pasirinkimas be didelių spėlionių (maža atmintinė) 🎛️😵💫
Štai tinkamas pradinis mąstymo būdas:
-
Jei veidai atrodo plastiški,
sumažinkite triukšmo slopinimą, sumažinkite ryškinimą, išbandykite veidą tausojantį modelį ar režimą. -
Jei tekstūros atrodo per daug intensyvios,
sumažinkite slankiklius „detalių paryškinimas“ arba „detalių atkūrimas“, po to pridėkite subtilų grūdėtumą. -
Jei kraštai šviečia,
sumažinkite ryškumą, patikrinkite aureolių slopinimo parinktis. -
Jei vaizdas atrodo per daug „dirbtinio intelekto“,
rinkitės konservatyvesnius veiksmus. Kartais geriausias sprendimas yra tiesiog... mažiau.
Taip pat: nedidinkite vaizdo 8 kartus vien todėl, kad galite. Švarus 2 ar 4 kartus padidinimas dažnai yra optimalus rezultatas. Be to, jūs prašote modelio rašyti fanfikciją apie jūsų pikselius 📖😂
Etika, autentiškumas ir nepatogus „tiesos“ klausimas 🧭😬
Dirbtinio intelekto didinimas ištrina ribą:
-
Restauravimas reiškia susigrąžinti tai, kas buvo
-
Patobulinimas reiškia pridėti tai, ko nebuvo
Su asmeninėmis nuotraukomis paprastai viskas gerai (ir puiku). Su žurnalistika, teisiniais įrodymais, medicininiu vaizdavimu ar bet kuo, kur svarbi ištikimybė... reikia būti atsargiems ( OSAC/NIST: Standartinis teismo skaitmeninių vaizdų valdymo vadovas , SWGDE teismo vaizdų analizės gairės ).
Paprasta taisyklė:
-
Jei statymai dideli, dirbtinio intelekto didinimą laikykite iliustraciniu , o ne galutiniu pavyzdžiu.
Taip pat informacijos atskleidimas svarbus profesiniame kontekste. Ne todėl, kad dirbtinis intelektas yra blogis, o todėl, kad auditorija nusipelno žinoti, ar detalės buvo rekonstruotos, ar užfiksuotos. Tai tiesiog... pagarba.
Baigiamosios pastabos ir trumpa santrauka 🧡✅
Taigi, dirbtinio intelekto didinimo principas veikia taip: modeliai išmoksta, kaip didelės raiškos detalės linkusios būti susijusios su mažos raiškos modeliais, o tada didinimo metu numato tikėtinus papildomus pikselius („ Deep Learning for Image Super-resolution: A Survey “). Priklausomai nuo modelių šeimos (CNN, GAN, difuzija, vaizdo-laikinis), ši prognozė gali būti konservatyvi ir tiksli... arba drąsi ir kartais neprognozuojama 😅
Trumpa apžvalga
-
Tradicinis didinimas ištempia pikselius ( bikubinė interpoliacija )
-
Dirbtinio intelekto didinimas prognozuoja trūkstamas detales naudodamas išmoktus modelius ( vaizdo super raiška naudojant giliuosius konvoliucinius tinklus (SRCNN) )
-
Puikūs rezultatai pasiekiami tinkamai pasirinkus modelį ir suvaržymus
-
Vaizdo įraše stebėkite aureoles, vaškinius veidus, pasikartojančias tekstūras ir mirgėjimą ( „BasicVSR“ (CVPR 2021) ).
-
Mastelio keitimas dažnai yra „įtikima rekonstrukcija“, o ne tobula tiesa ( SRGAN , ESRGAN )
Jei nori, papasakok, ką keiti (veidai, senos nuotraukos, vaizdo įrašai, anime, nuskaitytas tekstas), ir aš pasiūlysiu nustatymų strategiją, kuri padės išvengti įprastų „DI išvaizdos“ spąstų 🎯🙂
DUK
Dirbtinio intelekto didinimas ir kaip jis veikia
Dirbtinio intelekto didinimas (dažnai vadinamas „superraiška“) padidina vaizdo skiriamąją gebą, numatydamas trūkstamas didelės skiriamosios gebos detales pagal mokymo metu išmoktus modelius. Užuot tiesiog ištempęs pikselius, kaip tai daroma bikubinės interpoliacijos būdu, modelis tiria kraštus, tekstūras, veidus ir į tekstą panašius potėpius, o tada generuoja naujus pikselių duomenis, kurie atitinka tuos išmoktus modelius. Tai mažiau „realybės atkūrimas“, o labiau „įtikinamas spėjimas“, kuris skamba natūraliai.
DI didinimas, palyginti su bikubiniu arba tradiciniu dydžio keitimu
Tradiciniai didinimo metodai (pvz., bikubinis) daugiausia interpoliuoja tarp esamų pikselių, išlygindami perėjimus nesukurdami naujų detalių. Dirbtinio intelekto didinimas siekia atkurti tikėtiną struktūrą atpažindamas vaizdinius ženklus ir numatydamas, kaip atrodo didelės raiškos šių ženklų versijos. Štai kodėl dirbtinio intelekto rezultatai gali atrodyti žymiai ryškesni, taip pat todėl jie gali įterpti artefaktų arba „išrasti“ detales, kurių nebuvo šaltinyje.
Kodėl veidai gali atrodyti vaškuoti arba pernelyg lygūs
Vaškiniai veidai dažniausiai atsiranda dėl agresyvaus triukšmo mažinimo ir išlyginimo, derinamo su paryškinimu, kuris pašalina natūralią odos tekstūrą. Daugelis įrankių triukšmą ir smulkią tekstūrą apdoroja panašiai, todėl vaizdo „valymas“ gali ištrinti poras ir subtilias detales. Įprastas būdas yra sumažinti triukšmo mažinimą ir paryškinimą, naudoti veido išsaugojimo režimą, jei toks yra, o tada vėl pridėti šiek tiek grūdėtumo, kad rezultatas atrodytų mažiau plastiškas ir labiau fotografinis.
Dažniausi dirbtinio intelekto didinimo artefaktai, į kuriuos reikia atkreipti dėmesį
Tipiniai požymiai yra aureolės aplink kraštus, pasikartojantys tekstūros raštai (kaip kopijavimo ir įklijavimo plytos), traškus mikrokontrastas ir tekstas, kuris virsta „beveik raidėmis“. Difuzijos pagrindu veikiančiuose darbo eigose taip pat galite pastebėti detalių poslinkį, kai smulkūs elementai subtiliai pasikeičia. Vaizdo įrašuose mirgėjimas ir detalių slinkimas per kadrus yra didelės pavojaus signalinės reikšmės. Jei gerai atrodo tik esant dideliam priartinimui, nustatymai tikriausiai per agresyvūs.
Kaip GAN, CNN ir difuzijos didinimo įrankiai paprastai skiriasi rezultatuose
CNN pagrindu sukurta itin didelė skiriamoji geba paprastai būna stabilesnė ir labiau nuspėjama, tačiau per daug išnaudota gali atrodyti „apdorota“. GAN pagrindu sukurtos parinktys (ESRGAN stiliaus) dažnai sukuria ryškesnę tekstūrą ir suvokiamą ryškumą, tačiau jos gali sukelti neteisingas detales, ypač veiduose. Difuzija pagrįstas didinimas gali sukurti gražias, tikėtinas detales, tačiau jos gali nukrypti nuo pradinės struktūros, jei orientavimo ar stiprumo nustatymai yra per stiprūs.
Praktinė nustatymų strategija, kaip išvengti „pernelyg dirbtinio intelekto“ išvaizdos
Pradėkite konservatyviai: prieš griebdamiesi ekstremalių veiksnių, padidinkite vaizdą 2× arba 4×. Jei veidai atrodo plastiški, sumažinkite triukšmo šalinimą ir ryškinimą ir išbandykite veidų atpažinimo režimą. Jei tekstūros tampa per daug intensyvios, sumažinkite detalių išryškinimą ir vėliau apsvarstykite galimybę pridėti subtilų grūdėtumą. Jei kraštai švyti, sumažinkite ryškinimą ir patikrinkite aureolės ar artefaktų slopinimą. Daugelyje kanalų „mažiau“ laimi, nes taip išsaugomas tikėtinas realizmas.
Senų nuskaitytų vaizdų arba stipriai JPEG suspaustų vaizdų tvarkymas prieš konvertavimą į aukštesnę versiją
Suspausti vaizdai yra keblūs, nes modeliai gali blokinius artefaktus traktuoti kaip tikrą tekstūrą ir juos sustiprinti. Įprastas darbo eiga pirmiausia pašalina artefaktus arba juos išblokuoja, tada padidina mastą ir, jei reikia, šiek tiek paryškina. Skenuojant, švelnus valymas gali padėti modeliui sutelkti dėmesį į tikrąją struktūrą, o ne į pažeidimus. Tikslas – sumažinti „netikrų tekstūrų užuominų“, kad didinimo specialistas nebūtų priverstas daryti užtikrintų spėjimų iš triukšmingų įvesties duomenų.
Kodėl vaizdo įrašų didinimas yra sudėtingesnis nei nuotraukų
Vaizdo įrašo konvertavimas turi būti nuoseklus visuose kadruose, o ne geras tik viename nejudančiame vaizde. Jei detalės mirga nuo kadro iki kadro, rezultatas greitai pradeda blaškyti dėmesį. Į vaizdo įrašą orientuoti metodai naudoja laiko informaciją iš gretimų kadrų, kad stabilizuotų rekonstrukciją ir išvengtų mirgėjimo artefaktų. Daugelyje darbo eigų taip pat yra triukšmo šalinimas, tam tikrų šaltinių deinterlacavimas ir pasirenkamas grūdelių atkūrimas, kad visa seka atrodytų vientisa, o ne dirbtinai ryški.
Kai dirbtinio intelekto didinimas netinka arba juo rizikinga pasikliauti
Dirbtinio intelekto didinimas geriausiai vertinamas kaip patobulinimas, o ne įrodymas. Svarbiose situacijose, tokiose kaip žurnalistika, teisiniai įrodymai, medicininis vaizdavimas ar teismo ekspertizė, „įtikinamų“ pikselių generavimas gali klaidinti, nes gali būti pridėta neužfiksuotų detalių. Saugesnis požiūris yra naudoti jį iliustraciniu būdu ir atskleisti, kad dirbtinio intelekto procesas rekonstravo detalę. Jei tikslumas yra labai svarbus, išsaugokite originalus ir dokumentuokite kiekvieną apdorojimo žingsnį bei aplinką.
Nuorodos
-
arXiv – Gilusis mokymasis vaizdų itin didelei skiriamajai gebai: apžvalga – arxiv.org
-
arXiv – itin didelės skiriamosios gebos vaizdo kūrimas naudojant giliuosius konvoliucinius tinklus (SRCNN) – arxiv.org
-
arXiv – Real-ESRGAN – arxiv.org
-
arXiv - ESRGAN - arxiv.org
-
arXiv - SR3 - arxiv.org
-
NVIDIA kūrėjas – NVIDIA DLSS – developer.nvidia.com
-
AMD GPUOpen – „FidelityFX Super Resolution 2“ – gpuopen.com
-
Kompiuterinės regos fondo (CVF) atvira prieiga – „BasicVSR“: esminių komponentų paieška vaizdo įrašų itin didelės raiškos raiškoje (CVPR 2021) – openaccess.thecvf.com
-
arXiv – Generatyvūs priešpriešiniai tinklai – arxiv.org
-
arXiv - SRGAN - arxiv.org
-
arXiv – Suvokimo praradimai (Johnson ir kt., 2016) – arxiv.org
-
„GitHub“ – „Real-ESRGAN“ saugykla (plytelių parinktys) – github.com
-
Vikipedija – Bikubinė interpoliacija – wikipedia.org
-
„Topaz Labs“ – „Topaz“ nuotrauka – topazlabs.com
-
„Topaz Labs“ – „Topaz“ vaizdo įrašas – topazlabs.com
-
„Adobe“ pagalbos centras – „Adobe Enhance“ > Super raiška – helpx.adobe.com
-
NIST / OSAC – Standartinis teismo ekspertizės skaitmeninių vaizdų valdymo vadovas (1.0 versija) – nist.gov
-
SWGDE – Teismo ekspertizės vaizdų analizės gairės – swgde.org