Dirbtinis intelektas gali atrodyti kaip magiškas triukas, kurį visi tyliai stebi ir tik linkčioja galva... palaukite, o kaip tai iš tikrųjų veikia? Geros naujienos. Mes tai išsklaidysime be jokių nereikalingų detalių, išliksime praktiški ir pateiksime keletą netobulų analogijų, kurios vis tiek privers jus suprasti. Jei norite tik esmės, pereikite prie toliau pateikto vienos minutės atsakymo; bet, tiesą sakant, svarbiausia yra detalės 💡.
Straipsniai, kuriuos galbūt norėsite perskaityti po šio:
🔗 Ką reiškia GPT?
Trumpas GPT akronimo ir jo reikšmės paaiškinimas.
🔗 Iš kur DI gauna informaciją
Šaltiniai, kuriuos DI naudoja mokymuisi, apmokymui ir klausimų atsakymui.
🔗 Kaip integruoti dirbtinį intelektą į savo verslą
Praktiniai žingsniai, įrankiai ir darbo eigos, skirtos veiksmingai integruoti dirbtinį intelektą.
🔗 Kaip įkurti dirbtinio intelekto įmonę
Nuo idėjos iki paleidimo: patvirtinimas, finansavimas, komanda ir įgyvendinimas.
Kaip veikia dirbtinis intelektas? Atsakymas per vieną minutę ⏱️
Dirbtinis intelektas mokosi modelių iš duomenų, kad galėtų daryti prognozes arba generuoti turinį – nereikia jokių ranka rašytų taisyklių. Sistema apdoroja pavyzdžius, naudodama nuostolių funkciją išmatuoja, kiek ji klaidinga, ir stumteli savo vidinius rankenėles – parametrus – kad kiekvieną kartą būtų šiek tiek mažiau klaidinga. Išskalaukite, pakartokite, patobulinkite. Po pakankamai ciklų tai tampa naudinga. Tas pats pasakytina, nesvarbu, ar klasifikuojate el. laiškus, aptinkate navikus, žaidžiate stalo žaidimus ar rašote haiku. Norint gauti aiškią „mašininio mokymosi“ pagrindinę kalbą, IBM apžvalga yra tvirta [1].
Dauguma šiuolaikinių dirbtinių intelektų yra mašininis mokymasis. Paprasčiausia versija: įvedami duomenys, išmokstamas įvesties ir išvesties ryšys, tada apibendrinama naujiems dalykams. Ne magija – matematika, skaičiavimas ir, jei atvirai, žiupsnelis meno.
„Kaip veikia dirbtinis intelektas?“ ✅
Kai žmonės „Google“ paieškos sistemoje įveda „Kaip veikia dirbtinis intelektas?“ , jie paprastai nori:
-
daugkartinio naudojimo mentalinis modelis, kuriuo jie gali pasitikėti
-
pagrindinių mokymosi tipų žemėlapis, kad žargonas nebegąsdintų
-
žvilgtelėti į neuroninius tinklus nepasiklystant
-
Kodėl transformeriai dabar valdo pasaulį
-
praktinis procesas nuo duomenų iki diegimo
-
greita palyginimo lentelė, kurią galite ekrano kopiją padaryti ir išsaugoti
-
etikos, šališkumo ir patikimumo apsaugos priemonės, kurios nėra ranka mojuojamos
Štai ką čia gausi. Jei ir klaidžiojau, tai tyčia – pavyzdžiui, rinkčiausi vaizdingą maršrutą ir kitą kartą kažkaip geriau prisiminčiau gatves. 🗺️
Pagrindiniai daugumos dirbtinio intelekto sistemų ingredientai 🧪
Įsivaizduokite dirbtinio intelekto sistemą kaip virtuvę. Keturi ingredientai pasirodo vėl ir vėl:
-
Duomenys – pavyzdžiai su etiketėmis arba be jų.
-
Modelis – matematinė funkcija su reguliuojamais parametrais.
-
Objektyvus – nuostolių funkcija, matuojanti spėjimų blogumą.
-
Optimizavimas – algoritmas, kuris keičia parametrus, kad sumažintų nuostolius.
Giliojo mokymosi procese tas stumtelėjimas paprastai yra gradientinis nusileidimas su atgaline sklidimo technika – efektyvus būdas išsiaiškinti, kuris milžiniškos garso plokštės valdiklis sucypė, o tada jį šiek tiek sumažinti [2].
Mini atvejis: trapų taisyklėmis pagrįstą šlamšto filtrą pakeitėme nedideliu prižiūrimu modeliu. Po savaitės trukmės etikečių → matavimų → atnaujinimų ciklų sumažėjo klaidingų teigiamų rezultatų ir palaikymo užklausų. Nieko įmantraus – tik aiškesni tikslai (tikslumas „ham“ el. laiškuose) ir geresnė optimizacija.
Mokymosi paradigmos trumpai 🎓
-
Prižiūrimas mokymasis.
Pateikiate įvesties ir išvesties poras (nuotraukas su etiketėmis, el. laiškus, pažymėtus kaip šlamštas / ne šlamštas). Modelis mokosi įvesties → išvesties. Daugelio praktinių sistemų pagrindas [1]. -
Neprižiūrimas mokymasis.
Jokių etikečių. Raskite struktūrų grupes, suspaudimus, latentinius veiksnius. Puikiai tinka tyrinėjimui ar parengiamiesiems mokymams. -
Savarankiškai prižiūrimas mokymasis.
Modelis sukuria savo žymas (numato kitą žodį, trūkstamą vaizdo fragmentą). Neapdorotus duomenis paverčia mokymo signalu dideliu mastu; yra šiuolaikinių kalbos ir regos modelių pagrindas. -
Pastiprinamasis mokymasis.
Agentas veikia, renka atlygį ir išmoksta politiką, kuri maksimaliai padidina kaupiamąjį atlygį. Jei „vertės funkcijos“, „politika“ ir „mokymasis pagal laiko skirtumus“ skamba kaip varpas – tai jo namai [5].
Taip, praktikoje kategorijos išsilieja. Hibridiniai metodai yra įprasti. Tikrasis gyvenimas yra chaotiškas; gera inžinerija su tuo susitinka ten, kur ji yra.
Neuroninio tinklo viduje be galvos skausmo 🧠
Neuroninis tinklas sujungia mažyčių matematinių vienetų (neuronų) sluoksnius. Kiekvienas sluoksnis transformuoja įvestis su svoriais, paklaidomis ir subtiliu netiesiškumu, pavyzdžiui, ReLU ar GELU. Ankstyvieji sluoksniai mokosi paprastų savybių; gilesni – koduoja abstrakcijas. „Magija“ – jei tai galima taip pavadinti – yra komponavimas : sujunkite mažas funkcijas ir galėsite modeliuoti nepaprastai sudėtingus reiškinius.
Treniruočių ciklas, tik vibracijos:
-
spėjimas → paklaidos matavimas → kaltės priskyrimas naudojant „backprop“ → stumtelėjimo svoriai → kartojimas.
Darykite tai keliose partijose ir, kaip nerangus šokėjas, tobulinantis kiekvieną dainą, modelis nustos mindžioti jums ant kojų pirštų. Draugišką, griežtą fonogramos skyrių žr. [2].
Kodėl transformatoriai užvaldė pasaulį ir ką iš tikrųjų reiškia „dėmesys“ 🧲
Transformeriai naudoja savęs stebėjimą , kad įvertintų, kurios įvesties dalys yra svarbios viena kitai, ir visa tai vienu metu. Užuot skaitę sakinį griežtai iš kairės į dešinę, kaip senesniuose modeliuose, transformeriai gali ieškoti visur ir dinamiškai vertinti santykius – tarsi skenuotų perpildytą kambarį, kad pamatytų, kas su kuo kalbasi.
Šis projektas atsisakė pasikartojimo ir konvoliucijos sekų modeliavime, užtikrindamas didžiulį paralelizmą ir puikų mastelio keitimą. Straipsnyje, kuriuo buvo pradėtas šis projektas – „Attention Is All You Need“ – išdėstyta architektūra ir rezultatai [3].
Savęs dėmesingumas vienoje eilutėje: kiekvienam žetonui sukurkite užklausos , rakto ir reikšmės vektorius; apskaičiuokite panašumus, kad gautumėte dėmesio svorius; atitinkamai sumaišykite reikšmes. Kruopštus detalėse, elegantiškas dvasioje.
Įspėjimas: „Transformers“ dominuoja, o ne monopolizuoja. CNN, RNN ir medžių ansambliai vis dar laimi tam tikrų duomenų tipų ir delsos / kainos apribojimų srityje. Rinkitės architektūrą darbui, o ne ažiotažui.
Kaip veikia dirbtinis intelektas? Praktinis procesas, kurį iš tikrųjų naudosite 🛠️
-
Problemos formulavimas.
Ką prognozuojate arba generuojate ir kaip bus vertinama sėkmė? -
Duomenys
renkami, paženklinami, jei reikia, išvalomi ir padalijami. Numatomos trūkstamos reikšmės ir kraštutiniai atvejai. -
Modeliavimas
Pradėkite nuo paprastų dalykų. Baziniai taškai (logistinė regresija, gradiento stiprinimas arba mažas transformatorius) dažnai įveikia herojišką sudėtingumą. -
Mokymas
Pasirinkite tikslą, pasirinkite optimizavimo priemonę, nustatykite hiperparametrus. Iteruokite. -
Vertinimas
Naudokite pertraukas, kryžminį patvirtinimą ir metrikas, susietas su jūsų tikruoju tikslu (tikslumas, F1, AUROC, BLEU, painumas, vėlavimas). -
Diegimas.
Pateikite informaciją už API arba įterpkite į programėlę. Stebėkite delsą, kainą, pralaidumą. -
Stebėjimas ir valdymas.
Stebėkite dreifą, sąžiningumą, patikimumą ir saugumą. NIST dirbtinio intelekto rizikos valdymo sistema (GOVERN, MAP, MEASURE, MANAGE) yra praktiškas patikimų sistemų, apimančių visą spektrą, kontrolinis sąrašas [4].
Mini atvejis: Regėjimo modelis puikiai veikė laboratorijoje, bet lauke, pasikeitus apšvietimui, sugedo. Įvesties histogramose stebimas pažymėtas poslinkis; greitas padidinimas ir tikslus pakraščių sureguliavimas atkūrė našumą. Nuobodu? Taip. Efektyvu? Irgi taip.
Palyginimo lentelė – metodai, kam jie skirti, apytikslė kaina, kodėl jie veikia 📊
Netobulas tyčia: šiek tiek netolygus frazavimas padeda jam atrodyti žmogiškiau.
| požiūris | Ideali auditorija | Brangūs | Kodėl tai veikia / pastabos |
|---|---|---|---|
| Prižiūrimas mokymasis | Analitikai, produktų komandos | žemas–vidutinis | Tiesioginis įvesties → žymėjimo atvaizdavimas. Puikiai tinka, kai yra žymės; sudaro daugelio diegiamų sistemų pagrindą [1]. |
| Be priežiūros | Duomenų tyrinėtojai, moksliniai tyrimai ir plėtra | žemas | Randa klasterius / suspaudimus / latentinius veiksnius – tinka atradimui ir išankstiniam mokymui. |
| Savarankiškai prižiūrimas | Platformos komandos | vidutinis | Sukuria savo etiketes iš neapdorotų duomenų skalių, naudodamas skaičiavimus ir duomenis. |
| Sustiprinimo mokymasis | Robotika, operacijų tyrimai | vidutinio–aukšto | Politikos mokosi iš atlygio signalų; žr. Sutton ir Barto [5], kad sužinotumėte kanoną. |
| Transformatoriai | NLP, vizija, multimodalinis | vidutinio–aukšto | Savęs dėmesys gerai fiksuoja tolimojo nuotolio depresijas ir jas gerai paraleliuoja; žr. originalų straipsnį [3]. |
| Klasikinis ML (medžiai) | Lentelių formos verslo programėlės | žemas | Pigūs, greiti ir dažnai šokiruojamai patikimi struktūrizuotų duomenų baziniai duomenys. |
| Taisyklėmis pagrįstas / simbolinis | Atitiktis, deterministinis | labai žemas | Skaidri logika; naudinga hibridinėse sistemose, kai reikia audituojamumo. |
| Vertinimas ir rizika | Visi | skiriasi | Naudokite NIST GOVERN-MAP-MEASURE-MANAGE, kad jis būtų saugus ir naudingas [4]. |
Kaina = duomenų ženklinimas + skaičiavimas + žmonės + aptarnavimas.
Gilusis nardymas 1 – nuostolių funkcijos, gradientai ir maži žingsneliai, kurie viską pakeičia 📉
Įsivaizduokite, kad reikia pritaikyti liniją namo kainai pagal dydį numatyti. Pasirinksite parametrus (w) ir (b), prognozuosite (y = wx + b) ir išmatuosite paklaidą su vidutiniu kvadratiniu nuostoliu. Gradientas nurodo, kuria kryptimi judėti (w) ir (b), kad greičiausiai sumažintumėte nuostolius – pavyzdžiui, einant žemyn rūke, jaučiant, į kurią pusę šlaitas. Atnaujinkite duomenis po kiekvienos partijos ir jūsų linija labiau atitiks realybę.
Giliuosiuose tinkluose tai ta pati daina, tik platesniu diapazonu. „Backprop“ efektyviai apskaičiuoja, kaip kiekvieno sluoksnio parametrai paveikė galutinę paklaidą, kad galėtumėte nukreipti milijonus (arba milijardus) rankenėlių teisinga kryptimi [2].
Pagrindinės intuicijos:
-
Netektis formuoja kraštovaizdį.
-
Gradientai yra jūsų kompasas.
-
Mokymosi tempas yra žingsnio dydžio – per didelis ir svirduliuojate, per mažas ir snaudžiate.
-
Reguliarizavimas neleidžia įsiminti mokymo rinkinio kaip papūgai, puikiai atminčiai, bet nesuprantančiai.
2-oji giluminė analizė – įterpimai, raginimai ir paieška 🧭
Įterpimai susieja žodžius, vaizdus ar elementus į vektorines erdves, kur panašūs objektai yra arti vienas kito. Tai leidžia:
-
rasti semantiškai panašias ištraukas
-
galios paieška, kuri supranta prasmę
-
įjunkite paieškos papildytos kartos (RAG) , kad kalbos modelis galėtų ieškoti faktų prieš rašydamas
Raginimas – tai būdas valdyti generatyvinius modelius – aprašyti užduotį, pateikti pavyzdžių, nustatyti apribojimus. Įsivaizduokite tai kaip labai detalios specifikacijos rašymą labai greitam praktikantui: entuziastingam, kartais pernelyg pasitikinčiam savimi.
Praktinis patarimas: jei jūsų modelis haliucina, pridėkite susigrąžinimo funkciją, sugriežtinkite užduotį arba įvertinkite naudodami pagrįstus rodiklius, o ne „vibracijas“.
Gilusis nardymas 3 – vertinimas be iliuzijų 🧪
Geras vertinimas atrodo nuobodus – ir būtent tai svarbu.
-
Naudokite užrakintą bandymų rinkinį.
-
Pasirinkite rodiklį, kuris atspindi naudotojo patiriamą skausmą.
-
Atlikite abliaciją, kad žinotumėte, kas iš tikrųjų padėjo.
-
Žurnalų gedimai su tikrais, netvarkingais pavyzdžiais.
Gamyboje stebėsena yra niekada nesustojantis vertinimas. Pasitaiko poslinkių. Atsiranda naujas slengas, jutikliai perkalibruojami, o vakarykštis modelis šiek tiek prastėja. NIST sistema yra praktinis nuolatinio rizikos valdymo ir valdymo šaltinis, o ne politikos dokumentas, kurį reikėtų atidėti į šalį [4].
Pastaba apie etiką, šališkumą ir patikimumą ⚖️
Dirbtinio intelekto sistemos atspindi savo duomenis ir diegimo kontekstą. Tai kelia riziką: šališkumą, netolygias klaidas grupėse, trapumą dėl paskirstymo pokyčių. Etiškas naudojimas nėra pasirinktinis – tai esminiai iššūkiai. NIST nurodo konkrečias praktikas: dokumentuoti riziką ir poveikį, matuoti žalingą šališkumą, kurti atsarginius sprendimus ir informuoti žmones, kai kyla didelių iššūkių [4].
Betoniniai judesiai, kurie padeda:
-
rinkti įvairius, reprezentatyvius duomenis
-
matuoti našumą įvairiose subpopuliacijose
-
dokumentų modelių kortelės ir duomenų lapai
-
pridėti žmogaus priežiūrą ten, kur statymai yra dideli
-
projektuoti gedimų prevencijos sistemas, kai sistema yra neaiški
Kaip veikia dirbtinis intelektas? Kaip mentalinį modelį, kurį galite pakartotinai naudoti 🧩
Kompaktiškas kontrolinis sąrašas, kurį galite pritaikyti beveik bet kuriai dirbtinio intelekto sistemai:
-
Koks tikslas? Numatymas, reitingavimas, generavimas, kontrolė?
-
Iš kur kyla mokymosi signalas? Etiketės, savarankiškai prižiūrimos užduotys, atlygiai?
-
Kokia architektūra naudojama? Linijinis modelis, medžių ansamblis, CNN, RNN, transformatorius [3]?
-
Kaip tai optimizuota? Gradiento nusileidimo variacijos / atrama [2]?
-
Koks duomenų režimas? Mažas pažymėtas rinkinys, nepažymėto teksto vandenynas, imituojama aplinka?
-
Kokie yra gedimų režimai ir apsaugos priemonės? Šališkumas, dreifas, haliucinacijos, vėlavimas, sąnaudų susiejimas su NIST GOVERN-MEASURE-MANAGE [4].
Jei galite į juos atsakyti, iš esmės suprantate sistemą – visa kita yra įgyvendinimo detalės ir srities žinios.
Greiti šaltiniai, kuriuos verta įsiminti 🔖
-
Paprasta kalba pateikta mašininio mokymosi koncepcijų įvadas (IBM) [1]
-
Atgalinis sklidimas naudojant diagramas ir švelniąją matematiką [2]
-
Transformatoriaus straipsnis, pakeitęs sekos modeliavimą [3]
-
NIST dirbtinio intelekto rizikos valdymo sistema (praktinis valdymas) [4]
-
Kanoninis sustiprinto mokymosi vadovėlis (nemokamas) [5]
DUK žaibo apvalumas ⚡
Ar dirbtinis intelektas tėra statistika?
Tai statistika plius optimizavimas, skaičiavimas, duomenų inžinerija ir produktų dizainas. Statistika yra skeletas; visa kita – raumenys.
Ar didesni modeliai visada laimi?
Mastelio keitimas padeda, tačiau duomenų kokybė, vertinimas ir diegimo apribojimai dažnai yra svarbesni. Mažiausias modelis, kuris pasiekia jūsų tikslą, paprastai yra geriausias vartotojams ir piniginėms.
Ar dirbtinis intelektas gali suprasti?
Apibrėžkite, kas yra „suprasti“ . Modeliai fiksuoja duomenų struktūrą ir įspūdingai apibendrina; tačiau jie turi aklųjų zonų ir gali būti užtikrintai klaidingi. Elkitės su jais kaip su galingais įrankiais, o ne kaip su išminčiais.
Ar transformatorių era amžina?
Tikriausiai ne amžina. Ji dominuoja dabar, nes dėmesys gerai lygiagretėja ir keičiasi, kaip parodyta originaliame straipsnyje [3]. Tačiau tyrimai juda į priekį.
Kaip veikia dirbtinis intelektas? Per ilgas, neskaičiau 🧵
-
Dirbtinis intelektas mokosi iš duomenų modelių, sumažina nuostolius ir apibendrina juos naujoms įvestims [1, 2].
-
Pagrindinės mokymo struktūros yra prižiūrimas, neprižiūrimas, savarankiškas mokymasis ir pastiprinimo mokymasis; RL mokosi iš atlygio [5].
-
Neuroniniai tinklai naudoja atgalinį sklidimą ir gradientinį mažėjimą, kad efektyviai koreguotų milijonus parametrų [2].
-
Transformatoriai dominuoja daugelyje sekos užduočių, nes savęs dėmesys fiksuoja ryšius lygiagrečiai tam tikru mastu [3].
-
Realaus pasaulio dirbtinis intelektas yra procesas – nuo problemos formulavimo iki diegimo ir valdymo, o NIST sistema leidžia sąžiningai vertinti riziką [4].
Jei kas nors vėl paklaus kaip veikia dirbtinis intelektas?, galite nusišypsoti, gurkštelėti kavos ir pasakyti: jis mokosi iš duomenų, optimizuoja nuostolius ir, priklausomai nuo problemos, naudoja tokias architektūras kaip transformatoriai arba medžių ansambliai. Tada pridėkite mirktelėjimą, nes tai ir paprasta, ir slapta užbaigta. 😉
Nuorodos
[1] IBM – Kas yra mašininis mokymasis?
Skaitykite daugiau
[2] Michael Nielsen - Kaip veikia atgalinio sklidimo algoritmas
(skaityti daugiau)
[3] Vaswani ir kt. – Dėmesys yra viskas, ko jums reikia (arXiv)
(skaityti daugiau)
[4] NIST – Dirbtinio intelekto rizikos valdymo sistema (AI RMF 1.0)
(skaityti daugiau)
[5] Sutton ir Barto – „Pastiprinimas mokymuisi: įvadas“ (2-asis leidimas),
skaitykite daugiau