iš kur DI gauna informaciją

Iš kur DI gauna informaciją?

Ar kada nors sėdėjote ir kasėtės galvą, galvodami... iš kur visa tai atsiranda ? Juk dirbtinis intelektas neklaidžioja po dulkėtas bibliotekos lentynas ir nesvajoja apie „YouTube“ trumpametražius serialus. Vis dėlto kažkaip jis randa atsakymus į viską – nuo ​​lazanijos receptų iki juodųjų skylių fizikos – tarsi turėtų bedugnę dokumentų spintą. Realybė yra keistesnė ir galbūt labiau intriguojanti, nei galite manyti. Panagrinėkime tai šiek tiek plačiau (ir, taip, galbūt sugriausime porą mitų).


Ar tai burtininkai? 🌐

Tai ne burtininkystė, nors kartais taip atrodo. Tai, kas vyksta po gaubtu, iš esmės yra šablonų prognozavimas . Dideli kalbos modeliai (LLM) nesaugo faktų taip, kaip jūsų smegenys laikosi jūsų močiutės sausainių recepto; vietoj to, jie yra apmokyti atspėti kitą žodį (žetoną) pagal tai, kas buvo prieš tai [2]. Praktiškai tai reiškia, kad jie prisiriša prie ryšių: kurie žodžiai dera kartu, kaip paprastai formuojasi sakiniai, kaip ištisos idėjos yra sukonstruotos kaip pastoliai. Štai kodėl rezultatas skamba teisingai, nors – visiškas sąžiningumas – tai statistinė mimikrija, o ne supratimas [4].

Taigi, kas iš tikrųjų daro dirbtinio intelekto sugeneruotą informaciją naudingą ? Štai keletas dalykų:

  • Duomenų įvairovė – gaunama iš daugybės šaltinių, o ne iš vieno siauro srauto.

  • Atnaujinimai – be atnaujinimo ciklų jis greitai pasensta.

  • Filtravimas – idealiu atveju sugaunamos šiukšlės, kol jos neįsigeria (nors, būkime atviri, tame tinklelyje yra skylučių).

  • Kryžminis patikrinimas – remiantis autoritetingais šaltiniais (pvz., NASA, PSO, pagrindiniais universitetais), o tai yra būtina daugumoje dirbtinio intelekto valdymo gairių [3].

Vis dėlto kartais jis užsispyrusiai kuria fabrikacijas. Tos vadinamosios haliucinacijos ? Iš esmės nušlifuotos nesąmonės, pateiktos rimtu veidu [2][3].

Straipsniai, kuriuos galbūt norėsite perskaityti po šio:

🔗 Ar dirbtinis intelektas gali numatyti loterijos skaičius?
Tyrinėjami mitai ir faktai apie dirbtinio intelekto loterijų prognozes.

🔗 Ką reiškia holistinis požiūris į dirbtinį intelektą?
Dirbtinio intelekto supratimas, atsižvelgiant į subalansuotą etikos ir poveikio požiūrį.

🔗 Ką Biblija sako apie dirbtinį intelektą
Biblijos požiūrių į technologijas ir žmogaus kūrybą nagrinėjimas.


Greitas palyginimas: iš kur semiasi įkvėpimo dirbtinis intelektas 📊

Ne kiekvienas šaltinis yra lygus, bet kiekvienas atlieka savo vaidmenį. Pateikiame trumpą apžvalgą.

Šaltinio tipas Kas jį naudoja (DI) Kaina / vertė Kodėl tai veikia (arba ne...)
Knygos ir straipsniai Dideli kalbų modeliai Neįkainojamas (apytiksliai) Tankios, struktūrizuotos žinios – tiesiog greitai sensta.
Svetainės ir tinklaraščiai Beveik visi dirbtiniai intelektai Nemokamas (su triukšmu) Laukinė įvairovė; genialumo ir absoliučios šiukšlės mišinys.
Akademiniai darbai Tyrimais pagrįstos dirbtinio intelekto sistemos Kartais mokama Griežtumas + patikimumas, bet suformuluotas sunkia terminologija.
Vartotojo duomenys Personalizuoti dirbtiniai intelektai Labai jautrus ⚠️ Aštrus pasiuvimas, bet galvos skausmas dėl privatumo.
Realaus laiko žiniatinklis Su paieška susiję dirbtiniai intelektai Nemokamai (jei prisijungęs) Išlaiko informaciją šviežią; trūkumas yra gandų amplifikavimo rizika.

Mokymo duomenų visata 🌌

Tai yra „vaikystės mokymosi“ etapas. Įsivaizduokite, kad vaikui vienu metu duodate milijonus pasakų, naujienų iškarpų ir Vikipedijos skilčių. Štai kaip atrodo parengiamieji mokymai. Realiame pasaulyje paslaugų teikėjai sujungia viešai prieinamus duomenis, licencijuotus šaltinius ir mokytojų sugeneruotą tekstą [2].

Viršuje: kruopščiai atrinkti žmonių pavyzdžiai – geri atsakymai, blogi atsakymai, stumtelėjimai teisinga linkme – dar prieš pradedant pastiprinimą [1].

Skaidrumo išlyga: įmonės neatskleidžia visų detalių. Kai kurios apsaugos priemonės yra slaptos (intelektinė nuosavybė, saugumo problemos), todėl gaunamas tik dalinis vaizdas apie tikrąjį įvykių eigą [2].


Paieška realiuoju laiku: papildomas priedas 🍒

Kai kurie modeliai dabar gali žvilgtelėti už savo mokymo burbulo ribų. Tai yra paieškos papildyta generacija (RAG) – iš esmės ištraukiami fragmentai iš gyvo indekso arba dokumentų saugyklos, o tada įpinami į atsakymą [5]. Puikiai tinka greitai besikeičiantiems dalykams, pavyzdžiui, naujienų antraštėms ar akcijų kainoms.

Kuo gi blogiau? Internetas yra ir genialumas, ir šiukšlių deginimas. Jei filtrai ar kilmės patikrinimai yra silpni, rizikuojate, kad nepageidaujami duomenys bus rasti – būtent taip, apie ką įspėja rizikos sistemos [3].

Įprastas problemos sprendimo būdas: įmonės susieja modelius su savo vidinėmis duomenų bazėmis, kad atsakymuose būtų cituojama dabartinė personalo politika arba atnaujintas produkto dokumentas, o ne tiesioginė analizė. Pagalvokite: mažiau „oho“ akimirkų, daugiau patikimų atsakymų.


Tikslus derinimas: DI poliravimo žingsnis 🧪

Neapdoroti iš anksto apmokyti modeliai yra nepatogūs. Todėl jie yra tiksliai derinami :

  • Mokyti juos būti paslaugiais, nekenksmingais, sąžiningais (taikant sustiprintą mokymąsi iš žmonių grįžtamojo ryšio, RLHF) [1].

  • Nesaugių arba toksiškų briaunų nušlifavimas (sulyginimas) [1].

  • Prisitaikymas prie tono – ar jis draugiškas, oficialus, ar žaismingai sarkastiškas.

Tai ne tiek deimanto šlifavimas, kiek statistinės lavinos suvaldymas, kad elgtumėmės labiau kaip pokalbio partneris.


Kliūtys ir nesėkmės 🚧

Neapsimeskime, kad tai nepriekaištinga:

  • Haliucinacijos – aiškūs atsakymai, kurie yra visiškai neteisingi [2][3].

  • Šališkumas – jis atspindi į duomenis įterptus modelius; jei nekontroliuojamas, gali juos netgi sustiprinti [3][4].

  • Nėra tiesioginės patirties – gali kalbėti apie sriubų receptus, bet niekada nėra ragavęs [4].

  • Pernelyg didelis pasitikėjimas savimi – proza ​​liejasi taip, lyg žinotų, net kai taip nėra. Rizikos vertinimo sistemos pabrėžia žymėjimo prielaidas [3].


Kodėl taip atrodo , lyg žinotum 🧠

Jis neturi jokių įsitikinimų, jokios atminties žmogiškąja prasme ir tikrai jokios „aš“. Vis dėlto, kadangi sakinius jis sudėlioja sklandžiai, jūsų smegenys jį skaito taip, lyg suprastų . Tai, kas vyksta, tėra didelio masto kito žetono spėjimas : trilijonų tikimybių apdorojimas per sekundės dalį [2].

„Intelekto“ vibracija yra kylantis elgesio tyrėjai, šiek tiek ironiškai, tai vadina „stochastiniu papūgos“ efektu [4].


Vaikams pritaikyta analogija 🎨

Įsivaizduokite papūgą, perskaitiusią visas bibliotekos knygas. Ji nesupranta istorijų , bet gali perdaryti žodžius į kažką išmintingo. Kartais tai būna taiklumas, kartais nesąmonė, bet turint pakankamai nuovokos, ne visada galima atskirti.


Apibendrinant: iš kur gaunama dirbtinio intelekto informacija 📌

Paprastai tariant:

  • Masyvūs mokymo duomenys (vieši + licencijuoti + trenerio generuojami) [2].

  • Tikslus derinimas su žmogaus grįžtamuoju ryšiu siekiant formuoti toną / elgesį [1].

  • Paieškos sistemos , prijungtos prie tiesioginių duomenų srautų [5].

Dirbtinis intelektas „nežino“ dalykų – jis numato tekstą . Tai ir jo supergalia, ir Achilo kulnas. Esmė? Visada patikrinkite svarbią informaciją su patikimu šaltiniu [3].


Nuorodos

  1. Ouyang, L. ir kt. (2022). Kalbos modelių mokymas vykdyti instrukcijas naudojant žmonių grįžtamąjį ryšį (InstructGPT) . arXiv .

  2. „OpenAI“ (2023). GPT-4 techninė ataskaita – licencijuotų, viešų ir žmonių sukurtų duomenų mišinys; kito žetono prognozavimo tikslas ir apribojimai. „arXiv“ .

  3. NIST (2023). Dirbtinio intelekto rizikos valdymo sistema (DI RMF 1.0) – kilmė, patikimumas ir rizikos kontrolė. PDF .

  4. Bender, EM, Gebru, T., McMillan-Major, A., Mitchell, S. (2021). Apie stochastinių papūgų keliamus pavojus: ar kalbos modeliai gali būti per dideli? PDF .

  5. Lewis, P. ir kt. (2020). Paieškos ir papildytos kartos technologija žiniomis pagrįstam NLP . arXiv .


Raskite naujausią dirbtinį intelektą oficialioje dirbtinio intelekto asistentų parduotuvėje

Apie mus

Atgal į tinklaraštį