Kas yra generatyvinio dirbtinio intelekto pamatiniai modeliai?

Kas yra generatyvinio dirbtinio intelekto pamatiniai modeliai?

Trumpas atsakymas: baziniai modeliai yra dideli, bendrosios paskirties dirbtinio intelekto modeliai, apmokyti naudojant didelius, plačius duomenų rinkinius, o vėliau pritaikyti daugeliui užduočių (rašymui, paieškai, kodavimui, vaizdams) naudojant raginimus, tikslinimą, įrankius arba paiešką. Jei jums reikia patikimų atsakymų, derinkite juos su pagrindimu (pvz., RAG), aiškiais apribojimais ir patikrinimais, o ne leiskite jiems improvizuoti.

Svarbiausios išvados:

Apibrėžimas : Vienas plačiai apmokytas bazinis modelis pakartotinai naudojamas daugelyje užduočių, o ne po vieną užduotį kiekvienam modeliui.

Adaptacija : Elgesiui valdyti naudokite raginimus, tikslų derinimą, LoRA/adapterius, RAG ir įrankius.

Generatyvus pritaikymas : jie leidžia generuoti tekstą, vaizdus, ​​garsą, kodą ir multimodalinį turinį.

Kokybės signalai : pirmenybę teikite kontroliuojamumui, mažesniam haliucinacijų skaičiui, gebėjimui bendrauti įvairiais būdais ir efektyviai daryti išvadas.

Rizikos kontrolė : planuokite haliucinacijas, šališkumą, privatumo nutekėjimą ir skubų įsiskverbimą taikant valdymą ir testavimą.

Kas yra generatyvinio dirbtinio intelekto pamatiniai modeliai? Infografika

Straipsniai, kuriuos galbūt norėsite perskaityti po šio:

🔗 Kas yra dirbtinio intelekto įmonė?
Supraskite, kaip dirbtinio intelekto įmonės kuria produktus, komandas ir pajamų modelius.

🔗 Kaip atrodo dirbtinio intelekto kodas
Peržiūrėkite dirbtinio intelekto kodo pavyzdžius – nuo ​​Python modelių iki API.

🔗 Kas yra dirbtinio intelekto algoritmas
Sužinokite, kas yra dirbtinio intelekto algoritmai ir kaip jie priima sprendimus.

🔗 Kas yra dirbtinio intelekto technologija
Susipažinkite su pagrindinėmis dirbtinio intelekto technologijomis, kurios skatina automatizavimą, analizę ir išmaniąsias programas.


1) Pamatų modeliai – apibrėžimas be rūko 🧠

Pamatinis modelis yra didelis, bendrosios paskirties dirbtinio intelekto modelis, apmokytas naudojant plačius duomenis (dažniausiai jų daugybę), kad jį būtų galima pritaikyti daugeliui užduočių, o ne tik vienai ( NIST , Stanfordo CRFM ).

Užuot sukūrus atskirą modelį:

  • rašant el. laiškus

  • atsakinėjant į klausimus

  • PDF failų santraukos

  • vaizdų generavimas

  • palaikymo užklausų klasifikavimas

  • kalbų vertimas

  • kodo pasiūlymų teikimas

...apmokote vieną didelį bazinį modelį, kuris „išmoksta pasaulį“ neapibrėžtu statistiniu būdu, tada pritaikote konkretiems darbams naudodamas raginimus, tikslinimą arba papildomas priemones ( Bommasani ir kt., 2021 ).

Kitaip tariant: tai universalus variklis , kurį galite vairuoti.

Ir taip, raktinis žodis yra „bendras“. Būtent tai ir yra visa esmė.


2) Kas yra generatyvinio dirbtinio intelekto pamatiniai modeliai? (Kaip jie konkrečiai tinka) 🎨📝

Taigi, kas yra generatyvinio dirbtinio intelekto pamatiniai modeliai? Tai yra pagrindiniai modeliai, kuriais grindžiamos sistemos, galinčios generuoti naują turinį – tekstą, vaizdus, ​​garsą, kodą, vaizdo įrašus ir vis dažniau visų šių elementų mišinius ( NIST , NIST generatyvinio dirbtinio intelekto profilis ).

Generatyvusis dirbtinis intelektas skirtas ne tik tokių etikečių kaip „šlamštas / ne šlamštas“ numatymui. Jis skirtas rezultatų, kurie atrodo taip, lyg juos būtų sukūręs žmogus, generavimui.

  • pastraipos

  • eilėraščiai

  • produktų aprašymai

  • iliustracijos

  • melodijos

  • programėlių prototipai

  • sintetiniai balsai

  • ir kartais neįtikėtinai pasitikinčios savimi nesąmonės 🙃

Pamatų modeliai ypač geri, nes:

Jie yra „pagrindinis sluoksnis“ – kaip duonos tešla. Iš jos galima kepti prancūzišką batoną, picą ar cinamono bandeles... ne visai tobula metafora, bet supratote mane 😄


3) Kodėl jie viską pakeitė (ir kodėl žmonės nenustoja apie juos kalbėti) 🚀

Prieš pagrindinius modelius, daugelis dirbtinio intelekto buvo skirti konkrečioms užduotims:

  • apmokyti nuotaikų analizės modelį

  • apmokyti kitą vertimui

  • apmokyti kitą vaizdų klasifikavimui

  • apmokyti kitą asmenį atpažinti įvardintus subjektus

Tai suveikė, bet buvo lėta, brangu ir kažkaip... trapu.

Fondo modeliai apvertė tai:

  • iš anksto apmokyti vieną kartą (didelės pastangos)

  • pakartotinis naudojimas visur (didelis atlygis) ( Bommasani ir kt., 2021 )

Tas pakartotinis panaudojimas yra daugiklis. Įmonės gali sukurti 20 funkcijų ant vienos modelių šeimos, užuot 20 kartų išradinėjusios dviratį.

Be to, naudotojo patirtis tapo natūralesnė:

  • jūs „nenaudojate klasifikatoriaus“

  • Kalbi su modeliu taip, lyg jis būtų su paslaugiu kolega, kuris niekada nemiega ☕🤝

Kartais tai panašu į bendradarbį, kuris užtikrintai viską neteisingai supranta, bet štai. Augimas.


4) Pagrindinė idėja: parengiamieji mokymai + adaptacija 🧩

Beveik visi pamatų modeliai atitinka tam tikrą modelį ( Stanfordo CRFM , NIST ):

Parengiamasis mokymas (interneto įsisavinimo etapas) 📚

Modelis apmokomas naudojant didžiulius, plačius duomenų rinkinius, naudojant savarankiškai prižiūrimą mokymąsi ( NIST ). Kalbos modeliuose tai paprastai reiškia trūkstamų žodžių arba kito simbolio numatymą ( Devlin ir kt., 2018 , Brown ir kt., 2020 ).

Esmė ne išmokyti jį vienos užduoties. Esmė – išmokyti jį bendrų vaizdinių :

  • gramatika

  • faktai (natūralūs)

  • samprotavimo modeliai (kartais)

  • rašymo stiliai

  • kodo struktūra

  • bendras žmogaus ketinimas

Adaptacija (fazė „padaryti praktišku“) 🛠️

Tada pritaikote jį naudodami vieną ar daugiau iš šių būdų:

  • raginimas (instrukcijos paprasta kalba)

  • instrukcijų derinimas (apmokymas vykdyti instrukcijas) ( Wei ir kt., 2021 )

  • tikslinimas (mokymas naudojant jūsų domeno duomenis)

  • LoRA / adapteriai (lengvi derinimo metodai) ( Hu ir kt., 2021 )

  • RAG (paieškos papildyta generacija – modelis konsultuojasi su jūsų dokumentais) ( Lewis ir kt., 2020 )

  • įrankių naudojimas (funkcijų iškvietimas, vidinių sistemų naršymas ir kt.)

Štai kodėl tas pats bazinis modelis gali parašyti romantinę sceną... o po penkių sekundžių padėti derinti SQL užklausą 😭


5) Kas lemia gerą pamatinio modelio versiją? ✅

Tai yra dalis, kurią žmonės praleidžia ir vėliau gailisi.

„Geras“ pamatinis modelis nėra tiesiog „didesnis“. Didesnis, žinoma, padeda... bet tai ne vienintelis dalykas. Gera pamatinio modelio versija paprastai turi:

Stiprus apibendrinimas 🧠

Jis gerai atlieka daugelį užduočių, nereikalaujant konkrečioms užduotims skirtų mokymų ( Bommasani ir kt., 2021 ).

Vairavimas ir valdymas 🎛️

Jis gali patikimai vykdyti tokias instrukcijas kaip:

  • „būti glaustam“

  • „naudoti ženklelius“

  • „Rašykite draugišku tonu“

  • „Neatskleiskite konfidencialios informacijos“

Kai kurie modeliai yra išmanūs, bet slidūs. Tarsi bandytum laikyti muilo gabalėlį duše. Naudingi, bet nepastoviai 😅

Silpnas polinkis į haliucinacijas (arba bent jau atviras netikrumas) 🧯

Nė vienas modelis nėra apsaugotas nuo haliucinacijų, bet gerieji:

Geri multimodaliniai įgūdžiai (kai reikia) 🖼️🎧

Jei kuriate asistentus, kurie skaito vaizdus, ​​interpretuoja diagramas ar supranta garsą, multimodalumas yra labai svarbus ( Radford ir kt., 2021 ).

Efektyvi išvada ⚡

Vėlavimas ir kaina yra svarbūs. Galingas, bet lėtas modelis yra kaip sportinis automobilis su pradurta padanga.

Saugumas ir lygiavimas 🧩

Ne tik „viską atmesti“, bet ir:

Dokumentacija + ekosistema 🌱

Skamba sausai, bet tai tiesa:

  • įrankiai

  • vertinimo diržai

  • diegimo parinktys

  • įmonės kontrolės priemonės

  • tikslinimo palaikymas

Taip, „ekosistema“ yra miglotas žodis. Aš irgi jo nekenčiu. Bet jis svarbus.


6) Palyginimo lentelė – dažniausiai pasitaikantys pamatų modelių variantai (ir kam jie tinka) 🧾

Žemiau pateikiama praktiška, šiek tiek netobula palyginimo lentelė. Tai ne „vienas teisingas sąrašas“, o labiau tai, ką žmonės renkasi gamtoje.

įrankio / modelio tipas auditorija brangus kodėl tai veikia
Patentuota LLM (pokalbių stiliaus) komandos nori greičio ir šlifavimo naudojimo pagrindu / prenumerata Puikus instrukcijų laikymasis, stiprus bendras našumas, dažniausiai geriausias rezultatas vos išpakavus 😌
Atvirojo svorio LLM (savarankiškai talpinamas) statybininkai, norintys kontroliuoti infrastruktūros išlaidos (ir galvos skausmai) Pritaikoma, privatumui draugiška, gali veikti lokaliai... jei mėgstate eksperimentuoti vidurnaktį
Difuzinio vaizdo generatorius kūrybininkai, dizaino komandos iš nemokamos į mokamą Puiki vaizdų sintezė, stilių įvairovė, iteraciniai darbo eigos procesai (taip pat: pirštai gali būti ne vietoje) ✋😬 ( Ho ir kt., 2020 , Rombach ir kt., 2021 )
Multimodalinis „vizijos kalbos“ modelis programėlės, kurios skaito vaizdus ir tekstą naudojimo pagrindu Leidžia užduoti klausimus apie vaizdus, ​​ekrano kopijas, diagramas – stebėtinai patogu ( Radford ir kt., 2021 )
Įterpimo pamatų modelis paieška + RAG sistemos maža kaina už skambutį Paverčia tekstą vektoriais semantinei paieškai, klasterizavimui, rekomendacijoms – tyli MVP energija ( Karpukhin ir kt., 2020 , Douze ir kt., 2024 )
Kalbos į tekstą pamatinis modelis skambučių centrai, kūrėjai naudojimo pagrindu / vietinis Greitas transkripcijos būdas, daugiakalbystė, pakankamai geras triukšmingam garsui (dažniausiai) 🎙️ ( Whisper )
Teksto įgarsinimo pamatinis modelis produktų komandos, žiniasklaida naudojimo pagrindu Natūralus balso generavimas, balso stiliai, pasakojimas – gali tapti šiurpinančiai realūs ( Shen ir kt., 2017 )
Į kodą orientuota LLM kūrėjai naudojimo pagrindu / prenumerata Geriau moku atpažinti kodo šablonus, derinti, refaktoruoti... bet vis tiek minčių neskaitau 😅

Atkreipkite dėmesį, kad „pamatinis modelis“ reiškia ne tik „pokalbių robotą“. Įterpimai ir kalbos modeliai taip pat gali būti pagrįsti pamatiniais, nes jie yra plataus taikymo srities ir gali būti pakartotinai naudojami įvairiose užduotyse ( Bommasani ir kt., 2021 , NIST ).


7) Atidžiau pažvelgus: kaip mokosi kalbos pagrindų modeliai (vibe versija) 🧠🧃

Kalbos pagrindų modeliai (dažnai vadinami LLM) paprastai mokomi naudojant didžiulius tekstų rinkinius. Jie mokosi numatydami žetonus ( Brown ir kt., 2020 ). Štai ir viskas. Jokių slaptų fėjų dulkių.

Tačiau magija slypi tame, kad prognozuojant žetonus modelis yra priverstas mokytis struktūros ( CSET ):

  • gramatika ir sintaksė

  • temų ryšiai

  • samprotavimo tipo modeliai (kartais)

  • įprastos minčių sekos

  • kaip žmonės aiškina dalykus, ginčijasi, atsiprašo, derasi, moko

Tai lyg išmoktum mėgdžioti milijonus pokalbių „nesuprantant“, kaip tai daro žmonės. Atrodo, kad tai neturėtų veikti... o vis dėlto veikia.

Vienas lengvas perdėjimas: tai iš esmės tas pats, kas suspausti žmogaus raštą į milžiniškas tikimybines smegenis.
Kita vertus, ši metafora yra šiek tiek prakeikta. Bet mes judame 😄


8) Atidžiau pažvelgus: difuzijos modeliai (kodėl vaizdai veikia skirtingai) 🎨🌀

Vaizdo pagrindo modeliuose dažnai naudojami difuzijos metodai ( Ho ir kt., 2020 , Rombach ir kt., 2021 ).

Grubi idėja:

  1. pridėti triukšmo prie vaizdų, kol jie iš esmės taps statiški

  2. apmokyti modelį, kad žingsnis po žingsnio pakeistų tą triukšmą

  3. generavimo metu pradėkite nuo triukšmo ir, vadovaudamiesi raginimu, „išsklaidykite triukšmą“ į vaizdą ( Ho ir kt., 2020 ).

Štai kodėl vaizdų generavimas atrodo kaip nuotraukos „ryškinimas“, išskyrus tai, kad nuotraukoje pavaizduotas sportbačiais avintis drakonas prekybos centro praėjime 🛒🐉

Difuzijos modeliai yra geri, nes:

  • jie sukuria aukštos kokybės vaizdus

  • juos gali stipriai nukreipti tekstas

  • jie palaiko iteracinį tobulinimą (variacijas, perpiešimą, mastelio keitimą) ( Rombach ir kt., 2021 )

Jie taip pat kartais susiduria su sunkumais:

  • teksto pateikimas vaizduose

  • smulkios anatomijos detalės

  • nuoseklus veikėjo tapatumas skirtingose ​​scenose (jis gerėja, bet vis tiek)


9) Išsamesnė apžvalga: multimodaliniai pamatų modeliai (tekstas + vaizdai + garsas) 👀🎧📝

Multimodaliniai pamatiniai modeliai siekia suprasti ir generuoti kelių tipų duomenis:

Kodėl tai svarbu realiame gyvenime:

  • klientų aptarnavimo tarnyba gali interpretuoti ekrano kopijas

  • pritaikymo neįgaliesiems įrankiai gali apibūdinti vaizdus

  • Švietimo programėlės gali paaiškinti diagramas

  • kūrėjai gali greitai remiksuoti formatus

  • verslo įrankiai gali „nuskaityti“ prietaisų skydelio ekrano kopiją ir ją apibendrinti

Po gaubtu multimodalinės sistemos dažnai suderina reprezentacijas:

  • paversti vaizdą įterptais elementais

  • paversti tekstą įterptais elementais

  • Išmokite bendrą erdvę, kurioje „katė“ atitinka katės pikselius 😺 ( Radford ir kt., 2021 )

Ne visada elegantiška. Kartais susiūta kaip antklodė. Bet tai veikia.


10) Tikslus derinimas, raginimas ir RAG (kaip pritaikote bazinį modelį) 🧰

Jei bandote sukurti praktišką pamatinį modelį konkrečiai sričiai (teisės, medicinos, klientų aptarnavimo, vidinių žinių), turite keletą svertų:

Raginimas 🗣️

Greičiausias ir paprasčiausias.

  • Privalumai: nėra jokių mokymų, momentinė iteracija

  • Trūkumai: gali būti nenuoseklu, riboja kontekstą, skatina trapumą

Tikslus derinimas 🎯

Toliau apmokykite modelį remdamiesi savo pavyzdžiais.

  • Privalumai: nuoseklesnis veikimas, geresnė domeno kalba, gali sutrumpinti raginimo ilgį

  • Trūkumai: kaina, duomenų kokybės reikalavimai, perteklinio pritaikymo rizika, priežiūra

Lengvas derinimas (LoRA / adapteriai) 🧩

Efektyvesnė tikslinimo versija ( Hu ir kt., 2021 ).

  • Privalumai: pigesnis, modulinis, lengviau keičiamas

  • Trūkumai: vis dar reikia mokymo proceso ir vertinimo

RAG (paieškos papildyta karta) 🔎

Modelis iš jūsų žinių bazės paima atitinkamus dokumentus ir, remdamasis jais, pateikia atsakymus ( Lewis ir kt., 2020 ).

  • Privalumai: naujausios žinios, vidinis citavimas (jei jį įdiegsite), mažiau pakartotinio mokymo

  • Trūkumai: paieškos kokybė gali nulemti rezultatą arba jo žlugimą, reikalingas geras skaidymas į fragmentus ir įterpimai

Tikra kalba: daug sėkmingų sistemų derina raginimą ir RAG. Tikslus derinimas yra veiksmingas, bet ne visada būtinas. Žmonės per greitai jį taiko, nes tai skamba įspūdingai 😅


11) Rizika, apribojimai ir skyrius „prašau, nenaudokite to aklai“ 🧯😬

Pagrindiniai modeliai yra galingi, bet jie nėra stabilūs kaip tradicinė programinė įranga. Jie labiau panašūs į... talentingą praktikantą, turintį pasitikėjimo savimi problemų.

Pagrindiniai apribojimai, į kuriuos reikia atsižvelgti planuojant:

Haliucinacijos 🌀

Modeliai gali sugalvoti:

  • netikri šaltiniai

  • neteisingi faktai

  • tikėtini, bet klaidingi žingsniai ( Ji ir kt., 2023 )

Švelninimo priemonės:

  • RAG su įžemintu kontekstu ( Lewis ir kt., 2020 )

  • apriboti rezultatai (schemos, įrankių iškvietimai)

  • aiški instrukcija „nespėlioti“

  • tikrinimo lygmenys (taisyklės, kryžminiai patikrinimai, žmogaus atliekama peržiūra)

Šališkumas ir žalingi modeliai ⚠️

Kadangi mokymo duomenys atspindi žmones, galite gauti:

Švelninimo priemonės:

Duomenų privatumas ir nutekėjimas 🔒

Jei į modelio galinį tašką tiekiate konfidencialius duomenis, turite žinoti:

  • kaip jis saugomas

  • ar jis naudojamas treniruotėms

  • koks registravimas egzistuoja

  • kas kontroliuoja jūsų organizacijos poreikius ( NIST AI RMF 1.0 )

Švelninimo priemonės:

Greita injekcija (ypač su RAG) 🕳️

Jei modelis skaito nepatikimą tekstą, tas tekstas gali bandyti jį manipuliuoti:

Švelninimo priemonės:

Nenoriu tavęs gąsdinti. Tiesiog... geriau žinoti, kur girgžda grindų lentos.


12) Kaip išsirinkti tinkamą pamatų modelį pagal savo naudojimo atvejį 🎛️

Jei renkatės pamatų modelį (arba statote ant jo), pradėkite nuo šių nurodymų:

Apibrėžkite, ką generuojate 🧾

  • tik tekstas

  • vaizdai

  • garso įrašas

  • mišrus multimodalinis

Nusistatykite faktiškumo kartelę 📌

Jei jums reikalingas didelis tikslumas (finansų, sveikatos, teisės, saugos):

Nuspręskite savo delsos tikslą ⚡

Pokalbis vyksta akimirksniu. Paketinis apibendrinimas gali būti lėtesnis.
Jei reikia greito atsakymo, svarbu modelio dydis ir talpinimas.

Privatumo ir atitikties poreikių žemėlapis 🔐

Kai kurioms komandoms reikia:

Subalansuokite biudžetą – ir aplenkite kantrybę 😅

Savarankiškas talpinimas suteikia kontrolę, bet padidina sudėtingumą.
Valdomos API yra paprastos, bet gali būti brangios ir mažiau pritaikomos.

Mažas praktinis patarimas: pirmiausia sukurkite prototipą su kažkuo lengvu, o vėliau jį užgrūdinkite. Pradėti nuo „tobulos“ konfigūracijos paprastai viską sulėtina.


13) Kas yra generatyvinio dirbtinio intelekto pamatiniai modeliai? (Greitasis mentalinis modelis) 🧠✨

Grįžkime prie to. Kas yra generatyvinio dirbtinio intelekto pamatiniai modeliai?

Jie yra:

Tai ne viena architektūra ar prekės ženklas. Tai modelių kategorija, kuri veikia kaip platforma.

Pamatinis modelis labiau primena virtuvę, o ne skaičiuotuvą. Jame galima gaminti daug patiekalų. Taip pat galima prideginti skrebučius, jei nekreipiate dėmesio... bet virtuvė vis tiek gana patogi 🍳🔥


14) Apibendrinimas ir išsinešimui ✅🙂

Pamatiniai modeliai yra daugkartinio naudojimo generatyvinio dirbtinio intelekto varikliai. Jie yra plačiai apmokomi, o tada pritaikomi konkrečioms užduotims naudojant raginimus, tikslinimą ir paiešką ( NIST , Stanfordo CRFM ). Jie gali būti nuostabūs, netvarkingi, galingi ir kartais juokingi – visa tai vienu metu.

Santrauka:

Jei kuriate ką nors naudodami generatyvinį dirbtinį intelektą, pamatų modelių supratimas nėra neprivalomas. Tai visas aukštas, ant kurio stovi pastatas... ir taip, kartais grindys šiek tiek svyruoja 😅

DUK

Pamatų modeliai, paprastai tariant

Pagrindinis modelis yra didelis, bendrosios paskirties dirbtinio intelekto modelis, apmokytas remiantis plačiais duomenimis, kad jį būtų galima pakartotinai naudoti daugeliui užduočių. Užuot kuriant po vieną modelį kiekvienai užduočiai, pradedama nuo stipraus „bazinio“ modelio ir jis pritaikomas pagal poreikį. Šis pritaikymas dažnai atliekamas raginimų, tikslinimo, paieškos (RAG) arba įrankių pagalba. Pagrindinė idėja yra plotis ir valdomumas.

Kuo skiriasi pagrindiniai modeliai nuo tradicinių, konkrečiai užduočiai skirtų dirbtinio intelekto modelių

Tradicinis dirbtinis intelektas dažnai kiekvienai užduočiai, pavyzdžiui, nuotaikų analizei ar vertimui, apmoko atskirą modelį. Pagrindiniai modeliai apverčia šį modelį: vieną kartą apmoko, tada pakartotinai panaudoja daugelyje funkcijų ir produktų. Tai gali sumažinti dubliuojamą darbą ir pagreitinti naujų galimybių teikimą. Kompromisas yra tas, kad jos gali būti mažiau nuspėjamos nei klasikinė programinė įranga, nebent pridedate apribojimų ir testuojate.

Pagrindiniai generatyvinio dirbtinio intelekto modeliai

Generatyviojoje dirbtinėje intelektinėje intelekte pagrindiniai modeliai yra bazinės sistemos, galinčios kurti naują turinį, pvz., tekstą, vaizdus, ​​garsą, kodą ar multimodalinius rezultatus. Jie neapsiriboja ženklinimu ar klasifikavimu; jie generuoja atsakymus, kurie primena žmogaus sukurtą darbą. Kadangi išankstinio mokymo metu jie išmoksta plačius modelius, jie gali apdoroti daugybę raginimų tipų ir formatų. Jie yra „bazinis sluoksnis“, sudarantis daugumą šiuolaikinių generatyvinių patirčių.

Kaip pagrindiniai modeliai mokosi išankstinio mokymo metu

Dauguma kalbos pagrindų modelių mokosi numatydami simbolius, tokius kaip kitas žodis ar trūkstami žodžiai tekste. Šis paprastas tikslas skatina juos įsisavinti tokią struktūrą kaip gramatika, stilius ir įprasti aiškinimo modeliai. Jie taip pat gali įsisavinti daug pasaulio žinių, nors ne visada patikimai. Rezultatas – stiprus bendras vaizdas, kurį vėliau galite nukreipti į konkretų darbą.

Skirtumas tarp raginimo, tikslinimo, LoRA ir RAG

Raginimai yra greičiausias būdas valdyti elgesį naudojant instrukcijas, tačiau jis gali būti trapus. Tikslus derinimas toliau moko modelį pagal jūsų pavyzdžius, kad elgesys būtų nuoseklesnis, tačiau tai padidina išlaidas ir reikalauja priežiūros. LoRA / adapteriai yra lengvesnis tikslinimo metodas, kuris dažnai yra pigesnis ir labiau modulinis. RAG gauna atitinkamus dokumentus ir, naudodamas tą kontekstą, gauna modelio atsakymą, o tai padeda išlaikyti šviežumą ir pagrįstumą.

Kada naudoti RAG vietoj tikslaus derinimo

RAG dažnai yra geras pasirinkimas, kai reikia atsakymų, pagrįstų dabartiniais dokumentais arba vidine žinių baze. Jis gali sumažinti „spėliones“, suteikdamas modeliui atitinkamą kontekstą generavimo metu. Tikslus derinimas geriau tinka, kai reikia nuoseklaus stiliaus, srities frazių ar elgesio, kurio negalima patikimai sukurti raginimu. Daugelyje praktinių sistemų derinamas raginimas ir RAG, prieš pradedant tikslų derinimą.

Kaip sumažinti haliucinacijas ir gauti patikimesnius atsakymus

Įprastas metodas yra pagrįsti modelį paieškos (RAG) metodu, kad jis išliktų artimas pateiktam kontekstui. Taip pat galite apriboti išvestis schemomis, reikalauti įrankių iškvietimų pagrindiniams veiksmams ir pridėti aiškias „nespėliokite“ instrukcijas. Svarbūs ir patvirtinimo sluoksniai, pvz., taisyklių patikrinimai, kryžminė patikra ir žmogaus atliekama peržiūra svarbesniais naudojimo atvejais. Modelį traktuokite kaip tikimybinį pagalbininką, o ne kaip tiesos šaltinį pagal numatytuosius nustatymus.

Didžiausia rizika, susijusi su gamyboje naudojamais pamatiniais modeliais

Dažniausios rizikos apima haliucinacijas, šališkus ar žalingus mokymo duomenų modelius ir privatumo nutekėjimą, jei su jautriais duomenimis netinkamai elgiamasi. Sistemos taip pat gali būti pažeidžiamos dėl greito įterpimo, ypač kai modelis nuskaito nepatikimą tekstą iš dokumentų ar interneto turinio. Paprastai šios rizikos mažinimo priemonės apima valdymą, raudonų komandų kūrimą, prieigos kontrolę, saugesnius raginimų modelius ir struktūrizuotą vertinimą. Planuokite šias rizikas iš anksto, o ne taisymus vėliau.

Greitas įpurškimas ir kodėl jis svarbus RAG sistemose

Raginimo injekcija – tai bandymas nepaisyti nurodymų, pvz., „ignoruoti ankstesnes instrukcijas“ arba „atskleisti paslaptis“. RAG sistemoje gauti dokumentai gali turėti tokias kenkėjiškas instrukcijas, ir modelis gali jų laikytis, jei nebūsite atsargūs. Įprastas metodas yra izoliuoti sistemos instrukcijas, išvalyti gautą turinį ir pasikliauti įrankiais pagrįstomis politikomis, o ne vien raginimais. Testavimas naudojant priešiškus įvesties šaltinius padeda atskleisti silpnąsias vietas.

Kaip pasirinkti pamatų modelį pagal jūsų naudojimo atvejį

Pradėkite apibrėždami, ką jums reikia generuoti: tekstą, vaizdus, ​​garsą, kodą ar multimodalinius rezultatus. Tada nustatykite faktiškumo kartelę – didelio tikslumo sritims dažnai reikalingas įžeminimas (RAG), patvirtinimas ir kartais žmogaus peržiūra. Atsižvelkite į delsą ir kainą, nes stiprų modelį, kuris yra lėtas ar brangus, gali būti sunku pristatyti. Galiausiai, susiekite privatumo ir atitikties poreikius su diegimo parinktimis ir valdikliais.

Nuorodos

  1. Nacionalinis standartų ir technologijų institutas (NIST)pagrindų modelis (žodynas)csrc.nist.gov

  2. Nacionalinis standartų ir technologijų institutas (NIST)NIST AI 600-1: Generatyvaus dirbtinio intelekto profilisnvlpubs.nist.gov

  3. Nacionalinis standartų ir technologijų institutas (NIST)NIST AI 100-1: Dirbtinio intelekto rizikos valdymo sistema (AI RMF 1.0)nvlpubs.nist.gov

  4. Stanfordo pagrindų modelių tyrimų centras (CRFM) - Ataskaita - crfm.stanford.edu

  5. arXivapie pamatų modelių galimybes ir riziką (Bommasani ir kt., 2021)arxiv.org

  6. arXivKalbos modeliai yra sunkiai išmokstami (Brown ir kt., 2020)arxiv.org

  7. arXivpaieškos papildyta generacija žiniomis pagrįstoms NLP užduotims (Lewis ir kt., 2020)arxiv.org

  8. arXivLoRA: didelių kalbų modelių žemo rango adaptacija (Hu ir kt., 2021)arxiv.org

  9. arXivBERT: Giliųjų dvikrypčių transformatorių išankstinis mokymas kalbos supratimui (Devlin ir kt., 2018)arxiv.org

  10. „arXiv“tiksliai suderinti kalbos modeliai yra besimokantys be jokių problemų (Wei ir kt., 2021 m.)arxiv.org

  11. ACM skaitmeninė bibliotekaHaliucinacijų natūralios kalbos generavimo metu apžvalga (Ji ir kt., 2023)dl.acm.org

  12. arXivperkeliamų vizualinių modelių mokymasis iš natūralios kalbos priežiūros (Radford ir kt., 2021)arxiv.org

  13. arXivtriukšmo mažinimo difuzijos tikimybiniai modeliai (Ho ir kt., 2020)arxiv.org

  14. arXivdidelės skiriamosios gebos vaizdų sintezė su latentinės difuzijos modeliais (Rombach ir kt., 2021)arxiv.org

  15. arXivtankaus pasažo paieška atsakant į atvirosios srities klausimus (Karpukhin ir kt., 2020)arxiv.org

  16. arXivFaiso biblioteka (Douze ir kt., 2024)arxiv.org

  17. „OpenAI“pristatome „Whisper“openai.com

  18. arXivNatūralios TTS sintezė, sąlygojant „WaveNet“ pagal Mel spektrogramos prognozes (Shen ir kt., 2017)arxiv.org

  19. Saugumo ir besiformuojančių technologijų centras (CSET), Džordžtauno universitetasStebinamoji kito žodžio numatymo galia: didelių kalbos modelių paaiškinimas (1 dalis)cset.georgetown.edu

  20. USENIXmokymo duomenų išgavimas iš didelių kalbų modelių (Carlini ir kt., 2021)usenix.org

  21. OWASP - LLM01: Greitas injekcijos atlikimas - genai.owasp.org

  22. arXivDaugiau nei prašėte: išsami naujų greito įskiepijimo grėsmių, kylančių taikomųjų programų integruotiems didelių kalbų modeliams, analizė (Greshake ir kt., 2023)arxiv.org

  23. OWASP atmintinių serijaLLM greito injekcijų prevencijos atmintinėcheatsheetseries.owasp.org

Raskite naujausią dirbtinį intelektą oficialioje dirbtinio intelekto asistentų parduotuvėje

Apie mus

Atgal į tinklaraštį