Trumpas atsakymas: baziniai modeliai yra dideli, bendrosios paskirties dirbtinio intelekto modeliai, apmokyti naudojant didelius, plačius duomenų rinkinius, o vėliau pritaikyti daugeliui užduočių (rašymui, paieškai, kodavimui, vaizdams) naudojant raginimus, tikslinimą, įrankius arba paiešką. Jei jums reikia patikimų atsakymų, derinkite juos su pagrindimu (pvz., RAG), aiškiais apribojimais ir patikrinimais, o ne leiskite jiems improvizuoti.
Svarbiausios išvados:
Apibrėžimas : Vienas plačiai apmokytas bazinis modelis pakartotinai naudojamas daugelyje užduočių, o ne po vieną užduotį kiekvienam modeliui.
Adaptacija : Elgesiui valdyti naudokite raginimus, tikslų derinimą, LoRA/adapterius, RAG ir įrankius.
Generatyvus pritaikymas : jie leidžia generuoti tekstą, vaizdus, garsą, kodą ir multimodalinį turinį.
Kokybės signalai : pirmenybę teikite kontroliuojamumui, mažesniam haliucinacijų skaičiui, gebėjimui bendrauti įvairiais būdais ir efektyviai daryti išvadas.
Rizikos kontrolė : planuokite haliucinacijas, šališkumą, privatumo nutekėjimą ir skubų įsiskverbimą taikant valdymą ir testavimą.

Straipsniai, kuriuos galbūt norėsite perskaityti po šio:
🔗 Kas yra dirbtinio intelekto įmonė?
Supraskite, kaip dirbtinio intelekto įmonės kuria produktus, komandas ir pajamų modelius.
🔗 Kaip atrodo dirbtinio intelekto kodas
Peržiūrėkite dirbtinio intelekto kodo pavyzdžius – nuo Python modelių iki API.
🔗 Kas yra dirbtinio intelekto algoritmas
Sužinokite, kas yra dirbtinio intelekto algoritmai ir kaip jie priima sprendimus.
🔗 Kas yra dirbtinio intelekto technologija
Susipažinkite su pagrindinėmis dirbtinio intelekto technologijomis, kurios skatina automatizavimą, analizę ir išmaniąsias programas.
1) Pamatų modeliai – apibrėžimas be rūko 🧠
Pamatinis modelis yra didelis, bendrosios paskirties dirbtinio intelekto modelis, apmokytas naudojant plačius duomenis (dažniausiai jų daugybę), kad jį būtų galima pritaikyti daugeliui užduočių, o ne tik vienai ( NIST , Stanfordo CRFM ).
Užuot sukūrus atskirą modelį:
-
rašant el. laiškus
-
atsakinėjant į klausimus
-
PDF failų santraukos
-
vaizdų generavimas
-
palaikymo užklausų klasifikavimas
-
kalbų vertimas
-
kodo pasiūlymų teikimas
...apmokote vieną didelį bazinį modelį, kuris „išmoksta pasaulį“ neapibrėžtu statistiniu būdu, tada pritaikote jį konkretiems darbams naudodamas raginimus, tikslinimą arba papildomas priemones ( Bommasani ir kt., 2021 ).
Kitaip tariant: tai universalus variklis , kurį galite vairuoti.
Ir taip, raktinis žodis yra „bendras“. Būtent tai ir yra visa esmė.
2) Kas yra generatyvinio dirbtinio intelekto pamatiniai modeliai? (Kaip jie konkrečiai tinka) 🎨📝
Taigi, kas yra generatyvinio dirbtinio intelekto pamatiniai modeliai? Tai yra pagrindiniai modeliai, kuriais grindžiamos sistemos, galinčios generuoti naują turinį – tekstą, vaizdus, garsą, kodą, vaizdo įrašus ir vis dažniau visų šių elementų mišinius ( NIST , NIST generatyvinio dirbtinio intelekto profilis ).
Generatyvusis dirbtinis intelektas skirtas ne tik tokių etikečių kaip „šlamštas / ne šlamštas“ numatymui. Jis skirtas rezultatų, kurie atrodo taip, lyg juos būtų sukūręs žmogus, generavimui.
-
pastraipos
-
eilėraščiai
-
produktų aprašymai
-
iliustracijos
-
melodijos
-
programėlių prototipai
-
sintetiniai balsai
-
ir kartais neįtikėtinai pasitikinčios savimi nesąmonės 🙃
Pamatų modeliai ypač geri, nes:
-
jie iš didžiulių duomenų rinkinių išskyrė plačius modelius ( Bommasani ir kt., 2021 m .)
-
jie gali būti apibendrinti ir pritaikyti naujiems uždaviniams (net ir neįprastiems) ( Brown ir kt., 2020 )
-
juos galima panaudoti dešimtims rezultatų, jų neapmokant iš naujo ( Bommasani ir kt., 2021 m .)
Jie yra „pagrindinis sluoksnis“ – kaip duonos tešla. Iš jos galima kepti prancūzišką batoną, picą ar cinamono bandeles... ne visai tobula metafora, bet supratote mane 😄
3) Kodėl jie viską pakeitė (ir kodėl žmonės nenustoja apie juos kalbėti) 🚀
Prieš pagrindinius modelius, daugelis dirbtinio intelekto buvo skirti konkrečioms užduotims:
-
apmokyti nuotaikų analizės modelį
-
apmokyti kitą vertimui
-
apmokyti kitą vaizdų klasifikavimui
-
apmokyti kitą asmenį atpažinti įvardintus subjektus
Tai suveikė, bet buvo lėta, brangu ir kažkaip... trapu.
Fondo modeliai apvertė tai:
-
iš anksto apmokyti vieną kartą (didelės pastangos)
-
pakartotinis naudojimas visur (didelis atlygis) ( Bommasani ir kt., 2021 )
Tas pakartotinis panaudojimas yra daugiklis. Įmonės gali sukurti 20 funkcijų ant vienos modelių šeimos, užuot 20 kartų išradinėjusios dviratį.
Be to, naudotojo patirtis tapo natūralesnė:
-
jūs „nenaudojate klasifikatoriaus“
-
Kalbi su modeliu taip, lyg jis būtų su paslaugiu kolega, kuris niekada nemiega ☕🤝
Kartais tai panašu į bendradarbį, kuris užtikrintai viską neteisingai supranta, bet štai. Augimas.
4) Pagrindinė idėja: parengiamieji mokymai + adaptacija 🧩
Beveik visi pamatų modeliai atitinka tam tikrą modelį ( Stanfordo CRFM , NIST ):
Parengiamasis mokymas (interneto įsisavinimo etapas) 📚
Modelis apmokomas naudojant didžiulius, plačius duomenų rinkinius, naudojant savarankiškai prižiūrimą mokymąsi ( NIST ). Kalbos modeliuose tai paprastai reiškia trūkstamų žodžių arba kito simbolio numatymą ( Devlin ir kt., 2018 , Brown ir kt., 2020 ).
Esmė ne išmokyti jį vienos užduoties. Esmė – išmokyti jį bendrų vaizdinių :
-
gramatika
-
faktai (natūralūs)
-
samprotavimo modeliai (kartais)
-
rašymo stiliai
-
kodo struktūra
-
bendras žmogaus ketinimas
Adaptacija (fazė „padaryti praktišku“) 🛠️
Tada pritaikote jį naudodami vieną ar daugiau iš šių būdų:
-
raginimas (instrukcijos paprasta kalba)
-
instrukcijų derinimas (apmokymas vykdyti instrukcijas) ( Wei ir kt., 2021 )
-
tikslinimas (mokymas naudojant jūsų domeno duomenis)
-
LoRA / adapteriai (lengvi derinimo metodai) ( Hu ir kt., 2021 )
-
RAG (paieškos papildyta generacija – modelis konsultuojasi su jūsų dokumentais) ( Lewis ir kt., 2020 )
-
įrankių naudojimas (funkcijų iškvietimas, vidinių sistemų naršymas ir kt.)
Štai kodėl tas pats bazinis modelis gali parašyti romantinę sceną... o po penkių sekundžių padėti derinti SQL užklausą 😭
5) Kas lemia gerą pamatinio modelio versiją? ✅
Tai yra dalis, kurią žmonės praleidžia ir vėliau gailisi.
„Geras“ pamatinis modelis nėra tiesiog „didesnis“. Didesnis, žinoma, padeda... bet tai ne vienintelis dalykas. Gera pamatinio modelio versija paprastai turi:
Stiprus apibendrinimas 🧠
Jis gerai atlieka daugelį užduočių, nereikalaujant konkrečioms užduotims skirtų mokymų ( Bommasani ir kt., 2021 ).
Vairavimas ir valdymas 🎛️
Jis gali patikimai vykdyti tokias instrukcijas kaip:
-
„būti glaustam“
-
„naudoti ženklelius“
-
„Rašykite draugišku tonu“
-
„Neatskleiskite konfidencialios informacijos“
Kai kurie modeliai yra išmanūs, bet slidūs. Tarsi bandytum laikyti muilo gabalėlį duše. Naudingi, bet nepastoviai 😅
Silpnas polinkis į haliucinacijas (arba bent jau atviras netikrumas) 🧯
Nė vienas modelis nėra apsaugotas nuo haliucinacijų, bet gerieji:
-
mažiau haliucinuoti
-
dažniau pripažinti netikrumą
-
naudojant paieškos metodą, laikykitės pateikto konteksto ( Ji ir kt., 2023 , Lewis ir kt., 2020 )
Geri multimodaliniai įgūdžiai (kai reikia) 🖼️🎧
Jei kuriate asistentus, kurie skaito vaizdus, interpretuoja diagramas ar supranta garsą, multimodalumas yra labai svarbus ( Radford ir kt., 2021 ).
Efektyvi išvada ⚡
Vėlavimas ir kaina yra svarbūs. Galingas, bet lėtas modelis yra kaip sportinis automobilis su pradurta padanga.
Saugumas ir lygiavimas 🧩
Ne tik „viską atmesti“, bet ir:
-
venkite žalingų nurodymų
-
sumažinti šališkumą
-
atsargiai elkitės su jautriomis temomis
-
atsispirti pagrindiniams bandymams pabėgti iš kalėjimo (šiek tiek...) ( NIST AI RMF 1.0 , NIST generatyvinis AI profilis )
Dokumentacija + ekosistema 🌱
Skamba sausai, bet tai tiesa:
-
įrankiai
-
vertinimo diržai
-
diegimo parinktys
-
įmonės kontrolės priemonės
-
tikslinimo palaikymas
Taip, „ekosistema“ yra miglotas žodis. Aš irgi jo nekenčiu. Bet jis svarbus.
6) Palyginimo lentelė – dažniausiai pasitaikantys pamatų modelių variantai (ir kam jie tinka) 🧾
Žemiau pateikiama praktiška, šiek tiek netobula palyginimo lentelė. Tai ne „vienas teisingas sąrašas“, o labiau tai, ką žmonės renkasi gamtoje.
| įrankio / modelio tipas | auditorija | brangus | kodėl tai veikia |
|---|---|---|---|
| Patentuota LLM (pokalbių stiliaus) | komandos nori greičio ir šlifavimo | naudojimo pagrindu / prenumerata | Puikus instrukcijų laikymasis, stiprus bendras našumas, dažniausiai geriausias rezultatas vos išpakavus 😌 |
| Atvirojo svorio LLM (savarankiškai talpinamas) | statybininkai, norintys kontroliuoti | infrastruktūros išlaidos (ir galvos skausmai) | Pritaikoma, privatumui draugiška, gali veikti lokaliai... jei mėgstate eksperimentuoti vidurnaktį |
| Difuzinio vaizdo generatorius | kūrybininkai, dizaino komandos | iš nemokamos į mokamą | Puiki vaizdų sintezė, stilių įvairovė, iteraciniai darbo eigos procesai (taip pat: pirštai gali būti ne vietoje) ✋😬 ( Ho ir kt., 2020 , Rombach ir kt., 2021 ) |
| Multimodalinis „vizijos kalbos“ modelis | programėlės, kurios skaito vaizdus ir tekstą | naudojimo pagrindu | Leidžia užduoti klausimus apie vaizdus, ekrano kopijas, diagramas – stebėtinai patogu ( Radford ir kt., 2021 ) |
| Įterpimo pamatų modelis | paieška + RAG sistemos | maža kaina už skambutį | Paverčia tekstą vektoriais semantinei paieškai, klasterizavimui, rekomendacijoms – tyli MVP energija ( Karpukhin ir kt., 2020 , Douze ir kt., 2024 ) |
| Kalbos į tekstą pamatinis modelis | skambučių centrai, kūrėjai | naudojimo pagrindu / vietinis | Greitas transkripcijos būdas, daugiakalbystė, pakankamai geras triukšmingam garsui (dažniausiai) 🎙️ ( Whisper ) |
| Teksto įgarsinimo pamatinis modelis | produktų komandos, žiniasklaida | naudojimo pagrindu | Natūralus balso generavimas, balso stiliai, pasakojimas – gali tapti šiurpinančiai realūs ( Shen ir kt., 2017 ) |
| Į kodą orientuota LLM | kūrėjai | naudojimo pagrindu / prenumerata | Geriau moku atpažinti kodo šablonus, derinti, refaktoruoti... bet vis tiek minčių neskaitau 😅 |
Atkreipkite dėmesį, kad „pamatinis modelis“ reiškia ne tik „pokalbių robotą“. Įterpimai ir kalbos modeliai taip pat gali būti pagrįsti pamatiniais, nes jie yra plataus taikymo srities ir gali būti pakartotinai naudojami įvairiose užduotyse ( Bommasani ir kt., 2021 , NIST ).
7) Atidžiau pažvelgus: kaip mokosi kalbos pagrindų modeliai (vibe versija) 🧠🧃
Kalbos pagrindų modeliai (dažnai vadinami LLM) paprastai mokomi naudojant didžiulius tekstų rinkinius. Jie mokosi numatydami žetonus ( Brown ir kt., 2020 ). Štai ir viskas. Jokių slaptų fėjų dulkių.
Tačiau magija slypi tame, kad prognozuojant žetonus modelis yra priverstas mokytis struktūros ( CSET ):
-
gramatika ir sintaksė
-
temų ryšiai
-
samprotavimo tipo modeliai (kartais)
-
įprastos minčių sekos
-
kaip žmonės aiškina dalykus, ginčijasi, atsiprašo, derasi, moko
Tai lyg išmoktum mėgdžioti milijonus pokalbių „nesuprantant“, kaip tai daro žmonės. Atrodo, kad tai neturėtų veikti... o vis dėlto veikia.
Vienas lengvas perdėjimas: tai iš esmės tas pats, kas suspausti žmogaus raštą į milžiniškas tikimybines smegenis.
Kita vertus, ši metafora yra šiek tiek prakeikta. Bet mes judame 😄
8) Atidžiau pažvelgus: difuzijos modeliai (kodėl vaizdai veikia skirtingai) 🎨🌀
Vaizdo pagrindo modeliuose dažnai naudojami difuzijos metodai ( Ho ir kt., 2020 , Rombach ir kt., 2021 ).
Grubi idėja:
-
pridėti triukšmo prie vaizdų, kol jie iš esmės taps statiški
-
apmokyti modelį, kad žingsnis po žingsnio pakeistų tą triukšmą
-
generavimo metu pradėkite nuo triukšmo ir, vadovaudamiesi raginimu, „išsklaidykite triukšmą“ į vaizdą ( Ho ir kt., 2020 ).
Štai kodėl vaizdų generavimas atrodo kaip nuotraukos „ryškinimas“, išskyrus tai, kad nuotraukoje pavaizduotas sportbačiais avintis drakonas prekybos centro praėjime 🛒🐉
Difuzijos modeliai yra geri, nes:
-
jie sukuria aukštos kokybės vaizdus
-
juos gali stipriai nukreipti tekstas
-
jie palaiko iteracinį tobulinimą (variacijas, perpiešimą, mastelio keitimą) ( Rombach ir kt., 2021 )
Jie taip pat kartais susiduria su sunkumais:
-
teksto pateikimas vaizduose
-
smulkios anatomijos detalės
-
nuoseklus veikėjo tapatumas skirtingose scenose (jis gerėja, bet vis tiek)
9) Išsamesnė apžvalga: multimodaliniai pamatų modeliai (tekstas + vaizdai + garsas) 👀🎧📝
Multimodaliniai pamatiniai modeliai siekia suprasti ir generuoti kelių tipų duomenis:
-
tekstas
-
vaizdai
-
garso įrašas
-
vaizdo įrašas
-
kartais jutiklių tipo įvestis ( NIST generatyvinis dirbtinio intelekto profilis )
Kodėl tai svarbu realiame gyvenime:
-
klientų aptarnavimo tarnyba gali interpretuoti ekrano kopijas
-
pritaikymo neįgaliesiems įrankiai gali apibūdinti vaizdus
-
Švietimo programėlės gali paaiškinti diagramas
-
kūrėjai gali greitai remiksuoti formatus
-
verslo įrankiai gali „nuskaityti“ prietaisų skydelio ekrano kopiją ir ją apibendrinti
Po gaubtu multimodalinės sistemos dažnai suderina reprezentacijas:
-
paversti vaizdą įterptais elementais
-
paversti tekstą įterptais elementais
-
Išmokite bendrą erdvę, kurioje „katė“ atitinka katės pikselius 😺 ( Radford ir kt., 2021 )
Ne visada elegantiška. Kartais susiūta kaip antklodė. Bet tai veikia.
10) Tikslus derinimas, raginimas ir RAG (kaip pritaikote bazinį modelį) 🧰
Jei bandote sukurti praktišką pamatinį modelį konkrečiai sričiai (teisės, medicinos, klientų aptarnavimo, vidinių žinių), turite keletą svertų:
Raginimas 🗣️
Greičiausias ir paprasčiausias.
-
Privalumai: nėra jokių mokymų, momentinė iteracija
-
Trūkumai: gali būti nenuoseklu, riboja kontekstą, skatina trapumą
Tikslus derinimas 🎯
Toliau apmokykite modelį remdamiesi savo pavyzdžiais.
-
Privalumai: nuoseklesnis veikimas, geresnė domeno kalba, gali sutrumpinti raginimo ilgį
-
Trūkumai: kaina, duomenų kokybės reikalavimai, perteklinio pritaikymo rizika, priežiūra
Lengvas derinimas (LoRA / adapteriai) 🧩
Efektyvesnė tikslinimo versija ( Hu ir kt., 2021 ).
-
Privalumai: pigesnis, modulinis, lengviau keičiamas
-
Trūkumai: vis dar reikia mokymo proceso ir vertinimo
RAG (paieškos papildyta karta) 🔎
Modelis iš jūsų žinių bazės paima atitinkamus dokumentus ir, remdamasis jais, pateikia atsakymus ( Lewis ir kt., 2020 ).
-
Privalumai: naujausios žinios, vidinis citavimas (jei jį įdiegsite), mažiau pakartotinio mokymo
-
Trūkumai: paieškos kokybė gali nulemti rezultatą arba jo žlugimą, reikalingas geras skaidymas į fragmentus ir įterpimai
Tikra kalba: daug sėkmingų sistemų derina raginimą ir RAG. Tikslus derinimas yra veiksmingas, bet ne visada būtinas. Žmonės per greitai jį taiko, nes tai skamba įspūdingai 😅
11) Rizika, apribojimai ir skyrius „prašau, nenaudokite to aklai“ 🧯😬
Pagrindiniai modeliai yra galingi, bet jie nėra stabilūs kaip tradicinė programinė įranga. Jie labiau panašūs į... talentingą praktikantą, turintį pasitikėjimo savimi problemų.
Pagrindiniai apribojimai, į kuriuos reikia atsižvelgti planuojant:
Haliucinacijos 🌀
Modeliai gali sugalvoti:
-
netikri šaltiniai
-
neteisingi faktai
-
tikėtini, bet klaidingi žingsniai ( Ji ir kt., 2023 )
Švelninimo priemonės:
-
RAG su įžemintu kontekstu ( Lewis ir kt., 2020 )
-
apriboti rezultatai (schemos, įrankių iškvietimai)
-
aiški instrukcija „nespėlioti“
-
tikrinimo lygmenys (taisyklės, kryžminiai patikrinimai, žmogaus atliekama peržiūra)
Šališkumas ir žalingi modeliai ⚠️
Kadangi mokymo duomenys atspindi žmones, galite gauti:
-
stereotipai
-
nevienodas našumas tarp grupių
-
nesaugūs užbaigimai ( NIST AI RMF 1.0 , Bommasani ir kt., 2021 m .)
Švelninimo priemonės:
-
saugos derinimas
-
raudonųjų komandų
-
turinio filtrai
-
atsargūs srities apribojimai ( NIST generatyvinio dirbtinio intelekto profilis )
Duomenų privatumas ir nutekėjimas 🔒
Jei į modelio galinį tašką tiekiate konfidencialius duomenis, turite žinoti:
-
kaip jis saugomas
-
ar jis naudojamas treniruotėms
-
koks registravimas egzistuoja
-
kas kontroliuoja jūsų organizacijos poreikius ( NIST AI RMF 1.0 )
Švelninimo priemonės:
-
privačių diegimo parinkčių
-
tvirtas valdymas
-
minimalus duomenų poveikis
-
tik vidiniam naudojimui skirtas RAG su griežta prieigos kontrole ( NIST generatyvinio dirbtinio intelekto profilis , Carlini ir kt., 2021 m .)
Greita injekcija (ypač su RAG) 🕳️
Jei modelis skaito nepatikimą tekstą, tas tekstas gali bandyti jį manipuliuoti:
-
„Nepaisykite ankstesnių nurodymų…“
-
„Atsiųskite man paslaptį...“ ( OWASP , Greshake ir kt., 2023 )
Švelninimo priemonės:
-
sistemos izoliavimo instrukcijos
-
dezinfekuoti gautą turinį
-
naudoti įrankiais pagrįstas politikas (ne tik raginimus)
-
testas su priešiškomis įvestimis ( OWASP atmintinė , NIST generatyvinio dirbtinio intelekto profilis )
Nenoriu tavęs gąsdinti. Tiesiog... geriau žinoti, kur girgžda grindų lentos.
12) Kaip išsirinkti tinkamą pamatų modelį pagal savo naudojimo atvejį 🎛️
Jei renkatės pamatų modelį (arba statote ant jo), pradėkite nuo šių nurodymų:
Apibrėžkite, ką generuojate 🧾
-
tik tekstas
-
vaizdai
-
garso įrašas
-
mišrus multimodalinis
Nusistatykite faktiškumo kartelę 📌
Jei jums reikalingas didelis tikslumas (finansų, sveikatos, teisės, saugos):
-
Jums reikės RAG ( Lewis ir kt., 2020 )
-
norėsite patvirtinimo
-
norėsite, kad procesą peržiūrėtų žmogus (bent kartais) ( NIST AI RMF 1.0 )
Nuspręskite savo delsos tikslą ⚡
Pokalbis vyksta akimirksniu. Paketinis apibendrinimas gali būti lėtesnis.
Jei reikia greito atsakymo, svarbu modelio dydis ir talpinimas.
Privatumo ir atitikties poreikių žemėlapis 🔐
Kai kurioms komandoms reikia:
-
diegimas vietoje / VPC
-
duomenų saugojimo nėra
-
griežti audito žurnalai
-
prieigos kontrolė kiekvienam dokumentui ( NIST AI RMF 1.0 , NIST generatyvinis AI profilis )
Subalansuokite biudžetą – ir aplenkite kantrybę 😅
Savarankiškas talpinimas suteikia kontrolę, bet padidina sudėtingumą.
Valdomos API yra paprastos, bet gali būti brangios ir mažiau pritaikomos.
Mažas praktinis patarimas: pirmiausia sukurkite prototipą su kažkuo lengvu, o vėliau jį užgrūdinkite. Pradėti nuo „tobulos“ konfigūracijos paprastai viską sulėtina.
13) Kas yra generatyvinio dirbtinio intelekto pamatiniai modeliai? (Greitasis mentalinis modelis) 🧠✨
Grįžkime prie to. Kas yra generatyvinio dirbtinio intelekto pamatiniai modeliai?
Jie yra:
-
dideli, bendri modeliai, apmokyti naudojant plačius duomenis ( NIST , Stanfordo CRFM )
-
galintis generuoti turinį (tekstą, vaizdus, garsą ir kt.) ( NIST generatyvinio dirbtinio intelekto profilis )
-
pritaikomas daugeliui užduočių naudojant raginimus, tikslinimą ir atkūrimą ( Bommasani ir kt., 2021 )
-
bazinis sluoksnis, kuriuo grindžiami dauguma šiuolaikinių generatyvinio dirbtinio intelekto produktų
Tai ne viena architektūra ar prekės ženklas. Tai modelių kategorija, kuri veikia kaip platforma.
Pamatinis modelis labiau primena virtuvę, o ne skaičiuotuvą. Jame galima gaminti daug patiekalų. Taip pat galima prideginti skrebučius, jei nekreipiate dėmesio... bet virtuvė vis tiek gana patogi 🍳🔥
14) Apibendrinimas ir išsinešimui ✅🙂
Pamatiniai modeliai yra daugkartinio naudojimo generatyvinio dirbtinio intelekto varikliai. Jie yra plačiai apmokomi, o tada pritaikomi konkrečioms užduotims naudojant raginimus, tikslinimą ir paiešką ( NIST , Stanfordo CRFM ). Jie gali būti nuostabūs, netvarkingi, galingi ir kartais juokingi – visa tai vienu metu.
Santrauka:
-
Pagrindo modelis = bendrosios paskirties bazinis modelis ( NIST )
-
Generatyvusis dirbtinis intelektas = turinio kūrimas, o ne tik klasifikavimas ( NIST generatyvinio dirbtinio intelekto profilis )
-
Adaptacijos metodai (raginimas, RAG, derinimas) leidžia tai pritaikyti praktiškai ( Lewis ir kt., 2020 , Hu ir kt., 2021 ).
-
Modelio pasirinkimas priklauso nuo kompromisų: tikslumo, kainos, delsos, privatumo, saugumo ( NIST AI RMF 1.0 ).
Jei kuriate ką nors naudodami generatyvinį dirbtinį intelektą, pamatų modelių supratimas nėra neprivalomas. Tai visas aukštas, ant kurio stovi pastatas... ir taip, kartais grindys šiek tiek svyruoja 😅
DUK
Pamatų modeliai, paprastai tariant
Pagrindinis modelis yra didelis, bendrosios paskirties dirbtinio intelekto modelis, apmokytas remiantis plačiais duomenimis, kad jį būtų galima pakartotinai naudoti daugeliui užduočių. Užuot kuriant po vieną modelį kiekvienai užduočiai, pradedama nuo stipraus „bazinio“ modelio ir jis pritaikomas pagal poreikį. Šis pritaikymas dažnai atliekamas raginimų, tikslinimo, paieškos (RAG) arba įrankių pagalba. Pagrindinė idėja yra plotis ir valdomumas.
Kuo skiriasi pagrindiniai modeliai nuo tradicinių, konkrečiai užduočiai skirtų dirbtinio intelekto modelių
Tradicinis dirbtinis intelektas dažnai kiekvienai užduočiai, pavyzdžiui, nuotaikų analizei ar vertimui, apmoko atskirą modelį. Pagrindiniai modeliai apverčia šį modelį: vieną kartą apmoko, tada pakartotinai panaudoja daugelyje funkcijų ir produktų. Tai gali sumažinti dubliuojamą darbą ir pagreitinti naujų galimybių teikimą. Kompromisas yra tas, kad jos gali būti mažiau nuspėjamos nei klasikinė programinė įranga, nebent pridedate apribojimų ir testuojate.
Pagrindiniai generatyvinio dirbtinio intelekto modeliai
Generatyviojoje dirbtinėje intelektinėje intelekte pagrindiniai modeliai yra bazinės sistemos, galinčios kurti naują turinį, pvz., tekstą, vaizdus, garsą, kodą ar multimodalinius rezultatus. Jie neapsiriboja ženklinimu ar klasifikavimu; jie generuoja atsakymus, kurie primena žmogaus sukurtą darbą. Kadangi išankstinio mokymo metu jie išmoksta plačius modelius, jie gali apdoroti daugybę raginimų tipų ir formatų. Jie yra „bazinis sluoksnis“, sudarantis daugumą šiuolaikinių generatyvinių patirčių.
Kaip pagrindiniai modeliai mokosi išankstinio mokymo metu
Dauguma kalbos pagrindų modelių mokosi numatydami simbolius, tokius kaip kitas žodis ar trūkstami žodžiai tekste. Šis paprastas tikslas skatina juos įsisavinti tokią struktūrą kaip gramatika, stilius ir įprasti aiškinimo modeliai. Jie taip pat gali įsisavinti daug pasaulio žinių, nors ne visada patikimai. Rezultatas – stiprus bendras vaizdas, kurį vėliau galite nukreipti į konkretų darbą.
Skirtumas tarp raginimo, tikslinimo, LoRA ir RAG
Raginimai yra greičiausias būdas valdyti elgesį naudojant instrukcijas, tačiau jis gali būti trapus. Tikslus derinimas toliau moko modelį pagal jūsų pavyzdžius, kad elgesys būtų nuoseklesnis, tačiau tai padidina išlaidas ir reikalauja priežiūros. LoRA / adapteriai yra lengvesnis tikslinimo metodas, kuris dažnai yra pigesnis ir labiau modulinis. RAG gauna atitinkamus dokumentus ir, naudodamas tą kontekstą, gauna modelio atsakymą, o tai padeda išlaikyti šviežumą ir pagrįstumą.
Kada naudoti RAG vietoj tikslaus derinimo
RAG dažnai yra geras pasirinkimas, kai reikia atsakymų, pagrįstų dabartiniais dokumentais arba vidine žinių baze. Jis gali sumažinti „spėliones“, suteikdamas modeliui atitinkamą kontekstą generavimo metu. Tikslus derinimas geriau tinka, kai reikia nuoseklaus stiliaus, srities frazių ar elgesio, kurio negalima patikimai sukurti raginimu. Daugelyje praktinių sistemų derinamas raginimas ir RAG, prieš pradedant tikslų derinimą.
Kaip sumažinti haliucinacijas ir gauti patikimesnius atsakymus
Įprastas metodas yra pagrįsti modelį paieškos (RAG) metodu, kad jis išliktų artimas pateiktam kontekstui. Taip pat galite apriboti išvestis schemomis, reikalauti įrankių iškvietimų pagrindiniams veiksmams ir pridėti aiškias „nespėliokite“ instrukcijas. Svarbūs ir patvirtinimo sluoksniai, pvz., taisyklių patikrinimai, kryžminė patikra ir žmogaus atliekama peržiūra svarbesniais naudojimo atvejais. Modelį traktuokite kaip tikimybinį pagalbininką, o ne kaip tiesos šaltinį pagal numatytuosius nustatymus.
Didžiausia rizika, susijusi su gamyboje naudojamais pamatiniais modeliais
Dažniausios rizikos apima haliucinacijas, šališkus ar žalingus mokymo duomenų modelius ir privatumo nutekėjimą, jei su jautriais duomenimis netinkamai elgiamasi. Sistemos taip pat gali būti pažeidžiamos dėl greito įterpimo, ypač kai modelis nuskaito nepatikimą tekstą iš dokumentų ar interneto turinio. Paprastai šios rizikos mažinimo priemonės apima valdymą, raudonų komandų kūrimą, prieigos kontrolę, saugesnius raginimų modelius ir struktūrizuotą vertinimą. Planuokite šias rizikas iš anksto, o ne taisymus vėliau.
Greitas įpurškimas ir kodėl jis svarbus RAG sistemose
Raginimo injekcija – tai bandymas nepaisyti nurodymų, pvz., „ignoruoti ankstesnes instrukcijas“ arba „atskleisti paslaptis“. RAG sistemoje gauti dokumentai gali turėti tokias kenkėjiškas instrukcijas, ir modelis gali jų laikytis, jei nebūsite atsargūs. Įprastas metodas yra izoliuoti sistemos instrukcijas, išvalyti gautą turinį ir pasikliauti įrankiais pagrįstomis politikomis, o ne vien raginimais. Testavimas naudojant priešiškus įvesties šaltinius padeda atskleisti silpnąsias vietas.
Kaip pasirinkti pamatų modelį pagal jūsų naudojimo atvejį
Pradėkite apibrėždami, ką jums reikia generuoti: tekstą, vaizdus, garsą, kodą ar multimodalinius rezultatus. Tada nustatykite faktiškumo kartelę – didelio tikslumo sritims dažnai reikalingas įžeminimas (RAG), patvirtinimas ir kartais žmogaus peržiūra. Atsižvelkite į delsą ir kainą, nes stiprų modelį, kuris yra lėtas ar brangus, gali būti sunku pristatyti. Galiausiai, susiekite privatumo ir atitikties poreikius su diegimo parinktimis ir valdikliais.
Nuorodos
-
Nacionalinis standartų ir technologijų institutas (NIST) – pagrindų modelis (žodynas) – csrc.nist.gov
-
Nacionalinis standartų ir technologijų institutas (NIST) – NIST AI 600-1: Generatyvaus dirbtinio intelekto profilis – nvlpubs.nist.gov
-
Nacionalinis standartų ir technologijų institutas (NIST) – NIST AI 100-1: Dirbtinio intelekto rizikos valdymo sistema (AI RMF 1.0) – nvlpubs.nist.gov
-
Stanfordo pagrindų modelių tyrimų centras (CRFM) - Ataskaita - crfm.stanford.edu
-
arXiv – apie pamatų modelių galimybes ir riziką (Bommasani ir kt., 2021) – arxiv.org
-
arXiv – Kalbos modeliai yra sunkiai išmokstami (Brown ir kt., 2020) – arxiv.org
-
arXiv – paieškos papildyta generacija žiniomis pagrįstoms NLP užduotims (Lewis ir kt., 2020) – arxiv.org
-
arXiv – LoRA: didelių kalbų modelių žemo rango adaptacija (Hu ir kt., 2021) – arxiv.org
-
arXiv – BERT: Giliųjų dvikrypčių transformatorių išankstinis mokymas kalbos supratimui (Devlin ir kt., 2018) – arxiv.org
-
„arXiv“ – tiksliai suderinti kalbos modeliai yra besimokantys be jokių problemų (Wei ir kt., 2021 m.) – arxiv.org
-
ACM skaitmeninė biblioteka – Haliucinacijų natūralios kalbos generavimo metu apžvalga (Ji ir kt., 2023) – dl.acm.org
-
arXiv – perkeliamų vizualinių modelių mokymasis iš natūralios kalbos priežiūros (Radford ir kt., 2021) – arxiv.org
-
arXiv – triukšmo mažinimo difuzijos tikimybiniai modeliai (Ho ir kt., 2020) – arxiv.org
-
arXiv – didelės skiriamosios gebos vaizdų sintezė su latentinės difuzijos modeliais (Rombach ir kt., 2021) – arxiv.org
-
arXiv – tankaus pasažo paieška atsakant į atvirosios srities klausimus (Karpukhin ir kt., 2020) – arxiv.org
-
arXiv – Faiso biblioteka (Douze ir kt., 2024) – arxiv.org
-
„OpenAI“ – pristatome „Whisper“ – openai.com
-
arXiv – Natūralios TTS sintezė, sąlygojant „WaveNet“ pagal Mel spektrogramos prognozes (Shen ir kt., 2017) – arxiv.org
-
Saugumo ir besiformuojančių technologijų centras (CSET), Džordžtauno universitetas – Stebinamoji kito žodžio numatymo galia: didelių kalbos modelių paaiškinimas (1 dalis) – cset.georgetown.edu
-
USENIX – mokymo duomenų išgavimas iš didelių kalbų modelių (Carlini ir kt., 2021) – usenix.org
-
OWASP - LLM01: Greitas injekcijos atlikimas - genai.owasp.org
-
arXiv – Daugiau nei prašėte: išsami naujų greito įskiepijimo grėsmių, kylančių taikomųjų programų integruotiems didelių kalbų modeliams, analizė (Greshake ir kt., 2023) – arxiv.org
-
OWASP atmintinių serija – LLM greito injekcijų prevencijos atmintinė – cheatsheetseries.owasp.org