Kas yra atvirojo kodo dirbtinis intelektas

Kas yra atvirojo kodo dirbtinis intelektas?

Apie atvirojo kodo dirbtinį intelektą kalbama tarsi apie stebuklingą raktą, kuris atrakina viską. Taip nėra. Tačiau tai praktiškas , lengvai prieinamas būdas kurti dirbtinio intelekto sistemas, kurias galite suprasti, tobulinti ir platinti nemaldaujant tiekėjo, kad šis ką nors pakeistų. Jei kada nors svarstėte, kas laikoma „atviru“, kas yra tik rinkodara ir kaip tai iš tikrųjų naudoti darbe, esate tinkamoje vietoje. Išgerkite kavos – tai bus naudinga ir galbūt šiek tiek subjektyvi ☕🙂.

Straipsniai, kuriuos galbūt norėsite perskaityti po šio:

🔗 Kaip integruoti dirbtinį intelektą į savo verslą
Praktiniai žingsniai, kaip integruoti dirbtinio intelekto įrankius išmanesniam verslo augimui.

🔗 Kaip naudoti dirbtinį intelektą, kad būtumėte produktyvesni
Atraskite efektyvius dirbtinio intelekto darbo eigą, kuri taupo laiką ir didina efektyvumą.

🔗 Kas yra dirbtinio intelekto įgūdžiai?
Sužinokite pagrindines dirbtinio intelekto kompetencijas, būtinas ateičiai pasirengusiems specialistams.

🔗 Kas yra „Google Vertex“ dirbtinis intelektas?
Supraskite „Google“ dirbtinį intelektą „Vertex“ ir kaip jis supaprastina mašininį mokymąsi.


Kas yra atvirojo kodo dirbtinis intelektas? 🤖🔓

Paprasčiausiai tariant, atvirojo kodo dirbtinis intelektas reiškia, kad dirbtinio intelekto sistemos sudedamosios dalys – kodas, modelio svoriai, duomenų srautai, mokymo scenarijai ir dokumentacija – yra išleidžiami pagal licencijas, kurios leidžia visiems jais naudotis, studijuoti, modifikuoti ir bendrinti, laikantis pagrįstų sąlygų. Ši pagrindinė laisvės formuluotė kyla iš atvirojo kodo apibrėžimo ir jo ilgalaikių naudotojų laisvės principų [1]. Dirbtinio intelekto ypatybė yra ta, kad yra daugiau sudedamųjų dalių nei vien kodas.

Kai kurie projektai publikuoja viską: kodą, mokymo duomenų šaltinius, receptus ir apmokytą modelį. Kiti publikuoja tik svorius su pasirinktine licencija. Ekosistema kartais naudoja nerūpestingą sutrumpinimų naudojimą, tad kitame skyriuje tai sutvarkykime.


Atvirojo kodo dirbtinis intelektas, atviri svoriai ir atvira prieiga 😅

Čia žmonės kalbasi vienas su kitu pro šalį.

  • Atvirojo kodo dirbtinis intelektas (DI) – projektas vadovaujasi atvirojo kodo principais visame savo pakete. Kodas yra licencijuotas pagal OSI patvirtintą licenciją, o platinimo sąlygos leidžia plačiai jį naudoti, modifikuoti ir bendrinti. Čia vyrauja OSI apibrėžimas: vartotojo laisvė yra svarbiausia [1][2].

  • Atviri svoriai – apmokytus modelio svorius galima atsisiųsti (dažnai nemokamai), tačiau jiems taikomos specialios sąlygos. Matysite naudojimo sąlygas, platinimo apribojimus arba ataskaitų teikimo taisykles. „Meta“ „Llama“ šeima tai iliustruoja: kodo ekosistema yra gana atvira, tačiau modelio svoriai teikiami pagal specialią licenciją su naudojimo sąlygomis [4].

  • Atvira prieiga – galite pasiekti API, galbūt nemokamai, bet negaunate svorių. Naudinga eksperimentams, bet ne atvirojo kodo.

Tai ne tik semantika. Jūsų teisės ir rizika šiose kategorijose keičiasi. Dabartinis OSI darbas dirbtinio intelekto ir atvirumo srityje šiuos niuansus išpasakoja paprasta kalba [2].


Kas iš tikrųjų daro atvirojo kodo dirbtinį intelektą geru ✅

Būkime greiti ir sąžiningi.

  • Audituojamumas – galite skaityti kodą, tikrinti duomenų receptus ir atsekti mokymo veiksmus. Tai padeda užtikrinti atitiktį reikalavimams, saugos peržiūras ir patenkinti senamadišką smalsumą. NIST dirbtinio intelekto rizikos valdymo sistema skatina dokumentavimo ir skaidrumo praktikas, kurias atviri projektai gali lengviau patenkinti [3].

  • Prisitaikymas – nesate įspraustas į tiekėjo veiksmų planą. Išskirkite. Užlopykite. Išsiųskite. LEGO, o ne klijuotas plastikas.

  • Sąnaudų kontrolė – talpinkite patys, kai pigiau. Kai ne, perkelkite į debesį. Derinkite aparatinę įrangą.

  • Bendruomenės greitis – klaidos ištaisomos, funkcijos pritaikomos, o jūs mokotės iš bendraamžių. Netvarkinga? Kartais. Produktyvu? Dažnai.

  • Valdymo aiškumas – tikros atviros licencijos yra nuspėjamos. Palyginkite tai su API paslaugų teikimo sąlygomis, kurios tyliai keičiasi kiekvieną antradienį.

Ar jis tobulas? Ne. Tačiau kompromisai yra akivaizdūs – daugiau nei gaunama iš daugelio nestandartinių paslaugų.


Atvirojo kodo dirbtinio intelekto paketas: kodas, svoriai, duomenys ir klijai 🧩

Įsivaizduokite dirbtinio intelekto projektą kaip neįprastą lazaniją. Sluoksniai visur.

  1. Karkasai ir vykdymo aplinkos – įrankiai modeliams apibrėžti, apmokyti ir teikti (pvz., „PyTorch“, „TensorFlow“). Sveikos bendruomenės ir dokumentai yra svarbesni nei prekių ženklai.

  2. Modelių architektūros — Planas: transformatoriai, difuzijos modeliai, paieškos papildytos konfigūracijos.

  3. Svoriai – mokymo metu išmokti parametrai. „Atviras“ čia priklauso nuo platinimo ir komercinio naudojimo teisių, o ne tik nuo atsisiunčiamumo.

  4. Duomenys ir receptai – kuravimo scenarijai, filtrai, papildymai, mokymo tvarkaraščiai. Skaidrumas čia yra svarbiausias atkuriamumo veiksnys.

  5. Įrankiai ir orkestravimas — išvadų serveriai, vektorinės duomenų bazės, vertinimo paketai, stebimumas, CI/CD.

  6. Licencijavimas – tylus pagrindas, kuris nusprendžia, ką iš tikrųjų galite daryti. Plačiau žemiau.


Atvirojo kodo dirbtinio intelekto licencijavimo pradžiamokslis 📜

Jums nereikia būti teisininku. Jums reikia pastebėti dėsningumus.

  • Leidžiančiosios kodo licencijos – MIT, BSD, Apache-2.0. Apache apima aiškų patento suteikimą, kurį vertina daugelis komandų [1].

  • „Copyleft“ – GPL šeima reikalauja, kad išvestiniai įrankiai liktų atviri pagal tą pačią licenciją. Galinga, bet į tai įtraukite savo architektūrą.

  • Konkrečiam modeliui skirtos licencijos – svoriams ir duomenų rinkiniams matysite pasirinktines licencijas, pvz., „Responsible AI“ licencijų šeimą („OpenRAIL“). Jose užkoduoti naudojimo pagrindu sukurti leidimai ir apribojimai; kai kurios leidžia plačiai naudoti komerciniais tikslais, kitos prideda apribojimus, kad nebūtų naudojamas netinkamai [5].

  • „Creative Commons“ licencijos duomenims – CC-BY arba CC0 yra įprastos duomenų rinkiniams ir dokumentams. Priskyrimą galima valdyti nedideliu mastu; sukurkite modelį iš anksto.

Profesionalo patarimas: Turėkite vieno puslapio aprašą, kuriame būtų išvardyta kiekviena priklausomybė, jos licencija ir ar leidžiamas komercinis platinimas. Nuobodu? Taip. Būtina? Taip pat taip.


Palyginimo lentelė: populiarūs atvirojo kodo dirbtinio intelekto projektai ir jų privalumai 📊

šiek tiek netvarkinga tyčia – taip atrodo tikros užrašai

Įrankis / projektas Kam tai skirta Brangūs Kodėl tai gerai veikia
PyTorch Tyrėjai, inžinieriai Nemokama Dinamiški grafikai, didžiulė bendruomenė, patikimi dokumentai. Patikrintas mūšyje produkcijos kūrimo etape.
TensorFlow Įmonių komandos, mašininio mokymosi operacijos Nemokama Grafiko režimas, TF teikimas, ekosistemos gylis. Kai kuriems mokymasis staigesnis, bet vis dar patikimas.
Apkabinančių veidų transformeriai Statybininkai su terminais Nemokama Iš anksto apmokyti modeliai, srautai, duomenų rinkiniai, lengvas tikslus derinimas. Tiesą sakant, tai trumpesnis kelias.
vLLM Infrastruktūriškai mąstančios komandos Nemokama Greitas LLM aptarnavimas, efektyvi KV talpykla, didelis pralaidumas naudojant įprastus GPU.
Lama.cpp Tinkeratoriai, kraštiniai įrenginiai Nemokama Paleiskite modelius lokaliai nešiojamuosiuose kompiuteriuose ir telefonuose naudodami kvantavimą.
LangChain Programėlių kūrėjai, prototipų kūrėjai Nemokama Suderinamos grandinės, jungtys, agentai. Greita pergalė, jei viskas paprasta.
Stabili difuzija Kūrėjai, produktų komandos Laisvieji svoriai Vaizdų generavimas vietoje arba debesyje; didžiuliai darbo eigos ir vartotojo sąsajos aplink jas.
Ollama Kūrėjai, kurie mėgsta vietines komandų eilutes (CLI) Nemokama Vietiniai modeliai, kuriuos galima paleisti be išankstinės registracijos. Licencijos skiriasi priklausomai nuo modelio kortelės – atkreipkite į tai dėmesį.

Taip, daug „nemokamų“ dalykų. Hostingas, vaizdo plokštės, saugykla ir darbo valandos nėra nemokamos.


Kaip įmonės iš tikrųjų naudoja atvirojo kodo dirbtinį intelektą darbe 🏢⚙️

Išgirsite du kraštutinumus: arba visi turėtų viską patys talpinti, arba niekas neturėtų. Tikrasis gyvenimas yra painesnis.

  1. Greitas prototipų kūrimas – pradėkite nuo leidžiamų atvirų modelių, kad patikrintumėte naudotojo patirtį ir poveikį. Vėliau perdarykite.

  2. Hibridinis teikimas – privatumo požiūriu svarbiems skambučiams naudokite VPC talpinamą arba vietinį modelį. Ilgalaikiams arba staigiems apkrovimams naudokite talpinamą API. Labai įprasta.

  3. Tikslus pritaikymas siauroms užduotims – pritaikymas sričiai dažnai pranoksta neapdorotą mastelį.

  4. RAG visur – paieškos papildyta generacija sumažina haliucinacijas, įžemindama atsakymus jūsų duomenyse. Atvirosios vektorinės duomenų bazės ir adapteriai tai daro prieinamą.

  5. Perimetro ir neprisijungus – lengvi modeliai, sukurti nešiojamiesiems kompiuteriams, telefonams ar naršyklėms, išplečia produkto galimybes.

  6. Atitiktis ir auditas – kadangi galite patikrinti ištakas, auditoriai turi ką konkrečiai peržiūrėti. Tai derinkite su atsakinga dirbtinio intelekto politika, kuri atitinka NIST RMF kategorijas ir dokumentacijos gaires [3].

Mažas pastebėjimas: privatumo siekianti SaaS komanda (vidutinės rinkos, ES vartotojai), kurią mačiau, pritaikė hibridinę konfigūraciją: mažas atviras VPC modelis 80 % užklausų; retų, ilgo konteksto užklausų atveju – perdavimas per talpinamą API. Jie sumažino įprasto kelio delsą ir supaprastino DPIA dokumentus – neužvirindami vandenyno.


Rizika ir netikėtumai, į kuriuos turėtumėte pasiruošti 🧨

Būkime suaugę šiuo klausimu.

  • Licencijos pokytis – saugykla paleidžia MIT, tada svoriai perkeliami į pasirinktinę licenciją. Nuolat atnaujinkite savo vidinį registrą, antraip gausite atitikties staigmeną [2][4][5].

  • Duomenų kilmė – mokymo duomenys su neapibrėžtomis teisėmis gali būti perduodami į modelius. Stebėkite šaltinius ir vadovaukitės duomenų rinkinių licencijomis, o ne vibracijomis [5].

  • Saugumas – su modelio artefaktais elkitės kaip su bet kuria kita tiekimo grandine: kontrolinės sumos, pasirašyti leidimai, SBOM. Net ir minimalus SECURITY.md failas pranoksta tylą.

  • Kokybės skirtumai – atviri modeliai labai skiriasi. Įvertinkite pagal savo užduotis, o ne tik pagal lyderių sąrašus.

  • Paslėptos infrastruktūros išlaidos – greitam išvadų teikimui reikia GPU, kvantavimo, paketavimo ir kaupimo talpykloje. Atviri įrankiai padeda; vis tiek mokate už skaičiavimą.

  • Valdymo skola – jei modelio gyvavimo ciklas niekam nepriklauso, gaunamas konfigūracijos spagečiai. Lengvas MLOps kontrolinis sąrašas yra auksas.


Tinkamo atvirumo lygio pasirinkimas jūsų naudojimo atveju 🧭

Šiek tiek kreivas sprendimo kelias:

  • Reikia greitai siųsti prekes, laikantis minimalių atitikties reikalavimų? Pradėkite nuo liberalių atvirųjų modelių, minimalaus derinimo ir aptarnavimo debesyje.

  • Reikia griežto privatumo ar neprisijungus ? Pasirinkite gerai palaikomą atvirojo serverio saugyklą, savarankiško talpinimo išvadas ir atidžiai peržiūrėkite licencijas.

  • Reikia plačių komercinių teisių ir platinimo? Pirmenybė teikiama su OSI suderintam kodui ir modelinėms licencijoms, kurios aiškiai leidžia komercinį naudojimą ir platinimą [1][5].

  • Reikia tyrimo lankstumo ? Atkartojamumo ir bendrinimo tikslais taikykite liberalius sprendimus nuo pradžios iki galo, įskaitant duomenis.

  • Nesate tikri? Išbandykite abu. Vienas maršrutas po savaitės jausis akivaizdžiai geriau.


Kaip profesionaliai įvertinti atvirojo kodo dirbtinio intelekto projektą 🔍

Trumpas kontrolinis sąrašas, kurį kartais laikau ant servetėlės.

  1. Licencijos aiškumas – ar kodas patvirtintas OSI? O kaip dėl svorių ir duomenų? Ar yra kokių nors naudojimo apribojimų, kurie sutrikdytų jūsų verslo modelį [1][2][5]?

  2. Dokumentacija – diegimas, greitas paleidimas, pavyzdžiai, trikčių šalinimas. Dokumentai yra kultūros posakis.

  3. Išleidimo ritmas – pažymėti leidimai ir pakeitimų žurnalai rodo stabilumą; sporadiški išleidimai – didvyriškumą.

  4. Lyginamieji testai ir vertinimai – ar užduotys realistiškos? Ar vertinimai įgyvendinami?

  5. Priežiūra ir valdymas – aiškūs kodo savininkai, problemų triažas, reagavimas į PR.

  6. Ekosistemos atitikimas — gerai dera su jūsų aparatine įranga, duomenų saugyklomis, registravimu, autorizacija.

  7. Saugumo padėtis – pasirašyti artefaktai, priklausomybių nuskaitymas, CVE tvarkymas.

  8. Bendruomenės signalas – diskusijos, forumo atsakymai, saugyklų pavyzdžiai.

Siekdami didesnio atitikimo patikimoms praktikoms, susiekite savo procesą su NIST dirbtinio intelekto RMF kategorijomis ir dokumentacijos artefaktais [3].


Giluminė analizė 1: modelių licencijų chaotiškas vidurys 🧪

Kai kurie pajėgiausi modeliai patenka į „atvirų svorių su sąlygomis“ kategoriją. Jie yra prieinami, tačiau turi naudojimo apribojimus arba perskirstymo taisykles. Tai gali būti gerai, jei jūsų produktas nepriklauso nuo modelio perpakavimo ar pristatymo į klientų aplinką. Jei jums reikia , derėkitės arba pasirinkite kitą bazę. Svarbiausia yra susieti savo tolesnius planus su faktiniu licencijos tekstu, o ne tinklaraščio įrašu [4][5].

„OpenRAIL“ tipo licencijos stengiasi rasti pusiausvyrą: skatinti atvirus tyrimus ir dalijimąsi, kartu atgrasant nuo netinkamo naudojimo. Ketinimas geras, o įsipareigojimai vis tiek jūsų. Perskaitykite sąlygas ir nuspręskite, ar jos atitinka jūsų rizikos toleranciją [5].


2-oji giluminė analizė: duomenų skaidrumas ir atkuriamumo mitas 🧬

„Be išsamių duomenų išklotinių, atvirojo kodo dirbtinis intelektas yra netikras.“ Ne visai. Duomenų kilmė ir receptai gali užtikrinti prasmingą skaidrumą net ir tada, kai kai kurie neapdoroti duomenų rinkiniai yra ribojami. Galite pakankamai gerai dokumentuoti filtrus, atrankos santykius ir valymo euristiką, kad kita komanda galėtų apytiksliai įvertinti rezultatus. Puikus atkuriamumas yra gerai. Dažnai pakanka praktinio skaidrumo [3][5].

Kai duomenų rinkiniai yra atviri, dažnai naudojami „Creative Commons“ licencijavimo kodai, tokie kaip CC-BY arba CC0. Priskyrimas dideliu mastu gali būti nepatogus, todėl iš anksto standartizuokite, kaip tai darote.


3-ioji giluminė apžvalga: praktinės MLOp operacijos atviriems modeliams 🚢

Atvirojo modelio siuntimas yra kaip bet kurios paslaugos siuntimas, pridėjus keletą ypatumų.

  • Aptarnavimo sluoksnis – specializuoti išvadų serveriai optimizuoja paketavimą, KV talpyklos valdymą ir žetonų srautinį perdavimą.

  • Kvantavimas – mažesni svoriai → pigesnis išvadų darymas ir lengvesnis kraštų diegimas. Kokybės kompromisai skiriasi; vertinkite pagal savo užduotis.

  • Stebimumas – registruokite raginimus / išvestis atsižvelgiant į privatumą. Pavyzdys vertinimui. Pridėkite poslinkio patikrinimus, kaip tai darytumėte tradiciniame mašininiame mokymesi.

  • Atnaujinimai – modeliai gali subtiliai keisti elgseną; naudoti kanarėles ir saugoti archyvą, skirtą atšaukimams ir auditams.

  • Vertinimo priemonių rinkinys – naudokite užduočiai skirtą vertinimo rinkinį, o ne tik bendrus etalonus. Įtraukite prieštaringas užduotis ir delsos biudžetus.


Mini planas: nuo nulio iki tinkamo naudoti bandomojo projekto per 10 žingsnių 🗺️

  1. Apibrėžkite vieną siaurą užduotį ir metriką. Kol kas nėra grandiozinių platformų.

  2. Pasirinkite plačiai naudojamą ir gerai dokumentuotą leidžiantį bazinį modelį.

  3. Palaikykite vietinį išvadų generavimą ir ploną apvalkalo API. Tegul tai būna nuobodu.

  4. Pridėkite paiešką prie pagrindinių išvesčių savo duomenyse.

  5. Paruoškite nedidelį paženklintą vertinimo rinkinį, kuris atspindėtų jūsų naudotojus, trūkumus ir visa kita.

  6. Tiksliai arba greitai koreguokite tik tuo atveju, jei vertinimo ataskaitoje nurodoma, kad tai reikėtų daryti.

  7. Kvantifikuokite, ar trūksta delsos ar sąnaudų. Pakartotinai išmatuokite kokybę.

  8. Pridėkite registravimą, raudonų komandų įspėjimus ir piktnaudžiavimo politiką.

  9. Vartai su išskirtine vėliava ir paleidimas į nedidelę kohortą.

  10. Kartokite. Siųskite nedidelius patobulinimus kas savaitę... arba kai iš tiesų pagerėja.


Paplitę mitai apie atvirojo kodo dirbtinį intelektą, šiek tiek paneigti 🧱

  • Mitas: atviri modeliai visada yra blogesni. Realybė: atliekant tikslines užduotis su tinkamais duomenimis, tiksliai suderinti atviri modeliai gali pranokti didesnius talpinamus modelius.

  • Mitas: atviras reiškia nesaugus. Realybė: atvirumas gali pagerinti tikrinimą. Saugumas priklauso nuo praktikos, o ne nuo slaptumo [3].

  • Mitas: licencija nesvarbi, jei ji nemokama. Realybė: ji svarbiausia, kai ji nemokama, nes nemokama versija keičia naudojimą. Norite aiškių teisių, o ne vibracijų [1][5].


Atvirojo kodo dirbtinis intelektas 🧠✨

Atvirojo kodo dirbtinis intelektas nėra religija. Tai praktinių laisvių rinkinys, leidžiantis kurti su didesne kontrole, aiškesniu valdymu ir greitesniu iteravimu. Kai kas nors sako, kad modelis yra „atviras“, paklauskite, kurie sluoksniai yra atviri: kodas, svoriai, duomenys ar tik prieiga. Perskaitykite licenciją. Palyginkite ją su savo naudojimo atveju. Ir tada, svarbiausia, išbandykite ją su savo realiu darbo krūviu.

Geriausia dalis, kaip bebūtų keista, yra kultūrinė: atviri projektai skatina indėlį ir analizę, o tai paprastai pagerina tiek programinę įrangą, tiek žmones. Galite pastebėti, kad laimi ne didžiausias modelis ar ryškiausias etalonas, o tas, kurį kitą savaitę galite suprasti, ištaisyti ir patobulinti. Tai tyli atvirojo kodo dirbtinio intelekto galia – ne stebuklinga kulka, o labiau kaip nudėvėtas daugiafunkcis įrankis, kuris nuolat gelbsti padėtį.


Per ilgai neskaičiau 📝

Atvirojo kodo dirbtinis intelektas (DI) – tai prasminga laisvė naudoti, studijuoti, modifikuoti ir bendrinti DI sistemas. Tai pasireiškia įvairiuose sluoksniuose: sistemose, modeliuose, duomenyse ir įrankiuose. Nepainiokite atvirojo kodo su atviraisiais svoriais ar atvira prieiga. Patikrinkite licenciją, įvertinkite ją su savo realiomis užduotimis ir nuo pirmos dienos projektuokite atsižvelgdami į saugumą bei valdymą. Tai padarysite ir gausite greitį, kontrolę bei ramesnį veiksmų planą. Stebėtinai reta, iš tiesų neįkainojama 🙃.


Nuorodos

[1] Atvirojo kodo iniciatyva – atvirojo kodo apibrėžimas (OSD): skaitykite daugiau
[2] OSI – išsami dirbtinio intelekto ir atvirumo analizė: skaitykite daugiau
[3] NIST – dirbtinio intelekto rizikos valdymo sistema: skaitykite daugiau
[4] Meta – „Llama“ modelio licencija: skaitykite daugiau
[5] Atsakingos dirbtinio intelekto licencijos (OpenRAIL): skaitykite daugiau

Raskite naujausią dirbtinį intelektą oficialioje dirbtinio intelekto asistentų parduotuvėje

Apie mus

Atgal į tinklaraštį