Kaip dirbtinis intelektas paveiks duomenų inžinierių vaidmenį?

Dirbtinis intelektas turėtų transformuoti duomenų inžinerijos vaidmenis automatizuodamas pasikartojančias užduotis, tokias kaip SQL kodų rengimas ir dokumentavimas. Tačiau didelėms atsakomybės sritims, tokioms kaip duomenų sutarčių apibrėžimas ir duomenų kokybės valdymas, vis tiek reikės žmonių patirties.

Kokias duomenų inžinerijos dalis dirbtinis intelektas gali automatizuoti?

Dirbtinis intelektas puikiai automatizuoja tokias užduotis kaip SQL kodo generavimas, DBT modelių schemų kūrimas ir dokumentacijos brėžinių rengimas. Tai padeda inžinieriams efektyviau pradėti projektus, tačiau tikslumui užtikrinti vis tiek reikalingas žmogaus patvirtinimas.

Ar duomenų inžinieriai taps nebeaktualūs atsiradus dirbtiniam intelektui?

Nors tam tikros užduotys gali būti automatizuotos, duomenų inžinierių vaidmuo kinta, o ne nyksta. Inžinieriai daugiau dėmesio skirs sistemų projektavimui, atskaitomybei ir valdymui, todėl jie bus vertingesni, nes dirbtinis intelektas padeda supaprastinti pagrindines užduotis.

Kodėl žmogaus priežiūra vis dar svarbi naudojant dirbtinį intelektą duomenų inžinerijoje?

Žmonių priežiūra yra labai svarbi, nes duomenų inžinerija dažnai apima dviprasmišką verslo logiką ir atskaitomybę už rezultatus. Dirbtinis intelektas gali padėti rengti sprendimus, tačiau negali iki galo valdyti duomenų valdymo ir atitikties sudėtingumo.

Kokie įgūdžiai bus būtini duomenų inžinieriams, kai dirbtinio intelekto įrankiai tobulės?

Pagrindiniai įgūdžiai apims sistemų projektavimą, duomenų kokybės inžineriją, duomenų sutarčių apibrėžimą ir veiksmingą bendravimą. Šios sritys yra labai svarbios užtikrinant patikimumą ir atitiktį reikalavimams, nes dirbtinis intelektas atlieka įprastesnes užduotis.

Kaip dirbtinis intelektas gali pagerinti duomenų inžinierių ir kitų komandų bendradarbiavimą?

Dirbtinis intelektas gali supaprastinti techninius rezultatus, leisdamas duomenų inžinieriams efektyviau bendradarbiauti su produktų, saugumo ir finansų komandomis. Šis pokytis leidžia duomenų inžinieriams sutelkti dėmesį į kokybės standartų ir lūkesčių aptarimą, o ne tik į kodavimą.

Su kokiais iššūkiais susiduria dirbtinis intelektas duomenų inžinerijoje?

Dirbtiniam intelektui sunku susidoroti su dviprasmiškais apibrėžimais ir valdyti sudėtingus ryšius verslo logikoje. Dėl nesugebėjimo kritiškai mąstyti ar derėtis dėl apibrėžimų žmonės inžinieriai išlieka nepakeičiami.

Kaip duomenų inžinieriai turėtų naudoti dirbtinio intelekto įrankius, tokius kaip „GitHub Copilot“?

Duomenų inžinieriai turėtų naudoti dirbtinio intelekto įrankius kaip juodraščius, kad patobulintų savo darbą, kartu laikydamiesi griežtų patvirtinimo ir valdymo konvencijų. Tai apima ir tai, kad rezultatai atitiktų kokybės standartus ir organizacijos politiką.

Ar dirbtinis intelektas pakeis duomenų inžinierius?

Trumpas atsakymas: DI visiškai nepakeis duomenų inžinierių; jis automatizuos pasikartojančius darbus, tokius kaip SQL braižymas, duomenų srauto pastoginė sistema, testavimas ir dokumentavimas. Jei jūsų vaidmuo daugiausia susijęs su mažu atsakomybės lygiu ir bilietų pagrindu atliekamu darbu, jis yra labiau pažeidžiamas; jei esate atsakingi už patikimumą, apibrėžimus, valdymą ir reagavimą į incidentus, DI daugiausia padidina jūsų greitį.

Svarbiausios išvados:

Atsakomybė: pirmenybę teikite atsakomybei už rezultatus, o ne tik greitam kodo kūrimui.

Kokybė: kurkite testus, užtikrinkite stebimumą ir sutarčių kūrimą, kad vamzdynai išliktų patikimi.

Valdymas: privatumą, prieigos kontrolę, duomenų saugojimą ir audito įrašus palaikykite žmonių rankose.

Apsauga nuo netinkamo naudojimo: dirbtinio intelekto rezultatus traktuokite kaip juodraščius; peržiūrėkite juos, kad išvengtumėte klaidingų įsitikinimų.

Paremybių pasikeitimas: mažiau laiko skirkite standartinių tekstų rašymui ir daugiau laiko – patvarių sistemų projektavimui.

Ar dirbtinis intelektas pakeis duomenų inžinierius? Infografika

Jei praleidote daugiau nei penkias minutes su duomenų komandomis, tikriausiai girdėjote šį posakį – kartais pašnibždomis, kartais – tarsi netikėtą siužeto posūkį susitikimo metu: Ar dirbtinis intelektas pakeis duomenų inžinierius?

Ir… suprantu. Dirbtinis intelektas gali generuoti SQL, kurti srautus, paaiškinti steko pėdsakus, parengti duomenų bazių modelius ir netgi siūlyti sandėlio schemas su nerimą keliančiu pasitikėjimu. „GitHub Copilot“, skirtas SQL. Apie duomenų bazių modelius. „GitHub Copilot“.
Jaučiasi lyg stebėtumėte, kaip šakinis krautuvas mokosi žongliruoti. Įspūdinga, šiek tiek nerimą kelianti, ir nesate iki galo tikri, ką tai reiškia jūsų darbui 😅

Tačiau tiesa ne tokia aiški kaip antraštė. Dirbtinis intelektas (DI) visiškai keičia duomenų inžineriją. Jis automatizuoja nuobodžius, pasikartojančius elementus. Jis pagreitina momentus, kai „žinau, ko noriu, bet negaliu prisiminti sintaksės“. Jis taip pat kuria visiškai naujas chaoso rūšis.

Tad išdėstykime viską tinkamai, be optimizmo ar panikos, grasinančios pražūčiai.

Straipsniai, kuriuos galbūt norėsite perskaityti po šio:

🔗 Ar dirbtinis intelektas pakeis radiologus?
Kaip vaizdavimo dirbtinis intelektas keičia darbo eigą, tikslumą ir būsimus vaidmenis.

🔗 Ar dirbtinis intelektas pakeis buhalterius?
Sužinokite, kurias apskaitos užduotis automatizuoja dirbtinis intelektas, o kurias lieka atlikti žmonėms.

🔗 Ar dirbtinis intelektas pakeis investicinius bankininkus?
Supraskite dirbtinio intelekto poveikį sandoriams, tyrimams ir klientų santykiams.

🔗 Ar dirbtinis intelektas pakeis draudimo agentus?
Sužinokite, kaip dirbtinis intelektas transformuoja draudimo rizikos vertinimą, pardavimus ir klientų aptarnavimą.

Kodėl klausimas „DI pakeičia duomenų inžinierius“ nuolat iškyla 😬

Baimė kyla iš labai konkrečios vietos: duomenų inžinerijoje yra daug pasikartojančio darbo.

SQL rašymas ir pertvarkymas
Įterpimo scenarijų kūrimas
Laukų susiejimas iš vienos schemos į kitą
Testų ir pagrindinės dokumentacijos kūrimas
Derinimo vamzdynų gedimai, kurie yra... gana nuspėjami

Dirbtinis intelektas neįprastai gerai pasikartojančių šablonų srityje. Ir didelė duomenų inžinerijos dalis yra būtent tai – šablonai, sukrauti ant šablonų. „GitHub Copilot“ kodo pasiūlymai

Be to, įrankių ekosistema jau „slepia“ sudėtingumą:

Tvarkomų ELT jungčių „Fivetran“ dokumentai
Be serverio skaičiavimas AWS Lambda (be serverio skaičiavimas)
Sandėlio paruošimas vienu spustelėjimu
Automatinio mastelio keitimo orkestravimo „Apache Airflow“ dokumentai
Deklaratyvios transformacijos sistemos. Kas yra dbt?

Taigi, kai pasirodo dirbtinis intelektas, jis gali atrodyti kaip paskutinė dalis. Jei stekas jau yra abstrahuotas ir dirbtinis intelektas gali parašyti sujungimo kodą... kas lieka? 🤷

Tačiau štai ką žmonės praleidžia: duomenų inžinerija nėra daugiausia spausdinimas. Spausdinimas yra lengviausia dalis. Sunkiausia yra priversti miglotą, politinę, besikeičiančią verslo realybę elgtis kaip patikimą sistemą.

Ir dirbtinis intelektas vis dar sunkiai sprendžia šią problemą. Žmonėms taip pat sunku – jie tiesiog geriau improvizuoja.

Ką duomenų inžinieriai iš tikrųjų veikia visą dieną (negraži tiesa) 🧱

Būkime atviri – pareigybės pavadinimas „Duomenų inžinierius“ skamba taip, lyg konstruotumėte raketinius variklius remdamiesi gryna matematika. Praktiškai jūs kuriate pasitikėjimą.

Įprasta diena yra mažiau „naujų algoritmų išradimo“ ir daugiau:

Derybos su aukštesnio lygio komandomis dėl duomenų apibrėžimų (skausmingos, bet būtinos)
Metrikos pasikeitimo priežasčių (ir jos realybės) tyrimas
Schemos dreifo tvarkymas ir netikėtumai „kažkas pridėjo stulpelį vidurnaktį“
Užtikrinti, kad vamzdynai būtų idempotentiniai, atkuriami ir stebimi
Apsauginių turėklų kūrimas, kad tolesni analitikai netyčia nesukurtų nesąmoningų ataskaitų suvestinių
Valdyti išlaidas, kad jūsų sandėlis netaptų pinigų laužu 🔥
Prieigos užtikrinimas, auditas, atitiktis, saugojimo politika BDAR principai (Europos Komisija) Saugojimo apribojimas (ICO)
Kuriame duomenų produktus, kuriuos žmonės galėtų naudoti be asmeninių žinučių (20 klausimų)

Didelė darbo dalis yra socialinė ir operatyvinė:

„Kam priklauso šis stalas?“
"Ar šis apibrėžimas vis dar galioja?"
„Kodėl CRM eksportuoja dublikatus?“
„Ar galime be jokio gėdos perduoti šią metriką vadovams?“ 😭

Dirbtinis intelektas, žinoma, gali padėti su tam tikromis dalimis. Tačiau visiškai jį pakeisti yra... sudėtinga.

Kas lemia stiprią duomenų inžinerijos vaidmens versiją? ✅

Šis skyrius svarbus, nes kalbant apie pakeitimą, paprastai daroma prielaida, kad duomenų inžinieriai daugiausia yra „vamzdynų kūrėjai“. Tai tas pats, kas manyti, kad virėjai daugiausia „kapoja daržoves“. Tai yra darbo dalis, bet ne darbas.

Stipri duomenų inžinieriaus versija paprastai reiškia, kad jis gali atlikti daugumą šių užduočių:

Kurkite pokyčius.
Duomenys keičiasi. Komandos keičiasi. Įrankiai keičiasi. Geras inžinierius kuria sistemas, kurios nesugriūva kiekvieną kartą, kai realybė pasimeta. 🤧
Apibrėžkite sutartis ir lūkesčius.
Ką reiškia „klientas“? Ką reiškia „aktyvus“? Kas nutinka, kai eilutė atkeliauja pavėluotai? Sutartys padeda išvengti chaoso labiau nei įmantrus kodas. Atvirųjų duomenų sutarčių standartas (ODCS) ODCS (GitHub).
Integruokite stebimumą į viską.
Ne tik „ar veikė“, bet ir „ar veikė teisingai“. Naujumas, apimties anomalijos, nuliniai sprogimai, pasiskirstymo pokyčiai. Duomenų stebimumas („Dynatrace“). Kas yra duomenų stebimumas?
Darykite kompromisus kaip suaugęs žmogus:
greitis ir tikslumas, kaina ir delsa, lankstumas ir paprastumas. Nėra tobulo srauto, tik srautai, su kuriais galite gyventi.
Verslo poreikius paverskite patvariomis sistemomis.
Žmonės prašo metrikų, bet jiems reikia duomenų produkto. Dirbtinis intelektas gali parašyti kodą, bet negali stebuklingai žinoti verslo minų.
Nuslėpkite duomenis.
Didžiausias duomenų platformos komplimentas yra tai, kad niekas apie ją nekalba. Nesudėtingi duomenys yra geri duomenys. Kaip santechnika. Juos pastebi tik tada, kai jie sugenda.

Jei darote šiuos dalykus, klausimas „Ar dirbtinis intelektas pakeis duomenų inžinierius?“ pradeda skambėti... šiek tiek ne taip. Dirbtinis intelektas gali pakeisti užduotis, o ne nuosavybę.

Kur DI jau padeda duomenų inžinieriams (ir tai išties puiku) 🤖✨

Dirbtinis intelektas yra ne tik rinkodara. Tinkamai naudojamas, jis yra teisėtas jėgos daugiklis.

1) Greitesnis SQL ir transformacijų darbas

Sudėtingų jungčių braižymas
Langų funkcijų rašymas, apie kurį nenorėtumėte galvoti
Paprastos kalbos logikos pavertimas užklausų skeletais
Negražių užklausų pertvarkymas į skaitomus CTE GitHub Copilot for SQL

Tai labai svarbu, nes sumažina „tuščio puslapio“ efektą. Vis tiek reikia patvirtinti, bet pradedama nuo 70 %, o ne nuo 0 %.

2) Derinimo ir pagrindinių priežasčių paieškos nuorodos

Dirbtinis intelektas yra tinkamas:

Klaidų pranešimų paaiškinimas
Patarimai, kur ieškoti
Rekomenduojami „schemos neatitikimo patikrinimo“ tipo veiksmai GitHub Copilot
Tai tarsi nenuilstamas jaunesnysis inžinierius, kuris niekada nemiega ir kartais užtikrintai meluoja 😅

3) Dokumentacijos ir duomenų katalogo praturtinimas

Automatiškai sugeneruota:

Stulpelių aprašymai
Modelių santraukos
Kilmės paaiškinimai
„Kam naudojama ši lentelė?“ – rengia DBT dokumentaciją

Tai nėra tobula, bet sulaužo nedokumentuotų vamzdynų prakeiksmą.

4) Pastolių bandymas ir patikrinimas

Dirbtinis intelektas gali pasiūlyti:

Pagrindiniai nuliniai testai
Unikalumo patikrinimai
Referencinio vientisumo idėjos
„Šis rodiklis niekada neturėtų mažėti“ stiliaus teiginiai DBT duomenų testai Didieji lūkesčiai: lūkesčiai

Vėlgi – jūs vis tiek sprendžiate, kas svarbu, bet tai pagreitina įprastas dalis.

5) Vamzdynų „klijų“ kodas

Konfigūracijos šablonai, YAML pastoliai, orkestravimo DAG juodraščiai. Šie dalykai yra pasikartojantys, o dirbtinis intelektas pusryčiams valgo pasikartojančius dalykus 🥣 „Apache Airflow“ DAG'ai

Kur dirbtinis intelektas vis dar sunkiai sprendžia problemas (ir tai yra to esmė) 🧠🧩

Ši dalis yra svarbiausia, nes ji atsako į pakeitimo klausimą su tikra tekstūra.

1) Dviprasmybė ir besikeičiantys apibrėžimai

Verslo logika retai kada būna aiški. Žmonės persigalvoja sakinio viduryje. „Aktyvus vartotojas“ tampa „aktyvus mokantis vartotojas“ tampa „aktyvus mokantis vartotojas, išskyrus grąžinimus, išskyrus kartais“... žinote, kaip būna.

Dirbtinis intelektas negali susitaikyti su tuo dviprasmiškumu. Jis gali tik spėlioti.

2) Atskaitomybė ir rizika

Kai nutrūksta vamzdynas ir vykdymo ataskaitų skydelyje rodoma nesąmonė, kažkas turi:

triažas
pranešti apie poveikį
pataisyti
užkirsti kelią pasikartojimui
parašykite pomirtinį tyrimą
nuspręsti, ar įmonė vis dar gali pasitikėti praėjusios savaitės skaičiais

Dirbtinis intelektas gali padėti, bet negali būti prasmingai atskaitingas. Organizacijos veikia ne vadovaudamosi emocijomis – jos veikia vadovaudamosi atsakomybe.

3) Sisteminis mąstymas

Duomenų platformos yra ekosistemos: įtraukimas, saugojimas, transformacijos, orkestravimas, valdymas, sąnaudų kontrolė, SLA. Vieno sluoksnio pokytis sukelia raibulius. „Apache Airflow“ koncepcijos.

Dirbtinis intelektas gali pasiūlyti vietinius optimizavimus, kurie sukelia pasaulinį skausmą. Tai tas pats, kas pataisyti girgždančias duris jas išimant 😬

4) Saugumas, privatumas, atitiktis

Čia miršta pakeitimo fantazijos.

Prieigos kontrolė
Eilučių lygio saugumas „Snowflake“ eilučių prieigos politikos „BigQuery“ eilučių lygio saugumas
Asmeniškai identifikuojamų duomenų tvarkymas pagal NIST privatumo sistemą
Saugojimo taisyklės. Saugojimo apribojimas. ES gairės dėl saugojimo.
Audito žurnalai NIST SP 800-92 (žurnalų valdymas) CIS Control 8 (audito žurnalų valdymas)
Duomenų saugojimo apribojimai

Dirbtinis intelektas gali parengti politikas, bet saugus jų įgyvendinimas yra tikra inžinerija.

5) „Nežinomi nežinomieji“

Duomenų incidentai dažnai yra nenuspėjami:

Tiekėjo API tyliai keičia semantiką
Laiko juostos prielaida apsiverčia
Užpildymas dubliuoja skaidinį
Pakartotinio bandymo mechanizmas sukelia dvigubą rašymą
Nauja produkto funkcija pristato naujus įvykių modelius

Dirbtinis intelektas yra silpnesnis, kai situacija nėra žinomas modelis.

Palyginimo lentelė: kas ką sumažina praktiškai 🧾🤔

Žemiau pateikiamas praktinis požiūris. Ne „įrankiai, kurie pakeičia žmones“, o įrankiai ir metodai, kurie sumažina tam tikrų užduočių skaičių.

Įrankis / metodas	Auditorija	Kainos vibracija	Kodėl tai veikia
Dirbtinio intelekto kodo kopiliukai (SQL + Python pagalbininkai) GitHub Copilot	Inžinieriai, kurie rašo daug kodo	Nuo nemokamos iki mokamos	Puikiai sekasi kurti pastolius, pertvarkyti elementus, sintaksę... kartais labai savitai pasipuikuoti
Valdomos ELT jungtys Fivetran	Komandos pavargo nuo kūrimo integravimo	Prenumeratos	Pašalina skausmą, kurį sukelia tinkintas rijimas, bet sugenda įdomiais naujais būdais
Duomenų stebėjimo platformos Duomenų stebėjimas („Dynatrace“)	Kiekvienas, turintis SLA	Vidutinio ir didelio verslo	Anksti aptinka anomalijas – pavyzdžiui, dūmų detektorius vamzdynuose 🔔
Transformacijos karkasai (deklaratyvus modeliavimas) dbt	Analizės + DE hibridai	Paprastai įrankis + skaičiavimas	Padaro logiką modulinę ir testuojamą, mažiau „spagečių“
Duomenų katalogai + semantiniai sluoksniai dbt semantinis sluoksnis	Organizacijos, kuriose painiava dėl metrikų	Priklauso nuo praktikos	Apibrėžia „tiesą“ vieną kartą – sumažina nesibaigiančias diskusijas apie metriką
Orkestravimas naudojant šablonus „Apache Airflow“	Platformomis paremtos komandos	Atidarymo + operacijų kaina	Standartizuoja darbo eigas; mažiau snaigių formos DAG'ų
Dirbtinio intelekto pagalba sukurta dokumentacija (dbt)	Komandos, kurios nekenčia rašyti dokumentų	Pigus arba vidutinis	Kuria „pakankamai gerus“ dokumentus, kad žinios neišnyktų
Automatizuoto valdymo politikos NIST privatumo sistema	Reguliuojama aplinka	Įmonių sričiai	Padeda užtikrinti taisyklių laikymąsi, tačiau vis tiek reikia, kad jas sukurtų žmonės

Atkreipkite dėmesį, ko trūksta: eilutės, kurioje parašyta „paspauskite mygtuką, kad pašalintumėte duomenų inžinierius“. Taip... tos eilutės nėra 🙃

Taigi… ar dirbtinis intelektas pakeis duomenų inžinierius, ar tiesiog pakeis jų vaidmenį? 🛠️

Štai nedramatiškas atsakymas: dirbtinis intelektas pakeis dalį darbo eigos, o ne profesiją.

Bet tai pakeis vaidmenį. O jei tai ignoruosite, pajusite spaudimą.

Kas keičiasi:

Mažiau laiko praleidžiama rašant standartinius tekstus
Mažiau laiko dokumentų paieškai
Daugiau laiko peržiūrai, patvirtinimui, projektavimui
Daugiau laiko sutarčių ir kokybės lūkesčių apibrėžimui Atvirųjų duomenų sutarčių standartas (ODCS)
Daugiau laiko bendradarbiavimui produktų, saugumo ir finansų srityse

Tai subtilus pokytis: duomenų inžinerija tampa mažiau susijusi su „vamzdynų kūrimu“ ir daugiau su „patikimos duomenų produktų sistemos kūrimu“

Ir tyliai tariant, tai vertingiau, o ne mažiau.

Be to – ir pasakysiu tai net jei tai skambės dramatiškai – dirbtinis intelektas padidina žmonių, galinčių kurti duomenų artefaktus, skaičių, todėl reikia, kad kažkas prižiūrėtų visą sistemą. Didesnė išvestis reiškia daugiau galimos painiavos. „GitHub Copilot“.

Tai tas pats, kas visiems duoti elektrinį grąžtą. Puiku! Dabar kažkas turi užtikrinti, kad būtų taikoma taisyklė „prašau negręžti į vandens vamzdį“ 🪠

Naujas įgūdžių rinkinys, kuris išlieka vertingas (net ir tada, kai visur yra dirbtinis intelektas) 🧠⚙️

Jei norite praktiško „ateičiai atsparaus“ kontrolinio sąrašo, jis atrodo taip:

Sistemos projektavimo mąstysena

Duomenų modeliavimas, kuris išlieka pokyčiuose
Paketinio ir srautinio perdavimo kompromisai
Vėlavimo, kainos ir patikimumo mąstymas

Duomenų kokybės inžinerija

Sutartys, patvirtinimai, anomalijų aptikimas Atvirųjų duomenų sutarčių standartas (ODCS) Duomenų stebimumas („Dynatrace“)
SLA, SLO, incidentų reagavimo įpročiai
Pagrindinės priežasties analizė su drausme (ne vibracijomis)

Valdymo ir pasitikėjimo architektūra

Prieigos šablonai
Audituojamumas NIST SP 800-92 (žurnalų valdymas)
Privatumas pagal dizainą NIST privatumo sistema
Duomenų gyvavimo ciklo valdymas ES gairės dėl saugojimo

Platforminis mąstymas

Daugkartinio naudojimo šablonai, auksiniai takai
Standartizuoti „Fivetran “ duomenų įkėlimo, transformavimo ir testavimo modeliai
Savitarnos įrankiai, kurie nesilydo

Bendravimas (taip, tikrai)

Aiškių dokumentų rašymas
Apibrėžimų suderinimas
Mandagiai, bet tvirtai sakyti „ne“
Kompromisų paaiškinimas neskambant kaip robotui 🤖

Jei galite tai padaryti, klausimas „Ar dirbtinis intelektas pakeis duomenų inžinierius?“ tampa mažiau grėsmingas. Dirbtinis intelektas tampa jūsų egzoskeletu, o ne pakaitalu.

Realūs scenarijai, kai kai kurie duomenų inžinerijos vaidmenys susitraukia 📉

Gerai, greitas realybės patikrinimas, nes ne viskas tik saulė ir jaustukų konfeti 🎉

Kai kurie vaidmenys yra labiau matomi:

Grynai tik įtraukimui skirti vaidmenys, kuriuose viskas yra standartinės jungtys „Fivetran“ jungtys
Komandos, daugiausia atliekančios pasikartojančius ataskaitų teikimo procesus su minimaliais srities niuansais
Organizacijos, kuriose duomenų inžinerija traktuojama kaip „SQL beždžionės“ (griežta, bet tiesa)
Mažos atsakomybės pareigos, kai darbas tėra bilietai ir kopijavimas bei įklijavimas

Dirbtinis intelektas ir valdomi įrankiai gali sumažinti šiuos poreikius.

Bet net ir ten pakeitimas paprastai atrodo taip:

Mažiau žmonių atlieka tą patį pasikartojantį darbą
Didesnis dėmesys platformos nuosavybei ir patikimumui
Poslinkis link „vienas žmogus gali prižiūrėti daugiau vamzdynų“

Taigi, taip – darbuotojų skaičiaus modeliai gali keistis. Pareigos kinta. Pareigos keičiasi. Ši dalis yra tikra.

Vis dėlto išlieka ta vaidmens versija, kurioje dominuoja atsakomybė ir pasitikėjimas.

Baigiamoji santrauka 🧾✅

Ar dirbtinis intelektas pakeis duomenų inžinierius? Ne tokiu švariu ir visapusišku būdu, kaip žmonės įsivaizduoja.

Dirbtinis intelektas (DI) atliks šiuos veiksmus:

automatizuoti pasikartojančias užduotis
paspartinkite kodavimą, derinimą ir dokumentavimą „GitHub Copilot for SQL dbt“ dokumentacija
sumažinti vamzdynų gamybos sąnaudas

Tačiau duomenų inžinerija iš esmės yra apie:

atskaitomybė
sistemos projektavimas
pasitikėjimas, kokybė ir valdymas Atvirųjų duomenų sutarčių standartas (ODCS) NIST privatumo sistema
miglotos verslo realybės pavertimas patikimais duomenų produktais

Dirbtinis intelektas gali padėti... bet jis to „nevaldo“.

Jei esate duomenų inžinierius, žingsnis paprastas (ne lengvas, bet paprastas):
sutelkite dėmesį į atsakomybę, kokybę, platforminį mąstymą ir komunikaciją. Leiskite dirbtiniam intelektui tvarkyti standartinius procesus, o jūs – svarbiausias dalis.

Ir taip – kartais tai reiškia būti suaugusiuoju kambaryje. Ne žavinga. Bet tyliai galinga 😄

Ar dirbtinis intelektas pakeis duomenų inžinierius?
Jis pakeis kai kurias užduotis, pertvarkys karjeros laiptus ir geriausius duomenų inžinierius padarys dar vertingesnius. Tokia yra tikroji istorija.

Realaus pasaulio pavyzdys: dirbtinio intelekto pagrindu sukurtos duomenų srauto peržiūros darbo eigos kūrimas 🛠️

Scenarijus

Įsivaizduokite mažą el. prekybos įmonę su vienu duomenų inžinieriumi, dviem analitikais ir labai gerai žinoma problema: finansų ataskaitų sritis užstringa, kai tik mokėjimų teikėjas pakeičia lauko pavadinimą.

Komanda nenori, kad dirbtinis intelektas „valdytų“ visą procesą. Tai būtų rizikinga. Vietoj to, jie naudoja dirbtinį intelektą kaip pirmojo juodraščio asistentą įprastiems, bet svarbiems darbams: DBT modelio skeletų rašymui, testų siūlymui, dokumentacijos rengimui ir kodo peržiūros kontrolinio sąrašo sudarymui.

Galutinis projektas, duomenų apibrėžimai, prieigos taisyklės ir diegimas gamybinėje aplinkoje vis tiek priklauso duomenų inžinieriui. Dirbtinis intelektas tiesiog pagreitina sudėtingą tarpinį etapą.

Ko reikia darbo eigai

Prieš naudodama dirbtinį intelektą, komanda pateikia jam pakankamai konteksto, kad jis būtų naudingas:

Esama mokėjimų lentelės schema
Tikslinių finansų metrikų apibrėžimai, pvz., „grynosios pajamos“, „grąžinamoji suma“ ir „atliktas mokėjimas“
DBT modelių pavadinimų suteikimo konvencijos
Patvirtintų bandymų pavyzdžiai
Trumpa mokėjimų srauto duomenų sutartis
Asmens duomenų, nepavykusių mokėjimų, dublikatų ir pavėluotai gautų įrašų tvarkymo taisyklės
Ankstesnių incidentų pavyzdys, įskaitant tai, kas nutiko ir kaip tai buvo ištaisyta

Esmė ne ta, kad „paprašykite dirbtinio intelekto sukurti kanalą“. Tai pernelyg miglota.

Stipresnis požiūris yra toks: „Štai mūsų taisyklės, štai schema, štai laukiamas elgesys. Sukurkite projektą, kurį galėtume peržiūrėti.“

Instrukcijos pavyzdys

Jūs padedate rengti mūsų mokėjimų duomenų DBT modelį. Norėdami sukurti pirmojo etapo modelį, siūlomus DBT testus ir dokumentacijos pastabas, naudokite toliau pateiktą schemą ir taisykles.

Modelis turi apskaičiuoti dienos atsiskaitytas pajamas pagal order_id ir payment_provider. Neįtraukti nepavykusių mokėjimų, neįtraukti bandomųjų operacijų ir atimti grąžinimus tik tada, kai refund_status = „confirmed“.

Nekurkite naujų stulpelių. Jei trūksta privalomo stulpelio, užuot spėlioję, nurodykite jį skiltyje „Klausimai žmogui peržiūrėti“.

Taip pat siūlykite unikalumo, nulinių reikšmių, priimtų reikšmių ir pajamų pagrįstumo testus. Pažymėkite bet kokią logiką, kuri galėtų turėti įtakos finansinėms ataskaitoms.

Kaip tai išbandyti

Protingas testas yra mažas ir sąmoningai kasdieniškas:

Pateikite dirbtiniam intelektui vieną žinomą ir gerą mokėjimo schemą ir patikrinkite, ar ji vengia kurti laukus.
Pateikite vieną schemą su trūkstamu refund_status stulpeliu ir pažiūrėkite, ar ji užduoda klausimą, o ne spėlioja.
Paleiskite sugeneruotą SQL su parengtiniu duomenų rinkiniu, o ne gamybiniu.
Palyginkite išvestį su 20 rankiniu būdu patikrintų mokėjimo įrašų.
Prieš sujungiant, paprašykite analitiko ir duomenų inžinieriaus peržiūrėti apibrėžimus.
Pridėkite priimtus testus prie CI, kad srautas ir toliau tikrintų save po diegimo.

Svarbu išbandyti dirbtinį intelektą su tomis gedimo rūšimis, kurių labiausiai bijote: išgalvotais stulpeliais, neteisinga pajamų logika, trūkstamu grąžinimo tvarkymu ir tyliomis pasikartojančiomis eilutėmis.

Rezultatas

Iliustracinis rezultatas: pagrįstas trijų pavyzdinių srauto keitimo užduočių laiko matavimu prieš ir po šio darbo eigos naudojimo.

Prieš pradėdamas naudoti dirbtinį intelektą, inžinierius kiekvienam pakeitimui atlikti skirdavo apie 5 valandas 30 minučių: maždaug 2 valandas rašė SQL, 1 valandą kūrė testus, 45 minutes rašė dokumentus, o likusias valandas tikrino kraštutinius atvejus su finansų skyriumi.

Kadangi dirbtinis intelektas buvo naudojamas tik pirmiesiems juodraščiams, tokio paties tipo pakeitimas užtruko apie 2 valandas 10 minučių. Didžiausias sutaupymas buvo pasiektas rengiant bandomuosius pastolius ir dokumentacijos juodraščius – jų trukmė sutrumpėjo nuo 1 valandos 45 minučių iki maždaug 25 minučių.

Žmogaus atlikta peržiūra vis tiek užtruko apie 45 minutes, todėl jo nereikėtų pašalinti.

Trijų užduočių teste dirbtinis intelektas pasiūlė 18 patikrinimų. Inžinierius priėmė 11, redagavo 5 ir atmetė 2, nes jie manė, kad verslo taisyklės nėra teisingos. Šis atmetimų skaičius yra svarbus: jis įrodo, kad reikia peržiūrėti darbo eigą, o ne aklai pasitikėti.

Kas gali nutikti ne taip

Dirbtinis intelektas gali padaryti vamzdyną išsamesnį, nei yra iš tikrųjų.

Dažniausi gedimo taškai:

Išgalvoti stulpelius, kurie skamba įtikinamai
Grąžinimų, grąžinamųjų mokėjimų ir nepavykusių mokėjimų traktavimas kaip tas pats dalykas
Dienos pajamų trūkstamos laiko juostos problemos
Siūlomi bendriniai testai, kurie neaptinka finansinių klaidų
Rašyti dokumentus, kurie skamba užtikrintai, bet slepia netikrumą
Privatumo taisyklių pamiršimas, kai pavyzdiniuose duomenyse yra kliento duomenų

Gera taisyklė: dirbtinis intelektas gali sukurti modelio projektą, bet žmogus turi patvirtinti apibrėžimus, pinigų logiką, prieigos kontrolę ir gamybos išleidimą.

Praktiškas išsinešimui skirtas maistas

Vertinga dirbtinio intelekto versija duomenų inžinerijoje nėra „pakeisti duomenų inžinierių“. Tai „pašalinti tuščią puslapį ir atidžiai jį peržiūrėti“.

Tai reiškia greitesnį SQL, greitesnius testus ir geresnę pirmojo etapo dokumentaciją, o inžinierius vis tiek atsako už svarbiausią dalį: ar duomenys yra teisingi, patikimi, saugūs ir paaiškinami.

DUK

Ar dirbtinis intelektas visiškai pakeis duomenų inžinierius?

Daugumoje organizacijų dirbtinis intelektas labiau linkęs perimti konkrečias užduotis, o ne visiškai panaikinti vaidmenį. Jis gali paspartinti SQL kūrimą, duomenų srauto pastogę, pirmuosius dokumentacijos bandymus ir pagrindinių testų kūrimą. Tačiau duomenų inžinerija taip pat apima atsakomybę ir atskaitomybę, be to, atlieka nepatrauklų darbą, kad netvarkinga verslo realybė elgtųsi kaip patikima sistema. Šioms dalims vis tiek reikia žmonių, kad jie nuspręstų, kas atrodo „teisinga“, ir prisiimtų atsakomybę, kai kas nors sugenda.

Kokias duomenų inžinerijos dalis dirbtinis intelektas jau automatizuoja?

Dirbtinis intelektas geriausiai veikia atliekant pasikartojančius darbus: rengiant ir pertvarkant SQL, generuojant duomenų bazės modelio skeletus, aiškinant dažniausiai pasitaikančias klaidas ir rengiant dokumentacijos metmenis. Jis taip pat gali paremti tokius testus kaip nulinės vertės arba unikalumo patikrinimai ir generuoti šabloninį „sujungimo“ kodą orkestravimo įrankiams. Laimėtojas yra pagreitis – pradedate arčiau veikiančio sprendimo, – tačiau vis tiek turite patikrinti teisingumą ir užtikrinti, kad jis atitiktų jūsų aplinką.

Jei dirbtinis intelektas gali rašyti SQL ir duomenų srautus, kas lieka duomenų inžinieriams?

Daug: duomenų sutarčių apibrėžimas, schemų dreifo valdymas ir užtikrinimas, kad duomenų srautai būtų idempotentiniai, stebimi ir atkuriami. Duomenų inžinieriai skiria laiko metrikų pokyčių tyrimui, apsauginių barjerų kūrimui tolesniems vartotojams ir sąnaudų bei patikimumo kompromisų valdymui. Darbas dažnai priklauso nuo pasitikėjimo kūrimo ir duomenų platformos „tylios“, t. y. pakankamai stabilios, kad niekam nereikėtų apie tai galvoti kasdien, užtikrinimo.

Kaip dirbtinis intelektas keičia duomenų inžinieriaus kasdienį darbą?

Paprastai tai sutrumpina standartinių tekstų ir „paieškų“ laiką, todėl mažiau laiko praleidžiate rašydami ir daugiau peržiūrėdami, tikrindami ir kurdami dizainą. Šis pokytis nukreipia vaidmenį į lūkesčių, kokybės standartų ir pakartotinai naudojamų modelių apibrėžimą, o ne visko programavimą rankiniu būdu. Praktiškai greičiausiai daugiau bendradarbiausite su produktu, saugumu ir finansais, nes techninę išvestį tampa lengviau kurti, bet sunkiau valdyti.

Kodėl dirbtiniam intelektui sunku suprasti dviprasmiškus verslo apibrėžimus, tokius kaip „aktyvus vartotojas“?

Kadangi verslo logika nėra statiška ar tiksli – ji keičiasi projekto metu ir priklauso nuo suinteresuotųjų šalių. Dirbtinis intelektas gali parengti interpretaciją, bet negali prisiimti atsakomybės už sprendimą, kai apibrėžimai keičiasi arba iškyla konfliktų. Duomenų inžinerija dažnai reikalauja derybų, prielaidų dokumentavimo ir neaiškių reikalavimų pavertimo ilgalaikėmis sutartimis. Šis „žmogaus derinimo“ darbas yra pagrindinė priežastis, kodėl ši pareigybė neišnyksta net ir tobulėjant įrankiams.

Ar dirbtinis intelektas gali saugiai valdyti duomenis, užtikrinti privatumą ir atitikties reikalavimus?

Dirbtinis intelektas gali padėti parengti politikos rengimo programas arba siūlyti metodus, tačiau saugiam įgyvendinimui vis tiek reikalinga reali inžinerija ir kruopšti priežiūra. Valdymas apima prieigos kontrolę, asmens duomenų tvarkymą, saugojimo taisykles, audito taką ir kartais rezidavimo apribojimus. Tai didelės rizikos sritys, kuriose „beveik teisinga“ nėra priimtina. Žmonės turi kurti taisykles, tikrinti jų vykdymą ir prisiimti atsakomybę už atitikties rezultatus.

Kokie duomenų inžinierių įgūdžiai išlieka vertingi tobulėjant dirbtiniam intelektui?

Įgūdžiai, užtikrinantys sistemų atsparumą: sistemų projektavimo mąstymas, duomenų kokybės inžinerija ir platforminis standartizavimas. Sutartys, stebimumas, incidentų reagavimo įpročiai ir drausminga pagrindinių priežasčių analizė tampa dar svarbesnės, kai daugiau žmonių gali greitai generuoti duomenų artefaktus. Bendravimas taip pat tampa skiriamuoju bruožu – apibrėžimų suderinimas, aiškių dokumentų rašymas ir kompromisų paaiškinimas be dramos yra svarbi duomenų patikimumo dalis.

Kuriems duomenų inžinerijos vaidmenims dirbtinis intelektas ir valdomi įrankiai kelia didžiausią pavojų?

Pareigos, siaurai orientuotos į pasikartojantį duomenų įkėlimą arba standartines ataskaitų teikimo sistemas, yra labiau pažeidžiamos, ypač kai valdomos ELT jungtys apima daugumą šaltinių. Mažai atsakomybės reikalaujantis, bilietais pagrįstas darbas gali susitraukti, nes dirbtinis intelektas ir abstrakcija sumažina kiekvienam srautui reikalingas pastangas. Tačiau paprastai tai atrodo kaip mažiau žmonių, atliekančių pasikartojančias užduotis, o ne „nėra duomenų inžinierių“. Didelės atsakomybės pareigos, orientuotos į patikimumą, kokybę ir pasitikėjimą, išlieka ilgalaikės.

Kaip turėčiau naudoti tokius įrankius kaip „GitHub Copilot“ ar „dbt“ su dirbtiniu intelektu nesukeldamas chaoso?

Dirbtinio intelekto išvestį traktuokite kaip juodraštį, o ne sprendimą. Naudokite ją užklausų šablonams generuoti, skaitomumui pagerinti arba duomenų bazių testams ir dokumentams parengti, o tada patikrinkite pagal realius duomenis ir kraštutinius atvejus. Derinkite tai su griežtomis konvencijomis: sutartimis, pavadinimų standartais, stebimumo patikrinimais ir peržiūros praktika. Tikslas – greitesnis pateikimas neaukojant patikimumo, sąnaudų kontrolės ar valdymo.

Nuorodos

Europos Komisija – Duomenų apsaugos paaiškinimas: BDAR principai – commission.europa.eu
Informacijos komisaro biuras (ICO) – Saugojimo apribojimas – ico.org.uk
Europos Komisija – Kiek laiko galima saugoti duomenis ir ar juos reikia atnaujinti? – commission.europa.eu
Nacionalinis standartų ir technologijų institutas (NIST) – Privatumo sistema – nist.gov
NIST kompiuterių saugumo išteklių centras (CSRC) – SP 800-92: Kompiuterių saugumo žurnalų valdymo vadovas – csrc.nist.gov
Interneto saugumo centras (CIS) – Audito žurnalų valdymas (CIS valdikliai) – cisecurity.org
„Snowflake“ dokumentacija – eilučių prieigos politikos – docs.snowflake.com
„Google Cloud“ dokumentacija – „BigQuery“ eilutės lygio saugumas – docs.cloud.google.com
BITOL – Atvirųjų duomenų sutarčių standartas (ODCS) v3.1.0 – bitol-io.github.io
BITOL (GitHub) – Atvirųjų duomenų sutarčių standartas – github.com
„Apache Airflow“ – dokumentacija (stabili) – airflow.apache.org
„Apache Airflow“ – DAG (pagrindinės koncepcijos) – airflow.apache.org
dbt laboratorijų dokumentacija – Kas yra dbt? – docs.getdbt.com
dbt Labs dokumentacija – Apie dbt modelius – docs.getdbt.com
dbt Labs dokumentacija - Dokumentacija - docs.getdbt.com
dbt Labs dokumentacija – duomenų testai – docs.getdbt.com
dbt Labs dokumentacija – dbt semantinis sluoksnis – docs.getdbt.com
„Fivetran“ dokumentacija – Pradžia – fivetran.com
Fivetran – Jungtys – fivetran.com
AWS dokumentacija – AWS Lambda kūrėjo vadovas – docs.aws.amazon.com
„GitHub“ – „GitHub“ kopilotas – github.com
„GitHub“ dokumentai – kodo pasiūlymų gavimas IDE naudojant „GitHub Copilot“ – docs.github.com
„Microsoft Learn“ – „GitHub Copilot for SQL“ (VS kodo plėtinys) – learn.microsoft.com
„Dynatrace“ dokumentacija – duomenų stebimumas – docs.dynatrace.com
DataGalaxy – Kas yra duomenų stebimumas? – datagalaxy.com
„Didžiųjų lūkesčių“ dokumentacija – lūkesčių apžvalga – docs.greatexpectations.io

Raskite naujausią dirbtinį intelektą oficialioje dirbtinio intelekto asistentų parduotuvėje

Apie mus

Atgal į tinklaraštį