Kaip dirbtinio intelekto detektoriai gali padėti man rašymo procese?

Dirbtinio intelekto detektoriai gali suteikti įžvalgų apie tai, kiek jūsų rašymas primena dirbtinio intelekto generuojamo teksto šablonus. Tai gali padėti jums patobulinti rašymo stilių, išvengti šablonų ir užtikrinti, kad jūsų darbas atspindėtų tikrą autorystę.

Į ką turėčiau atkreipti dėmesį dėl klaidingai teigiamų rezultatų su dirbtinio intelekto detektoriais?

Klaidingai teigiami rezultatai gali būti gaunami, kai oficialūs ar techniniai raštai, ne gimtąja anglų kalba parašyti arba pernelyg aiškūs tekstai pažymimi kaip panašūs į dirbtinį intelektą. Svarbu detektoriaus balą laikyti peržiūros signalu, o ne galutine išvada.

Ar yra kokių nors konkrečių rašymo stilių, su kuriais dirbtinio intelekto detektoriams sunku susidoroti?

Taip, dirbtinio intelekto detektoriams dažnai sunku susidoroti su labai formaliu, techniniu ar šablonais pagrįstu rašymu, nes šie stiliai gali atrodyti statistiškai panašūs į dirbtinio intelekto sukurtą turinį. Rašymo stilių skirtumai gali lemti netikslius vertinimus.

Kas daro dirbtinio intelekto detektorių patikimą?

Patikimas dirbtinio intelekto detektorius sumažina klaidingai teigiamų rezultatų skaičių, pateikia aiškius savo balų paaiškinimus ir yra skaidrus. Jis turėtų pateikti nuoseklius rezultatus skirtinguose rašymo žanruose ir išlikti efektyvus net ir žmonėms redaguojant tekstą.

Kaip interpretuoti skirtingus dirbtinio intelekto detektoriaus balus?

Įvertinimus reikėtų vertinti kaip rizikos signalus, o ne kaip galutinius sprendimus. Mažesni balai paprastai rodo žmogaus panašų rašymą, o aukštesni balai – į dirbtinio intelekto panašų rašymą. Vidutiniai balai gali būti dviprasmiški, todėl atsižvelkite į papildomą kontekstą.

Ar galiu pasitikėti dirbtinio intelekto detektoriais atliekant svarbius vertinimus?

Nors dirbtinio intelekto detektoriai gali suteikti naudingų įžvalgų, jie nėra tobuli ir neturėtų būti vien jais remiamasi atliekant svarbius vertinimus. Svarbu derinti jų išvadas su savo sprendimu ir papildoma turinio peržiūra.

Kaip dirbtinio intelekto aptikimo supratimas pagerina mano rašymą?

Suprasdami dirbtinio intelekto aptikimą, galite sutelkti dėmesį į autentiškesnio ir įvairesnio turinio kūrimą. Šis supratimas padeda išvengti dažniausiai pasitaikančių klaidų, dėl kurių aptikimo įrankiai gali klaidingai interpretuoti tekstą, o tai galiausiai pagerina jūsų rašymo kokybę.

Kaip veikia dirbtinio intelekto detektoriai? [Vaizdo įrašas ir testas]

Trumpas atsakymas: dirbtinio intelekto detektoriai „neįrodo“, kas ką nors parašė; jie įvertina, kiek tiksliai ištrauka atitinka pažįstamus kalbos modelio modelius. Dauguma jų remiasi klasifikatorių, nuspėjamumo signalų (sumišimo / fragmentiškumo), stilometrijos ir, rečiau, vandenženklių patikrinimų deriniu. Kai pavyzdys yra trumpas, labai formalus, techninis arba parašytas anglų kalbos kaip antrosios kalbos autoriaus, vertinkite rezultatą kaip ženklą peržiūrėti, o ne verdiktą.

Svarbiausios išvados:

Tikimybė, o ne įrodymas: procentus traktuokite kaip „dirbtinio intelekto panašumo“ rizikos signalus, o ne kaip tikrumą.

Klaidingai teigiami rezultatai: formalus, techninis, šabloninis arba ne gimtąja kalba parašytas tekstas dažnai pažymimas klaidingai.

Metodų derinys: įrankiai apjungia klasifikatorius, painiavą/pliūpsnių patikrą, stilometriją ir neįprastus vandens ženklų patikrinimus.

Skaidrumas: pirmenybė teikiama detektoriams, kurių paviršiaus plotai, ypatybės ir neapibrėžtumas yra ne tik vienas skaičius.

Ginčytinumas: Turėkite po ranka juodraščius / užrašus ir proceso įrodymus ginčams ir apeliacijoms spręsti.

Kaip veikia dirbtinio intelekto detektoriai? Infografika

Straipsniai, kuriuos galbūt norėsite perskaityti po šio:

🔗 Koks yra geriausias dirbtinio intelekto detektorius?
Geriausi dirbtinio intelekto aptikimo įrankiai, palyginti pagal tikslumą, funkcijas ir naudojimo atvejus.

🔗 Ar dirbtinio intelekto detektoriai yra patikimi?
Paaiškina patikimumą, klaidingai teigiamus rezultatus ir kodėl rezultatai dažnai skiriasi.

🔗 Ar „Turnitin“ gali aptikti dirbtinį intelektą?
Išsamus „Turnitin“ dirbtinio intelekto aptikimo, apribojimų ir geriausios praktikos vadovas.

🔗 Ar „QuillBot“ dirbtinio intelekto detektorius yra tikslus?
Išsami tikslumo, stipriųjų ir silpnųjų pusių bei realaus pasaulio testų apžvalga.

1) Trumpa idėja – ką iš tikrųjų daro dirbtinio intelekto detektorius ⚙️

Dauguma dirbtinio intelekto detektorių „negaudo dirbtinio intelekto“ kaip tinklas, gaudantis žuvį. Jie daro kai ką proziškesnio:

Jie įvertina tikimybę, kad teksto dalis atrodo lyg būtų gauta iš kalbos modelio (arba buvo stipriai jo paremta). (Apklausa apie LLM sugeneruoto teksto aptikimą; „OpenAI“)
Jie lygina jūsų tekstą su mokymo duomenyse matomais šablonais (žmogaus rašymas ir modelio generuojamas rašymas). ( Apklausa apie LLM generuojamo teksto aptikimą )
Jie pateikia rezultatą (dažnai procentą), kuris atrodo galutinis... bet dažniausiai toks nėra. („Turnitin“ vadovai)

Būkime atviri – vartotojo sąsaja parodys kažką panašaus į „92 % dirbtinio intelekto“, o jūsų smegenys sušuks: „Na, spėju, kad tai faktas“. Tai ne faktas. Tai modelio spėjimas apie kito modelio pirštų atspaudus. Kas yra šiek tiek juokinga, tarsi šunys uostytų šunis 🐕🐕

2) Kaip veikia dirbtinio intelekto detektoriai: dažniausiai naudojami „aptikimo varikliai“ 🔍

Detektoriai paprastai naudoja vieną iš šių metodų (arba jų derinį): (Apklausa apie LLM generuojamo teksto aptikimą)

A) Klasifikatorių modeliai (dažniausiai pasitaikantys)

Klasifikatorius apmokomas naudojant paženklintus pavyzdžius:

Žmonių parašyti pavyzdžiai
Dirbtinio intelekto generuojami pavyzdžiai
Kartais „hibridiniai“ pavyzdžiai (žmogaus redaguotas dirbtinio intelekto tekstas)

Tada jis išmoksta modelius, kurie skiria grupes. Tai klasikinis mašininio mokymosi metodas, ir jis gali būti stebėtinai padorus... kol tampa nebetinkamas. (Apklausa apie LLM generuojamo teksto aptikimą)

B) Sumaišties ir „sprogimo“ vertinimas 📈

Kai kurie detektoriai apskaičiuoja, kiek „nuspėjamas“ yra tekstas.

Sumišimas: apytiksliai, kiek kalbos modelis nustebęs išgirdęs kitą žodį. (Bostono universitetas – „Sumišimo įrašai“)
Mažesnis sumišimas gali reikšti, kad tekstas yra labai nuspėjamas (kas gali nutikti naudojant dirbtinio intelekto išvestis). (DetectGPT)
„Burstiness“ (liet. „Burstiness“) bando išmatuoti sakinio sudėtingumo ir ritmo variacijų kiekį. (GPTZero)

Šis metodas yra paprastas ir greitas. Jį taip pat lengva supainioti, nes žmonės taip pat gali rašyti nuspėjamai (sveiki, įmonių el. laiškai). (OpenAI)

C) Stilometrija (pirštų atspaudų ėmimas raštu) ✍️

Stilometrija nagrinėja tokius modelius kaip:

vidutinė sakinio trukmė
skyrybos stilius
funkcijos žodžių dažnis (the, and, but…)
žodyno įvairovė
skaitomumo balai

Tai panašu į „rašysenos analizę“, tik tai susiję su tekstu. Kartais tai padeda. Kartais tai panašu į peršalimo diagnozavimą žiūrint į žmogaus batus. (Stilometrija ir teismo ekspertizė: literatūros apžvalga; Funkciniai žodžiai autoriaus priskyrime)

D) Vandenženklio aptikimas (jei yra) 🧩

Kai kurie modelių teikėjai gali įterpti subtilius raštus („vandens ženklus“) į sugeneruotą tekstą. Jei detektorius žino vandens ženklo schemą, jis gali bandyti ją patikrinti. (Vandens ženklas dideliems kalbų modeliams; „SynthID“ tekstas)

Bet… ne visi modeliai turi vandens ženklą, ne visi išėjimai išsaugo vandens ženklą po redagavimo ir ne visi detektoriai turi prieigą prie slapto ingrediento. Taigi tai nėra universalus sprendimas. (Apie vandens ženklų patikimumą dideliems kalbų modeliams; OpenAI)

3) Kas daro dirbtinio intelekto detektoriaus versiją gerą ✅

„Geras“ detektorius (mano patirtis rodo, kad išbandžiau kelis jų greta, kad galėčiau redakcinius procesus) nėra tas, kuris garsiausiai rėkia. Jis yra tas, kuris elgiasi atsakingai.

Štai kas daro dirbtinio intelekto detektorių tvirtą:

Kalibruotas pasitikėjimas: 70 % turėtų reikšti kažką pastovaus, o ne ranka mostelėjimą. (Teksto aptikimo naudojant LLM apklausa)
Mažas klaidingai teigiamų rezultatų skaičius: ne gimtąja anglų kalba parašyti tekstai, teisiniai raštai ar techniniai vadovai neturėtų būti žymimi kaip „DI“ vien dėl to, kad jie yra švarūs. (Stanfordo HAI; Liang ir kt. (arXiv))
Skaidrios ribos: turėtų būti leidžiama taikyti neapibrėžtumą ir rodyti diapazonus, o ne apsimesti visažine. (OpenAI; Turnitin)
Domeno žinomumas: atsitiktiniuose tinklaraščiuose apmokyti detektoriai dažnai sunkiai skaito akademinius tekstus ir atvirkščiai. (Apklausa apie LLM sugeneruoto teksto aptikimą)
Trumpų tekstų apdorojimas: geri įrankiai padeda išvengti pernelyg užtikrintų balų mažose imtyse (pastraipa nėra visata). (OpenAI; Turnitin)
Jautrumas redagavimui: turėtų būti atlaikomas žmogaus redagavimas, akimirksniu nesukeliant beprasmių rezultatų. (LLM sugeneruoto teksto aptikimo apklausa)

Geriausi, kuriuos mačiau, būna šiek tiek kuklūs. Blogiausi elgiasi taip, lyg skaitytų mintis 😬

4) Palyginimo lentelė – dažniausiai pasitaikantys dirbtinio intelekto detektorių „tipai“ ir jų privalumai 🧾

Žemiau pateikiamas praktinis palyginimas. Tai ne prekių ženklai – tai pagrindinės kategorijos, su kuriomis susidursite. (Apklausa apie LLM sugeneruoto teksto aptikimą)

Įrankio tipas (apytiksliai)	Geriausia auditorija	Kainos pojūtis	Kodėl tai veikia (kartais)
„Perplexity Checker Lite“	Mokytojai, greiti patikrinimai	Laisvas	Greitas nuspėjamumo signalas, bet gali būti ir staigus…
Klasifikatoriaus skaitytuvas Pro	Redaktoriai, personalo skyrius, atitiktis	Prenumerata	Išmoksta šablonų iš paženklintų duomenų – pakanka vidutinio ilgio tekstui
Stilometrijos analizatorius	Tyrėjai, teismo medicinos specialistai	$$$ arba niša	Palygina rašymo pirštų atspaudus – keista, bet patogu ilgoje formoje
Vandenženklio ieškiklis	Platformos, vidinės komandos	Dažnai sujungiama	Stiprus, kai yra vandens ženklas – jei jo nėra, tai iš esmės tik gūžčiojimas pečiais
Hibridinis įmonės paketas	Didelės organizacijos	Vietos sutartys	Apjungia kelis signalus – geresnis aprėpties lygis, daugiau reguliavimo rankenėlių (ir daugiau būdų neteisingai sukonfigūruoti, oi)

Atkreipkite dėmesį į stulpelį „kainos pojūtis“. Taip, tai nėra moksliška. Bet tai atvira 😄

5) Pagrindiniai signalai, kurių ieško detektoriai – „pranešėjai“ 🧠

Štai ką daugelis detektorių bando išmatuoti po gaubtu:

Nuspėjamumas (žetonų tikimybė)

Kalbos modeliai generuoja tekstą numatydami tikėtinus tolesnius žetonus. Tai paprastai sukuria:

sklandesni perėjimai
mažiau stebinančių žodžių pasirinkimų
mažiau keistų nukrypimų (nebent būtų paraginta)
nuoseklus tonas (Bostono universitetas – „Perplexity Posts“; „DetectGPT“)

Kita vertus, žmonės dažnai elgiasi zigzagais. Mes prieštaraujame sau, pridedame atsitiktinių komentarų, vartojame šiek tiek netikslias metaforas – pavyzdžiui, lyginame dirbtinio intelekto detektorių su skrudintuvu, kuris vertina poeziją. Ši metafora bloga, bet jūs supratote.

Kartojimo ir struktūros modeliai

Dirbtinio intelekto rašymas gali rodyti subtilius pasikartojimus:

pasikartojantys sakinių pastoliai („Apibendrinant...“, „Be to...“, „Be to...“)
panašaus ilgio pastraipos
nuoseklus tempas (LLM sugeneruoto teksto aptikimo tyrimas)

Bet taip pat – daugybė žmonių rašo taip, ypač mokykloje ar įmonėse. Taigi kartojimas yra užuomina, o ne įrodymas.

Pernelyg aiškus ir „per daug švarus“ proza ✨

Tai savotiškas atvejis. Kai kurie detektoriai netiesiogiai „labai švarų rašymą“ laiko įtartinu. („OpenAI“)

Kas nemalonu, nes:

gerų rašytojų yra
redaktoriai egzistuoja
rašybos tikrinimas yra

Taigi, jei galvojate apie tai, kaip veikia dirbtinio intelekto detektoriai, dalis atsakymo yra toks: kartais jie apdovanoja už grubumą. O tai... šiek tiek atvirkščiai.

Semantinis tankis ir bendrinis frazavimas

Detektoriai gali pažymėti tekstą, kuris atrodo:

pernelyg bendro pobūdžio
mažai konkrečių gyvenimiškų detalių
daug dėmesio skiriama subalansuotiems, neutraliems teiginiams (LLM sugeneruoto teksto aptikimo apklausa)

Dirbtinis intelektas dažnai sukuria turinį, kuris skamba pagrįstai, bet šiek tiek perdirbtas. Pavyzdžiui, viešbučio kambarys, kuris atrodo gražiai, bet neturi jokio asmeniškumo 🛏️

6) Klasifikatoriaus metodas – kaip jis apmokytas (ir kodėl jis neveikia) 🧪

Klasifikatoriaus detektorius paprastai apmokytas taip:

Surinkite žmonių tekstų (esė, straipsnių, forumų ir kt.) duomenų rinkinį
Generuoti dirbtinio intelekto tekstą (keli raginimai, stiliai, ilgiai)
Pažymėkite mėginius
Modelio apmokymas juos atskirti naudojant funkcijas arba įterpimus
Patvirtinkite tai su paslėptais duomenimis
Išsiųskite jį... o tada realybė trenkia jam į veidą (apklausa apie LLM generuojamo teksto aptikimą)

Kodėl realybė smogia:

Domeno poslinkis: mokymo duomenys neatitinka tikrojo vartotojo rašymo
Modelio poslinkis: naujos kartos modeliai elgiasi kitaip nei duomenų rinkinyje esantys modeliai
Redagavimo efektai: žmogaus redagavimas gali pašalinti akivaizdžius modelius, bet išlaikyti subtilius.
Kalbos variantai: tarmės, anglų kalbos kaip antrosios kalbos rašymas ir formalūs stiliai skaitomi neteisingai (LLM sugeneruoto teksto aptikimo tyrimas; Liang ir kt. (arXiv))

Mačiau detektorių, kurie demonstraciniame rinkinyje buvo „puikūs“, o realiame darbo vietoje rašant subyrėjo. Tai tas pats, kas dresuoti uostomąjį šunį tik su vienos markės sausainiais ir tikėtis, kad jis ras visus pasaulio užkandžius 🍪

7) Sumišimas ir išsiveržimų pliūpsnis – matematikos trumpinys 📉

Ši detektorių šeima paprastai remiasi kalbos modelio vertinimu:

Jie peržiūri jūsų tekstą modeliu, kuris įvertina kiekvieno kito žetono tikimybę.
Jie apskaičiuoja bendrą „staigmeną“ (sumišimą). (Bostono universitetas – įrašai apie sumišimą)
Jie gali pridėti variacijos metriką („sprogstamumą“), kad pamatytų, ar ritmas jaučiasi žmogiškas. (GPTZero)

Kodėl kartais tai veikia:

Neapdorotas dirbtinio intelekto tekstas gali būti itin sklandus ir statistiškai nuspėjamas (DetectGPT)

Kodėl nepavyksta:

trumpi pavyzdžiai yra triukšmingi
oficialus rašymas yra nuspėjamas
techninis rašymas yra nuspėjamas
negimtosios kalbos rašymas gali būti nuspėjamas
Labai redaguotas dirbtinio intelekto tekstas gali atrodyti žmogiškai (OpenAI; Turnitin)

Taigi, dirbtinio intelekto detektorių veikimas kartais primena greičio matuoklį, kuris painioja dviratininkus ir motociklus. Tas pats kelias, skirtingi varikliai 🚲🏍️

8) Vandens ženklai – „pirštų atspaudų rašale“ idėja 🖋️

Vandenženklis skamba kaip puikus sprendimas: pažymėti dirbtinio intelekto tekstą generavimo metu, o vėliau jį aptikti. (Vandenženklis dideliems kalbų modeliams; „SynthID“ tekstas)

Praktiškai vandens ženklai gali būti trapūs:

perfrazavimas gali juos susilpninti
vertimas gali juos sulaužyti
dalinis citavimas gali juos pašalinti
Kelių šaltinių maišymas gali iškreipti modelį (apie vandenženklių patikimumą dideliems kalbų modeliams)

Be to, vandens ženklų aptikimas veikia tik tada, jei:

naudojamas vandens ženklas
detektorius žino, kaip tai patikrinti
tekstas nebuvo daug transformuotas (OpenAI; SynthID Text)

Taigi, taip, vandens ženklai gali būti galingi, bet jie nėra universalus policijos ženklelis.

9) Klaidingai teigiami rezultatai ir kodėl jie nutinka (skausminga dalis) 😬

Tai nusipelno atskiro skyriaus, nes čia daugiausia ginčų.

Dažniausi klaidingai teigiami veiksniai:

Labai formalus tonas (akademinis, teisinis, atitikties raštas)
Ne gimtoji anglų kalba (paprastesnės sakinių struktūros gali atrodyti „pavyzdinės“)
Rašymas pagal šablonus (motyvaciniai laiškai, standartinės veiklos procedūros, laboratorinių tyrimų ataskaitos)
Trumpi teksto pavyzdžiai (nepakankamas signalas)
Temos apribojimai (kai kurios temos verčia pasikartoti frazes) (Liang ir kt. (arXiv); Turnitin)

Jei kada nors matėte, kad kas nors būtų pažymėtas už tai, kad per gerai rašo... taip. Taip nutinka. Ir tai žiauru.

Detektoriaus balas turėtų būti traktuojamas taip:

dūmų detektorius, o ne teismo nuosprendis 🔥
Jis nurodo „galbūt patikrinti“, o ne „byla uždaryta“. (OpenAI; Turnitin)

10) Kaip suaugęs žmogus interpretuoti detektoriaus balus 🧠🙂

Štai praktiškas būdas perskaityti rezultatus:

Jei įrankis pateikia vieną procentą

Traktuokite tai kaip grubų rizikos signalą:

0-30%: greičiausiai žmogaus sukurta arba labai redaguota
30-70%dviprasmiška zona – nieko nedarykite
70–100 %: labiau tikėtini dirbtinio intelekto tipo modeliai, bet vis tiek neįrodyti („Turnitin“ vadovai)

Net ir aukšti balai gali būti klaidingi, ypač:

standartizuotas rašymas
tam tikri žanrai (santraukos, apibrėžimai)
ESL rašymas (Liang ir kt. (arXiv))

Ieškokite paaiškinimų, o ne tik skaičių

Geresni detektoriai suteikia:

paryškinti tarpatramiai
funkcijų pastabos (nuspėjamumas, kartojimas ir kt.)
pasikliautinieji intervalai arba neapibrėžtumo kalba (LLM sugeneruoto teksto aptikimo tyrimas)

Jei įrankis atsisako ką nors paaiškinti ir tiesiog pliaukšteli jums per kaktą skaičių... Aš juo nepasitikiu. Jūs taip pat neturėtumėte pasitikėti.

11) Kaip veikia dirbtinio intelekto detektoriai: paprastas mentalinis modelis 🧠🧩

Jei norite švaraus išsineštinio maisto, naudokite šį mentalinį modelį:

Dirbtinio intelekto detektoriai ieško statistinių ir stilistinių modelių, būdingų mašininiu būdu generuojamam tekstui. (LLM generuojamo teksto aptikimo tyrimas)
Jie lygina šiuos modelius su tuo, ko išmoko iš mokymo pavyzdžių. (Apklausa apie LLM sugeneruoto teksto aptikimą)
Jie pateikia į tikimybę panašų spėjimą, o ne faktinę kilmės istoriją. (OpenAI)
Spėjimas priklauso nuo žanro, temos, ilgio, redagavimo ir detektoriaus mokymo duomenų. (LLM sugeneruoto teksto aptikimo tyrimas)

Kitaip tariant, dirbtinio intelekto detektoriai veikia taip, kad „vertina panašumą“, o ne autorystę. Tai tarsi teiginys, kad kažkas atrodo kaip jo pusbrolis. Tai ne tas pats, kas DNR testas... ir net DNR testai turi kraštutinių atvejų.

12) Praktiniai patarimai, kaip sumažinti atsitiktinių vėliavėlių skaičių (nežaidžiant žaidimų) ✍️✅

Ne „kaip apgauti detektorius“. Greičiau kaip rašyti taip, kad atspindėtų tikrąją autorystę ir išvengtų keistų perskaitymo klaidų.

Pateikite konkrečių detalių: faktiškai naudotų sąvokų pavadinimus, atliktus veiksmus, apgalvotus kompromisus
Naudokite natūralią variaciją: derinkite trumpus ir ilgus sakinius (kaip daro žmonės, kai mąsto)
Įtraukite realius apribojimus: laiko apribojimus, naudotus įrankius, kas nutiko ne taip, ką darytumėte kitaip
Venkite pernelyg šabloniškų žodžių: „Be to“ pakeiskite tuo, ką iš tikrųjų pasakytumėte
Saugokite juodraščius ir užrašus: kilus ginčui, proceso įrodymai yra svarbesni nei nuojauta

Tiesą sakant, geriausia gynyba yra tiesiog... būti nuoširdžiu. Netolygiai nuoširdžiu, o ne „tobulai originaliu“ nuoširdumu.

Baigiamosios pastabos 🧠✨

Dirbtinio intelekto detektoriai gali būti vertingi, tačiau jie nėra tiesos mašinos. Tai šablonų derinimo įrankiai, apmokyti dirbti su netobulais duomenimis ir dirbantys pasaulyje, kuriame rašymo stiliai nuolat sutampa. („OpenAI“; LLM sugeneruoto teksto aptikimo tyrimas)

Trumpai tariant:

Detektoriai remiasi klasifikatoriais, painiava / sprogstamumu, stilometrija ir kartais vandens ženklais 🧩 (LLM sugeneruoto teksto aptikimo apžvalga)
Jie vertina „panašumą į dirbtinį intelektą“, o ne tikrumą („OpenAI“)
Klaidingai teigiami rezultatai dažnai pasitaiko formaliuose, techniniuose ar ne gimtąja kalba rašančiuose tekstuose 😬 (Liang ir kt. (arXiv); Turnitin)
Detektoriaus rezultatus naudokite kaip raginimą peržiūrėti, o ne kaip verdiktą („Turnitin“)

Ir taip... jei kas nors vėl paklaus, kaip veikia dirbtinio intelekto detektoriai, galite jiems atsakyti: „Jie spėja remdamiesi modeliais – kartais protingais, kartais kvailais, visada ribotais.“

Realus pavyzdys: pažymėto studento rašinio peržiūra neskubant vertinti 🧑🏫

Scenarijus

Įsivaizduokite, kad universiteto rašymo dėstytojas gauna 1200 žodžių istorijos rašinį, kurį dirbtinio intelekto detektorius pažymi kaip „86 % tikėtina, kad tai dirbtinis intelektas“. Rašinys yra formalus, tvarkingai struktūruotas ir remiasi pasikartojančiomis frazėmis, tokiomis kaip „tai rodo, kad“ ir „galima teigti“. Iš pirmo žvilgsnio jis gali atrodyti įtartinas.

Tačiau mokinys rašo anglų kalbą kaip antrąją kalbą (ESL), naudojo griežtą rašinio šabloną iš paskaitų ir redagavo juodraštį naudodamas gramatikos tikrinimo programinę įrangą. Kitaip tariant, tai yra būtent toks atvejis, kai detektoriaus balas turėtų būti peržiūros, o ne bausmės priežastis.

Tikslas nėra „pagauti“ studento. Tikslas yra nuspręsti, ar balas yra pagrįstas kitais įrodymais.

Ko reikia recenzentui

Prieš priimdamas sprendimą, mokytojas surenka:

Detektoriaus ataskaita, įskaitant paryškintas ištraukas, jei yra
Esė santrauka ir vertinimo kriterijai
Studento juodraščio istorija, užrašai, planas arba bibliografija
Visos leidžiamos rašymo pagalbos priemonės, išvardytos kurso politikoje
Vienas ar du ankstesni to paties studento rašto pavyzdžiai, jei politika leidžia
Trumpas studento paaiškinimas apie jo rašymo procesą

Tai svarbu, nes detektorius mato tik galutinį tekstą. Jis nežino, ar mokinys keturias dienas rašė juodraštį, naudojo šabloną, kopijavo klasės frazes, vertė užrašus ar peržiūrėjo atsižvelgdamas į atsiliepimus.

Instrukcijos pavyzdys

Dėstytojas, vertindamas atvejį, galėtų naudoti šią peržiūros instrukciją:

Šį rašinį žiūrėkite kaip rašymo proceso patikrinimą, o ne kaip dirbtinio intelekto naudojimo įrodymą. Palyginkite detektoriaus svarbiausius dalykus su studento užrašais, juodraščio istorija, šaltinių sąrašu ir ankstesniu rašymo pavyzdžiu. Nustatykite, kurios ištraukos yra tikrai įtartinos, o kurios gali būti tiesiog formalios, šabloninės arba paveiktos anglų kalbos kaip antrosios kalbos. Suskirstykite įrodymus į tris grupes: detektoriaus signalą, rašymo proceso įrodymus ir žmogaus sprendimą. Nerekomenduokite taikyti drausminių priemonių, nebent yra aiškių patvirtinamųjų įrodymų, be detektoriaus balo.

Kaip tai išbandyti

Sąžiningam peržiūros procesui galėtų būti naudojami trys paprasti patikrinimai:

Paprašykite mokinio žodžiu paaiškinti dvi pastraipas.
Jei jis gali paaiškinti argumentą, šaltinius ir kodėl jį suformulavo būtent taip, tai yra vertingas proceso įrodymas.
Palyginkite pažymėtas dalis su rašinio šablonu.
Jei detektorius išskiria daugiausia šablono stiliaus frazes, balas gali būti susijęs su struktūra, o ne su autoryste.
Pakartokite tik ilgesnes dalis, o ne mažus fragmentus
. Viena pastraipa gali būti triukšminga. 600–900 žodžių pavyzdys paprastai duoda prasmingesnį signalą nei trys atskiri sakiniai.

Rezultatas

Iliustracinis rezultatas: penkių rašinių peržiūros užduotyje dėstytojas matuoja proceso trukmę prieš ir po šios darbo eigos panaudojimo.

Prieš darbo eigą kiekvieno pažymėto rašinio peržiūra užtrukdavo apie 35 minutes, nes dėstytojas turėjo nuspręsti, ką patikrinti nuo nulio.

Panaudojus darbo eigą, kiekviena peržiūra truko apie 18 minučių:

5 minutės detektoriaus svarbiausiems rodmenims perskaityti
6 minutės juodraščių, užrašų ir šaltinių patikrinimui
4 minutės ankstesnių rašymo ar šablonų kalbos palyginimui
3 minutės trumpam atsiliepimui parašyti

Tai apytiksliai sutaupo 17 minučių kiekvienam rašiniui arba 85 minutes penkiems pažymėtiems rašiniams. Šį rodiklį lengva patikrinti: matuokite kiekvienos peržiūros laiką, suskaičiuokite, kiek atvejų reikėjo spręsti nagrinėjant problemas, ir užfiksuokite, ar galutinis sprendimas buvo priimtas remiantis tik detektoriaus balu, ar patvirtinamaisiais įrodymais.

Geresnis sėkmės matas yra ne „kiek studentų buvo pagauti“. Tai, kiek abejotinų balų buvo nuosekliai peržiūrėti, pateikiant aiškius įrodymus ir mažiau skubotų prielaidų.

Kas gali nutikti ne taip

Didžiausia klaida – detektoriaus procentą laikyti sprendimu. „86 % dirbtinio intelekto tikimybė“ skamba oficialiai, bet vis tiek gali būti klaidinga.

Kitos dažnos klaidos:

Tikrinamas tik galutinis rašinys ir ignoruojami juodraščiai
Nubaudžiamas nušlifuotas anglų kalbos kaip antrosios kalbos rašymas, nes jis atrodo „pernelyg sklandžiai“
Naudojant vieną detektorių tarsi teismo medicinos įrankį
Mažų fragmentų vykdymas ir rezultato traktavimas kaip patikimo
Nesugebėjimas pasakyti studentams, kokius įrodymus jie gali pateikti
Pamirštant, kad gramatikos įrankiai, šablonai ir atsiliepimai gali pakeisti stilių

Geras peržiūros procesas taip pat turėtų apsaugoti privatumą. Studentų neturėtų būti prašoma įkelti asmeninių užrašų, asmeninių žinučių ar nesusijusių dokumentų, nebent politika tai aiškiai leidžia.

Praktiškas išsinešimui skirtas maistas

Naudokite dirbtinio intelekto detektorius kaip atrankos įrankį, o ne tiesos mašiną. Tvirtas procesas sujungia balų skaičiavimą su juodraščiais, šaltinių patikrinimais, rašymo istorija, studentų paaiškinimais ir žmogaus vertinimu. Tai suteikia mokykloms, redaktoriams ir recenzentams kai ką daug vertingesnio nei bauginantis procentas: sprendimą, kurį jie gali užtikrintai apginti.

DUK

Kaip dirbtinio intelekto detektoriai veikia praktiškai?

Dauguma dirbtinio intelekto detektorių „neįrodo“ autorystės. Jie įvertina, kiek jūsų tekstas panašus į kalbos modelių dažniausiai sukuriamus šablonus, o tada pateikia į tikimybę panašų balą. Slaptai jie gali naudoti klasifikavimo modelius, supainiojimo stiliaus nuspėjamumo vertinimą, stilometrijos ypatybes arba vandenženklių patikrinimus. Rezultatą geriausia traktuoti kaip rizikos signalą, o ne galutinį verdiktą.

Kokių signalų rašte ieško dirbtinio intelekto detektoriai?

Įprasti požymiai yra nuspėjamumas (kiek modelį „nustebino“ jūsų tolesni žodžiai), sakinių schemų pasikartojimas, neįprastai nuoseklus tempas ir bendro pobūdžio frazavimas su mažu konkrečių detalių skaičiumi. Kai kurie įrankiai taip pat nagrinėja stiliometrijos žymenis, tokius kaip sakinio ilgis, skyrybos įpročiai ir funkcinių žodžių dažnis. Šie požymiai gali sutapti su žmogaus rašymu, ypač formaliuose, akademiniuose ar techniniuose žanruose.

Kodėl dirbtinio intelekto detektoriai žmogaus rašymą žymi kaip dirbtinį intelektą?

Klaidingai teigiami rezultatai gaunami, kai žmogaus rašymas atrodo statistiškai „sklandus“ arba panašus į šabloną. Formalus tonas, atitikties stiliaus formuluotės, techniniai paaiškinimai, trumpi pavyzdžiai ir ne gimtoji anglų kalba gali būti klaidingai suprasti kaip panašūs į dirbtinį intelektą, nes jie sumažina variaciją. Štai kodėl švari, gerai redaguota pastraipa gali lemti aukštą balą. Detektorius lygina panašumą, o ne patvirtina kilmę.

Ar perpleksiškumo ir „sprogimo“ detektoriai yra patikimi?

Painiava pagrįsti metodai gali veikti, kai tekstas yra neapdorotas, labai nuspėjamas dirbtinio intelekto rezultatas. Tačiau jie yra trapūs: trumpos ištraukos yra triukšmingos, o daugelis teisėtų žmonių sukurtų žanrų yra natūraliai nuspėjami (santraukos, apibrėžimai, įmonių el. laiškai, vadovai). Redagavimas ir šlifavimas taip pat gali smarkiai pakeisti rezultatą. Šie įrankiai tinka greitam rūšiavimui, o ne vien svarbiems sprendimams.

Kuo skiriasi klasifikavimo detektoriai ir stilometrijos įrankiai?

Klasifikatorių detektoriai mokosi iš paženklintų žmogaus ir dirbtinio intelekto (o kartais ir hibridinio) teksto duomenų rinkinių ir prognozuoja, į kurį segmentą jūsų tekstas labiausiai panašus. Stilometrijos įrankiai daugiausia dėmesio skiria „pirštų atspaudų“, tokių kaip žodžių pasirinkimo modeliai, funkciniai žodžiai ir skaitomumo signalai, rašymui, kurie gali būti informatyvesni ilgos formos analizėje. Abu metodai kenčia nuo srities poslinkio ir gali būti sudėtingi, kai rašymo stilius ar tema skiriasi nuo jų mokymo duomenų.

Ar vandens ženklai visam laikui išsprendžia dirbtinio intelekto aptikimą?

Vandenženkliai gali būti stiprūs, kai modelis juos naudoja ir detektorius žino vandens ženklų schemą. Iš tikrųjų ne visi tiekėjai naudoja vandens ženklus, o įprastos transformacijos – perfrazavimas, vertimas, dalinis citavimas ar šaltinių maišymas – gali susilpninti arba nutraukti modelį. Vandenženklių aptikimas yra veiksmingas siaurais atvejais, kai visa grandinė sutampa, tačiau tai nėra universalus aprėptis.

Kaip turėčiau interpretuoti „X% AI“ balą?

Vieną procentą laikykite apytiksliu „panašumo į dirbtinį intelektą“ rodikliu, o ne dirbtinio intelekto autorystės įrodymu. Vidutiniai balai yra ypač dviprasmiški, ir net aukšti balai gali būti klaidingi standartizuotame ar formaliame rašte. Geresni įrankiai pateikia paaiškinimus, pvz., paryškintus intervalus, pastabas apie savybes ir neapibrėžtumo terminus. Jei detektorius pats savęs nepaaiškina, nelaikykite skaičiaus autoritetingu.

Kas daro dirbtinio intelekto detektorių gerą mokykloms ar redakciniams darbo eigoms?

Patikimas detektorius yra sukalibruotas, sumažina klaidingai teigiamų rezultatų skaičių ir aiškiai nurodo ribas. Jis turėtų vengti pernelyg užtikrintų teiginių apie trumpus pavyzdžius, veikti skirtingose srityse (akademinis, tinklaraščių ir techninis) ir išlikti stabilus, kai žmonės peržiūri tekstą. Atsakingiausi įrankiai elgiasi kukliai: jie pateikia įrodymus ir neapibrėžtumą, o ne veikia kaip minčių skaitytojai.

Kaip sumažinti atsitiktinių dirbtinio intelekto žymėjimų skaičių nežaisdamas sistemos?

Susitelkite į autentiškus autorystės ženklus, o ne į gudrybes. Pridėkite konkrečių detalių (jūsų atliktus veiksmus, apribojimus, kompromisus), natūraliai keiskite sakinių ritmą ir venkite pernelyg šabloniškų perėjimų, kurių paprastai nenaudojate. Išsaugokite juodraščius, pastabas ir redagavimo istoriją – ginčuose proceso įrodymai dažnai yra svarbesni nei detektoriaus balas. Tikslas – aiškumas ir asmeniškumas, o ne tobula brošiūros proza.

Nuorodos

Skaičiuojamosios lingvistikos asociacija (ACL antologija) – LLM sugeneruoto teksto aptikimo tyrimas – aclanthology.org
„OpenAI“ – naujas dirbtinio intelekto klasifikatorius, skirtas dirbtinio intelekto parašytam tekstui žymėti – openai.com
„Turnitin“ vadovai – dirbtinio intelekto rašymo aptikimas klasikiniame ataskaitos rodinyje – guides.turnitin.com
„Turnitin“ vadovai – dirbtinio intelekto rašymo aptikimo modelis – guides.turnitin.com
„Turnitin“ – Klaidingai teigiamų rezultatų supratimas naudojant mūsų dirbtinio intelekto rašymo aptikimo galimybes – turnitin.com
arXiv – DetectGPT – arxiv.org
Bostono universitetas – Įrašai apie sumišimą – cs.bu.edu
GPTZero - Sumišimas ir sprogstamasis potraukis: kas tai? - gptzero.me
„PubMed Central“ (NCBI) – Stilometrija ir teismo ekspertizė: literatūros apžvalga – ncbi.nlm.nih.gov
Skaičiuojamosios lingvistikos asociacija (ACL antologija) – Funkciniai žodžiai autorystės priskyrime – aclanthology.org
arXiv – vandenženklis didelių kalbų modeliams – arxiv.org
„Google“ dirbtinis intelektas kūrėjams – „SynthID“ tekstas – ai.google.dev
arXiv – Apie vandenženklių patikimumą dideliems kalbų modeliams – arxiv.org
„OpenAI“ – internete matomų ir girdimų duomenų šaltinio supratimas – openai.com
Stanfordo HAI – Dirbtinio intelekto detektoriai šališki rašytojams, kurių gimtoji kalba nėra anglų – hai.stanford.edu
arXiv – Liang ir kt. – arxiv.org

Raskite naujausią dirbtinį intelektą oficialioje dirbtinio intelekto asistentų parduotuvėje

Apie mus

Atgal į tinklaraštį