Testmetodikk

Evaluering av nøyaktigheten til Plagiatkontroll AI-detektor

Vi ønsker full åpenhet om vår AI-detektors nøyaktighet, falske positiver og negativer, og områder for forbedring for å sikre ansvarlig bruk.

Testdato: 31. januar 2026
Modell: NorBERT v2.0

Metodikk

Vår egenutviklede NorBERT Token-Level AI Detector er spesifikt trent for norsk språk (bokmål og nynorsk). Modellen er basert på ltg/norbert3-base med 124 millioner parametere.

Testdataene er adskilt fra treningsdataene og inneholder ingen tekst som tidligere har vært brukt i trening. Testsettet består av menneskeskrevet tekst fra verifiserte kilder og AI-generert tekst fra OpenAI modell familie, Gemini modell familie og Claude familie modeller. Alle dokumenter har en minimumslengde på 350 ord.

Modellen klassifiserer hver token (ord/delord) individuelt, aggregerer scorer per setning, og beregner en samlet AI-sannsynlighet for hele dokumentet.

Flerspråklig støtte: For norsk tekst brukes vår egenutviklede NorBERT-modell. For andre språk (engelsk, svensk, etc.) benyttes tredjepartsleverandører for optimal nøyaktighet.

Evalueringsmetrikker

Vi bruker følgende metrikker for å evaluere modellens ytelse:

Nøyaktighet (Accuracy)

Andelen korrekte resultater (både sanne positiver og sanne negativer) av totalt antall tekster.

Macro F1-score

Harmonisk gjennomsnitt av presisjon og recall, vektet likt mellom klassene.

Human F1 (TNR)

Modellens nøyaktighet på menneskeskrevet tekst. Høy verdi = færre falske positiver.

AI F1 (TPR)

Modellens nøyaktighet på AI-generert tekst. Høy verdi = færre falske negativer.

Resultater

Testing bekrefter at AI-detektoren viser høy deteksjonsnøyaktighet for å skille mellom menneskeskrevet og AI-generert tekst, samtidig som den opprettholder en lav rate for falske positiver.

Endelige evalueringsresultater

MetrikkScore
Nøyaktighet94.45%
Macro F194.45%
Human F194.57%
AI F194.32%

Testdata oversikt

DatasettDokumenterSetninger
Menneskeskrevet tekst4 117 161
AI-generert tekst2 566 036
Totalt177 7086 683 197

AI-modeller testet mot

Modellen er trent og testet for deteksjon av tekst generert av OpenAI modell familie, Gemini modell familie og Claude familie modeller.

ModellfamilieModellerInkludert
OpenAI familieGPT-4o-mini, GPT-5.2
Claude familieClaude Opus 4.5
Gemini familieGemini 3 Flash
Grok familieKommer i v3.0Planlagt

* Modellversjoner kan endres over tid. Tekster ble generert med tilgjengelige versjoner per januar 2026.

Tekniske spesifikasjoner

Basemodellltg/norbert3-base
ArkitekturToken Classification
Parametere124 032 002
Maks sekvens512 tokens

Viktige begrensninger

Selv med høy nøyaktighet er det viktig å forstå begrensningene:

~5% feilmargin: Noen tekster kan bli feilklassifisert. Resultater bør aldri være eneste grunnlag for beslutninger om plagiat eller juks.
Falske positiver kan forekomme: Formell, teknisk eller svært strukturert menneskeskrevet tekst kan noen ganger bli flagget som AI-generert.
Nye AI-modeller: Modellen er trent på data frem til januar 2026. Fremtidige AI-modeller kan kreve oppdateringer for optimal deteksjon.
Bruk som veiledning: Resultatet bør sees som én av flere faktorer i en helhetsvurdering, ikke som et endelig bevis.

Versjonshistorikk

VersjonDatoEndringer
v2.031. jan 2026Token-nivå klassifiserer med setningsdeteksjon (94.45% F1)
v1.0Jan 2026Dokumentnivå-klassifiserer (~95% nøyaktighet)

Prøv AI-detektoren

Test vår norske modell med 94.45% nøyaktighet.