Testmetodikk

Evaluering av nøyaktigheten til Plagiatkontroll AI-detektor

Vi ønsker full åpenhet om vår AI-detektors nøyaktighet, falske positiver og negativer, og områder for forbedring for å sikre ansvarlig bruk.

Testdato: 31. januar 2026

Modell: NorBERT v2.0

Metodikk

Vår egenutviklede NorBERT Token-Level AI Detector er spesifikt trent for norsk språk (bokmål og nynorsk). Modellen er basert på ltg/norbert3-base med 124 millioner parametere.

Testdataene er adskilt fra treningsdataene og inneholder ingen tekst som tidligere har vært brukt i trening. Testsettet består av menneskeskrevet tekst fra verifiserte kilder og AI-generert tekst fra OpenAI modell familie, Gemini modell familie og Claude familie modeller. Alle dokumenter har en minimumslengde på 350 ord.

Modellen klassifiserer hver token (ord/delord) individuelt, aggregerer scorer per setning, og beregner en samlet AI-sannsynlighet for hele dokumentet.

Flerspråklig støtte: For norsk tekst brukes vår egenutviklede NorBERT-modell. For andre språk (engelsk, svensk, etc.) benyttes tredjepartsleverandører for optimal nøyaktighet.

Evalueringsmetrikker

Vi bruker følgende metrikker for å evaluere modellens ytelse:

Nøyaktighet (Accuracy)

Andelen korrekte resultater (både sanne positiver og sanne negativer) av totalt antall tekster.

Macro F1-score

Harmonisk gjennomsnitt av presisjon og recall, vektet likt mellom klassene.

Human F1 (TNR)

Modellens nøyaktighet på menneskeskrevet tekst. Høy verdi = færre falske positiver.

AI F1 (TPR)

Modellens nøyaktighet på AI-generert tekst. Høy verdi = færre falske negativer.

Resultater

Testing bekrefter at AI-detektoren viser høy deteksjonsnøyaktighet for å skille mellom menneskeskrevet og AI-generert tekst, samtidig som den opprettholder en lav rate for falske positiver.

Endelige evalueringsresultater

Metrikk	Score
Nøyaktighet	94.45%
Macro F1	94.45%
Human F1	94.57%
AI F1	94.32%

Testdata oversikt

Datasett	Dokumenter	Setninger
Menneskeskrevet tekst	—	4 117 161
AI-generert tekst	—	2 566 036
Totalt	177 708	6 683 197

AI-modeller testet mot

Modellen er trent og testet for deteksjon av tekst generert av OpenAI modell familie, Gemini modell familie og Claude familie modeller.

Modellfamilie	Modeller	Inkludert
OpenAI familie	GPT-4o-mini, GPT-5.2
Claude familie	Claude Opus 4.5
Gemini familie	Gemini 3 Flash
Grok familie	Kommer i v3.0	Planlagt

* Modellversjoner kan endres over tid. Tekster ble generert med tilgjengelige versjoner per januar 2026.

Tekniske spesifikasjoner

Basemodell	ltg/norbert3-base
Arkitektur	Token Classification
Parametere	124 032 002
Maks sekvens	512 tokens

Viktige begrensninger

Selv med høy nøyaktighet er det viktig å forstå begrensningene:

~5% feilmargin: Noen tekster kan bli feilklassifisert. Resultater bør aldri være eneste grunnlag for beslutninger om plagiat eller juks.

Falske positiver kan forekomme: Formell, teknisk eller svært strukturert menneskeskrevet tekst kan noen ganger bli flagget som AI-generert.

Nye AI-modeller: Modellen er trent på data frem til januar 2026. Fremtidige AI-modeller kan kreve oppdateringer for optimal deteksjon.

Bruk som veiledning: Resultatet bør sees som én av flere faktorer i en helhetsvurdering, ikke som et endelig bevis.

Versjonshistorikk

Versjon	Dato	Endringer
v2.0	31. jan 2026	Token-nivå klassifiserer med setningsdeteksjon (94.45% F1)
v1.0	Jan 2026	Dokumentnivå-klassifiserer (~95% nøyaktighet)

Prøv AI-detektoren

Test vår norske modell med 94.45% nøyaktighet.

Start analyse Enterprise