Et kvalificeret bud – ikke en facitliste

De livsforløb du kan søge i, har vi skabt maskinelt. De er et kvalificeret bud på, men ikke en facitliste for, hvilke personregistreringer i forskellige kilder, der omhandler samme person.

Nogle livsforløb er fejlbehæftede eller mangelfulde. Fejl kan skyldes, at der har været fejl eller misforståelser i indtastningen af den oprindelige kilde, i vores bearbejdning af data eller i de metoder, vi linker med. Mangler, fx ”hul” i et livsforløb, vil ofte skyldes, at netop de to kilder på begge sider af ”hullet” simpelthen ikke rummer information nok til præcist af afgøre, hvorvidt to personregistreringer omhandler samme person. Og så laver vi ikke et link.

Derfor må du tage højde for risikoen for fejl og mangler i den måde, du anvender livsforløbene på. Laver du slægtsforskning, vil du kunne bruge livsforløbene som et skattekort, der viser videre til originalkilderne i arkiverne. Livsforløbene vil også kunne inspirere til at tjekke en ekstra gang i arkiverne, om fx en tipoldemor, som Link-Lives har givet et lidt andet livsforløb end det, der står i slægtstavlen, måske havde giftet sig igen i København, selvom hun senere blev begravet i Hillerød med sin første mand.

Studerende og forskere, der vil bruge Link-Lives datasæt, kan sammen med datasættet få dokumentation for metoder, så hensyn til bias og andre udfordringer kan indarbejdes i forskningsdesignet.

Livsforløb forandrer sig, efterhånden som metoderne forbedres

Fordi vi hele tiden forbedrer metoderne, er vores livsforløb stadig i proces. De livsforløb, du ser i søgningen, er altid bedste bud netop nu.

Et par gange om året forventer vi at opdatere databasen. Så vil der komme nye livsforløb til, og livsforløb, vi ikke længere mener er gode, vil blive ændret eller udgå.

Metoder til linkning

Du kan ved det enkelte link i præsentationen af et livsforløb se, med hvilken metode vi har skabt linket.

Metoderne bruges på to kilder ad gangen, som linkes. Vi linker oftest bagud, hvilket betyder, at vi tager udgangspunkt i den nyeste kilde af de to og sammenligner bagud i tid. Den nyeste kilde må nemlig forventes at indeholde alle de personer fra den ældre kilde, undtagen de personer, der er døde i mellemtiden. De personer, der er kommet til siden, vil i alder være under det antal år, der er imellem de to kilder og kan dermed let tages ud af sammenligningen.

Vi arbejder med tre forskellige metoder til at afgøre, om to personregistreringer handler om samme person.

Regelbaseret linkning

Regelbaseret linkning betyder, at computeren sammenligner personregistreringerne i de to kilder. Hvis sammenligningen overholder en række regler, vil det resultere i et link.

Vores basale linkregler er:

  • Køn skal være det samme
  • Fødesogn skal være det samme
  • Alder – der må ikke være mere end 2 års forskel
  • Navn – skal være nogenlunde ens. Vi bruger en algoritme, der kan måle hvor ens to navne er (Jaro-Winkler)
  • Hvis der er flere personregistreringer i den ene kilde, der matcher en personregistrering i den anden kilde lige godt efter disse regler, linker vi ikke.

Inden navne, år og stednavne sammenlignes, har vi renset og standardiseret indtastningen. Med standardisering menes, at stavevariationer udelades, således at fx Olesen og Olsen behandles ens.

Læs mere om behandling af personnavne og fødesteder for at kunne linke

Vores basale regler er meget skrappe. Det er de for at vi præcis ved, hvordan vi har lavet det enkelte link. Vi tester, hvilken forskel, det gør at inddrage hele husstanden i reglerne, og på længere sigt vil også teste fx erhverv og adresser.

Menneskeskabt linkning

Trænede historikere og slægtsforskere kan skabe flere troværdige links mellem to kilder end regelbaseret computer linkning kan. Det tager bare meget længere tid. Derfor har vi også lavet menneskabte links for en mindre del af befolkningen. Dem bruger vi som træningsdata og til at tjekke kvaliteten af computerskabte links.

Træningsdata bruger vi til at oplære en computer til at tænke mere som os (machine learning) – altså se flere sammenhænge mellem personregistreringerne, end reglerne umiddelbart fanger.

For at holde kvaliteten af vores menneskeskabte links i top, er vores menneskeskabte links altid lavet to gange af to forskellige personer, uafhængigt af hinanden. Og i de tilfælde hvor de to personer ikke har været enige om et link, har en tredje person truffet beslutningen.

Linkning baseret på machine learning

Det mindre sæt træningsdata, som vi har skabt ved menneskelig linkning, har vi brugt til at træne forskellige computerprogrammer, som vi bruger til at linke store datasæt.

For at tjekke kvaliteten af denne automatiske linkning bruger vi en del af de menneskeskabte links til træningsdata. Resten bruger vi til at tjekke troværdigheden af computerens arbejde.

Der er endnu ikke links baseret på machine learning i de livsforløb, der pt. er tilgængelige i søgningen.

Læs mere om hvordan du giver feedback