5 minutter

Fra få til mange livsforløb

At rekonstruere simple livsforløb for en hel befolkning i 1800-tallet er ikke noget, der kan lykkedes over en enkelt nat eller to for den sags skyld. Link-Lives forsker derfor i, hvordan man kan sammenkæde oplysninger om den samme person fra forskellige kilder. Målet er naturligvis at opnå flest mulige korrekte links og livsforløb.

Når vi i forskningsregi skaber livsforløb, sker det på baggrund af matchende personlige oplysninger i kilderne som for- og efternavn, fødested og fødselsdato eller alder.

Årsagen til, at vi udelukkende benytter de mest basale personlige informationer, er, at hvis vi systematisk inddrager for eksempel folks bopæl, vil der være en tilbøjelighed til, at de skabte livsforløb hovedsageligt vil repræsentere de personer, der gennem hele livet blev bosiddende det samme sted. Livsforløbene for de mange danskere, der flyttede rundt gennem tilværelsen, vil derimod ikke blive rekonstrueret. Vi ville således ende op med en historisk befolkning, som var meget lidt mobil, hvilket ikke er en korrekt repræsentation af 1800-tallets danskere. Det betyder naturligvis ikke, at vi ser helt bort fra informationer som bopæl, erhverv og familieforbindelser, men i forbindelse med koblingen af links er det vigtigt at tydeliggøre hvilke informationer, som ligger til grund for linket.

Det som adskiller Link-Lives fra, hvordan historikere eller slægtsforskere for den sags skyld traditionelt kobler informationer om den samme person, er gennem vores tilgang til at rekonstruere livsforløb. I løbet af de kommende år skal vi forske i og afprøve kombinationen af tre tilgange til at skabe links og livsforløb, som i dag benyttes inden for historisk demografisk forskning. Målet er at bruge disse tre tilgange til at opnå flest mulige korrekte links og livsforløb. De tre tilgange er: manuel kobling, en regelbaseret computer tilgang og machine learning.

Tre forskellige tilgange

Uddannede historikere eller andre uddannede akademikere skaber livsforløb manuelt ved at sammenholde informationer om en person i én kilde med informationerne i en anden. De kan med det samme bekræfte, om det er den rigtige person, der er tale om. De skabte livsforløb har derfor en meget høj kvalitet.

Desværre er denne tilgang utrolig tidskrævende. Samtidig er der også den udfordring, at det i et forskningsperspektiv er meget svært for andre forskere senere hen at rekonstruere den helt samme måde at skabe de samme livsforløb på. Langt de fleste skabte livsforløb vil forskerne være enige om, men hvis der ikke er meget klare regler for, hvornår et link betragtes som korrekt, kan forskerne lægge større eller mindre vægt på hvilke informationer, der afgør om et link er korrekt eller ej i en given situation. Én forsker kan for eksempel lægge større vægt på, at fødestedet matcher og acceptere en lidt større variation i stavemåden af navnet, mens en anden måske vil lægge vægt på, at navnet er stavet helt ens, men hvor fødestedet ikke er helt det samme.

Mens det er tidskrævende at have historikere manuelt til at sammenkoble informationer, går det langt hurtigere ved hjælp af en regelbaseret computer tilgang. Ved en regelbaseret computer tilgang sammenlignes en specifik person registreret i én kilde med mulige kandidater til at være den samme person i en anden. Man udformer et sæt regler, som afgør hvor ens informationerne om en person skal være i to forskellige kilder før end, der er tale om et korrekt link.

Det er i denne forbindelse ikke nødvendigt at sammenligne personen med alle personer registreret i den anden kilde. En person ved navn Maria Jensen, som er født i Odense behøver udelukkende at blive sammenlignet med andre kvinder, som ligeledes er født i Odense. De klare regler for, hvornår der er tale om et korrekt link, gør denne tilgang systematisk og transparent, hvilket samtidig gør det let for andre forskere at kontrollere og efterprøve metoden. Tilgangen kan imidlertid kun rekonstruere nemme og umiddelbare links. Eksempler, som er mere komplicerede, hvor der for eksempel er større variationer i de registrerede oplysninger om den samme person, vil ikke kunne overholde de oplistede regler, og det potentielle link vil ikke blive accepteret af computeren.

Den tredje tilgang, som Link-Lives vil afsøge, er machine learning. Brug af machine learning til at skabe links og livsforløb fungerer på den måde, at historikere skaber et sæt af korrekte og forkerte links, som computeren bruger til at lære, hvad der udgør et korrekt og et forkert link. Den viden og erfaring, som computeren får herfra, gør den i stand til fremadrettet automatisk at finde de links, som der er størst mulig sandsynlighed for er korrekte. Dog vil machine learning tilgangen og også den regelbaserede computer tilgang misse nogle korrekte links og skabe få falske links. Historikere vil derfor gennemgå og tjekke computerens foreslåede links for at sikre kvaliteten af dem, så der fremkommer korrekte livsforløb.

Først de nemme, så de svære

Link-Lives vil altså teste og kombinere alle tre tilgange i forsøget på at skabe så mange korrekte livsforløb som muligt. Her i begyndelsen af projektet fokuserer Link-Lives på at skabe de nemme links for bagefter at gå i krig med de mere udfordrende koblinger mellem folketællinger, kirkebøger og begravelsesprotokoller.

Læs mere om metoderne her:

Steven Ruggles, Catherine A Fitch & Evan Roberts “Historical Census Record Linkage” i Annuel Review of Sociology (44:1), 2018.

Özgür Akgün, Alan Dearle, Graham Kirby, Eilidh Garreth, Tom Dalton, Peter Christen, Chris Dibben & Lee Williamson, “Linking Scottish vital event records using family groups” i Historical Methods: A Journal of Quantitative and Interdisciplinary History, (Marts, 2019).

Gunnar Thorvaldsen, Trygve Andersen & Hilde L. Sommerseth, “Record Linkage in the Historical Population Register for Norway” i Population Reconstruction af (red.) Gerrit Bloothooft et al., 2015.