Niels Nielsens livsforløb

Mød Niels Nielsen – det første automatisk skabte minilivsforløb

Mød Niels Nielsen

Niels Nielsen blev født i Solbjerg sogn, Aalborg amt. Han boede i folketællingerne fra 1845, 1850 og 1860 i nabosognet Visborg, Aalborg amt, sammen med sin familie. Første gang, vi møder ham i folketællingen fra 1845, er han 40 år gammel, i 1850 44 år og i 1860 54 år. Niels er derfor sandsynligvis blevet født omkring 1805/1806. I 1845 og 1850 arbejdede han som træskomand, mens han ti år senere i 1860 arbejdede som daglejer.

Niels Nielsens og Marens Jensdatters husstand i 1845. Udsnit af folketællingen for Visborg sogn, 1845.

Gennem Niels Nielsens minilivsforløb fra folketællingerne får vi imidlertid ikke kun viden om ham, og hvor han boede, men også hans familie. Niels Nielsen var gift med den fem år yngre kvinde Maren Jensdatter (i 1860 noteret som Jensen), født i Gjøl sogn, Hjørring Amt. Sammen havde de henover årene børnene Jens, Elsine, Nicoline, Niels Peter, Jens Christian og Niels Peter boende hos sig. Forældreparret valgte altså, at navngive to af deres børn det samme, nemlig Niels Peter. Alle børn blev født i Visborg sogn. I folketællingen fra 1850 boede Niels’ far, ligeså kaldet Niels Nielsen, på 88 år også sammen med familien. Niels Nielsen senior blev i folketællingen betegnet som fattiglem.

Link-Lives’ første automatisk skabte livsforløb

Niels Nielsens livsforløb er skabt automatisk af en computer og ikke ved, at en historiker har sammenlignet informationerne i de tre folketællinger. Det kan lade sig gøre gennem en regelbaseret computertilgang, hvor computeren sammenligner personers navn, fødested, alder, osv. For et par måneder siden begyndte Link-Lives netop at tage de første spæde skridt til at arbejde med denne tilgang. Det har nu resulteret i den første test – og Niels Nielsen.

Metoden er regelbaseret, fordi Link-Lives opstiller en række regler, som afgør, hvornår et sæt oplysninger fra to folketællinger kan udgøre et link. Projektleder Barbara Revuelta-Eugercios har i samarbejde med IT-specialist Nicolai Rask Mathiesen udformet reglerne for den første test. Ud fra reglerne har Mathiesen skabt en basal algoritme, der automatisk skaber links mellem to folketællinger. Reglerne betinger, at der kun må være en minimal forskel mellem de samme informationer i to folketællinger.

Reglerne er:

  • For- og efternavn skal være næsten identisk
  • Fødesogn og –amt skal være næsten identisk
  • Personen skal have samme køn
  • Der må højst være en forskel i alder på +/- 2 år i forhold til intervallet mellem to folketællinger. Det vil sige, at en person, som i 1850 er 30 år gammel, må i folketællingen fra 1860 være registreret som mellem 38-42 år.
  • Og sidst, men ikke mindst accepteres et link kun, hvis der efter anvendelsen af de ovenstående regler alene fremkommer ét muligt link med en kvalitet over en vis grænse. Hvis der er flere potentielle kandidater, afvises linket.

Konservative regler

Reglerne, som Link-Lives har brugt til den første test, er få og meget konservative. Det betyder, at mange links ikke bliver fundet af computeren, fordi den vil finde flere mulige kandidater til en person og forkaste linket. Vores første test fandt frem til et sandsynligt link for ca. 20-30% af registrerede personer i de tre folketællinger fra årene 1845, 1850 og 1860.

Henover de næste år arbejder vi derfor videre med denne tilgang for at øge antallet af sandsynlige links, som computeren automatisk kan finde. Det gør vi ved at tilføje flere og mere komplekse regler, som computeren skal tage højde for. Det kan for eksempel være en persons civilstand, eller om personen i folketællingen har relationer til andre i den samme husstand. Vi vil også inddrage andre kilder som kirkebøger og begravelsesprotokoller i vores kommende tests.

En ting er sikkert. Niels Nielsen blev det første livsforløb, computeren fandt frem til, men ikke det sidste.


Livsforløb, Metode

Fra få til mange livsforløb

Når vi i forskningsregi skaber livsforløb, sker det på baggrund af matchende personlige oplysninger i kilderne som for- og efternavn, fødested og fødselsdato eller alder.

Årsagen til, at vi udelukkende benytter de mest basale personlige informationer, er, at hvis vi systematisk inddrager for eksempel folks bopæl, vil der være en tilbøjelighed til, at de skabte livsforløb hovedsageligt vil repræsentere de personer, der gennem hele livet blev bosiddende det samme sted. Livsforløbene for de mange danskere, der flyttede rundt gennem tilværelsen, vil derimod ikke blive rekonstrueret. Vi ville således ende op med en historisk befolkning, som var meget lidt mobil, hvilket ikke er en korrekt repræsentation af 1800-tallets danskere. Det betyder naturligvis ikke, at vi ser helt bort fra informationer som bopæl, erhverv og familieforbindelser, men i forbindelse med koblingen af links er det vigtigt at tydeliggøre hvilke informationer, som ligger til grund for linket.

Det som adskiller Link-Lives fra, hvordan historikere eller slægtsforskere for den sags skyld traditionelt kobler informationer om den samme person, er gennem vores tilgang til at rekonstruere livsforløb. I løbet af de kommende år skal vi forske i og afprøve kombinationen af tre tilgange til at skabe links og livsforløb, som i dag benyttes inden for historisk demografisk forskning. Målet er at bruge disse tre tilgange til at opnå flest mulige korrekte links og livsforløb. De tre tilgange er: manuel kobling, en regelbaseret computer tilgang og machine learning.

Tre forskellige tilgange

Uddannede historikere eller andre uddannede akademikere skaber livsforløb manuelt ved at sammenholde informationer om en person i én kilde med informationerne i en anden. De kan med det samme bekræfte, om det er den rigtige person, der er tale om. De skabte livsforløb har derfor en meget høj kvalitet.

Desværre er denne tilgang utrolig tidskrævende. Samtidig er der også den udfordring, at det i et forskningsperspektiv er meget svært for andre forskere senere hen at rekonstruere den helt samme måde at skabe de samme livsforløb på. Langt de fleste skabte livsforløb vil forskerne være enige om, men hvis der ikke er meget klare regler for, hvornår et link betragtes som korrekt, kan forskerne lægge større eller mindre vægt på hvilke informationer, der afgør om et link er korrekt eller ej i en given situation. Én forsker kan for eksempel lægge større vægt på, at fødestedet matcher og acceptere en lidt større variation i stavemåden af navnet, mens en anden måske vil lægge vægt på, at navnet er stavet helt ens, men hvor fødestedet ikke er helt det samme.

Mens det er tidskrævende at have historikere manuelt til at sammenkoble informationer, går det langt hurtigere ved hjælp af en regelbaseret computer tilgang. Ved en regelbaseret computer tilgang sammenlignes en specifik person registreret i én kilde med mulige kandidater til at være den samme person i en anden. Man udformer et sæt regler, som afgør hvor ens informationerne om en person skal være i to forskellige kilder før end, der er tale om et korrekt link.

Det er i denne forbindelse ikke nødvendigt at sammenligne personen med alle personer registreret i den anden kilde. En person ved navn Maria Jensen, som er født i Odense behøver udelukkende at blive sammenlignet med andre kvinder, som ligeledes er født i Odense. De klare regler for, hvornår der er tale om et korrekt link, gør denne tilgang systematisk og transparent, hvilket samtidig gør det let for andre forskere at kontrollere og efterprøve metoden. Tilgangen kan imidlertid kun rekonstruere nemme og umiddelbare links. Eksempler, som er mere komplicerede, hvor der for eksempel er større variationer i de registrerede oplysninger om den samme person, vil ikke kunne overholde de oplistede regler, og det potentielle link vil ikke blive accepteret af computeren.

Den tredje tilgang, som Link-Lives vil afsøge, er machine learning. Brug af machine learning til at skabe links og livsforløb fungerer på den måde, at historikere skaber et sæt af korrekte og forkerte links, som computeren bruger til at lære, hvad der udgør et korrekt og et forkert link. Den viden og erfaring, som computeren får herfra, gør den i stand til fremadrettet automatisk at finde de links, som der er størst mulig sandsynlighed for er korrekte. Dog vil machine learning tilgangen og også den regelbaserede computer tilgang misse nogle korrekte links og skabe få falske links. Historikere vil derfor gennemgå og tjekke computerens foreslåede links for at sikre kvaliteten af dem, så der fremkommer korrekte livsforløb.

Først de nemme, så de svære

Link-Lives vil altså teste og kombinere alle tre tilgange i forsøget på at skabe så mange korrekte livsforløb som muligt. Her i begyndelsen af projektet fokuserer Link-Lives på at skabe de nemme links for bagefter at gå i krig med de mere udfordrende koblinger mellem folketællinger, kirkebøger og begravelsesprotokoller.

Læs mere om metoderne her:

Steven Ruggles, Catherine A Fitch & Evan Roberts “Historical Census Record Linkage” i Annuel Review of Sociology (44:1), 2018.

Özgür Akgün, Alan Dearle, Graham Kirby, Eilidh Garreth, Tom Dalton, Peter Christen, Chris Dibben & Lee Williamson, “Linking Scottish vital event records using family groups” i Historical Methods: A Journal of Quantitative and Interdisciplinary History, (Marts, 2019).

Gunnar Thorvaldsen, Trygve Andersen & Hilde L. Sommerseth, “Record Linkage in the Historical Population Register for Norway” i Population Reconstruction af (red.) Gerrit Bloothooft et al., 2015.

Livsforløb, Metode