Slægtsforskningen og Link-Lives

Dette har professor og projektleder Anne Løkke samt lektor og projektleder Barbara Revuelta-Eugercios givet deres bud på i en artikel hos Slægtsforskeren, som er et medlemsblad for foreningen Danske Slægtsforskere. Artiklen giver desuden et indblik i, hvad forskningsprojektet og linkningsprocessen helt konkret går ud på. Hvis du er nysgerrig på, hvordan Link-Lives skaber links og livsforløb eller gør dig tanker om, hvordan projektet kan påvirke slægtsforskningen, kan du læse artiklen herunder. Du har også mulighed for at læse den fulde artikel her.

Artiklen er gengivet med tilladelse fra medlemsbladet Slægtsforskeren.

Links, Livsforløb, slægtsforskning
Et glimt af et skærmbillede fra den kommende søgefunktion. Her ses lidt af et livsforløb, der foreløbig består af et par linkede folketællinger, der tilsammen fortæller noget om Anders Jensen, født i Nysted i 1837.

Søgefunktionen i livsforløb tager form

Søgbare livsforløb

Parallelt med at vi i Link-lives arbejder på at koble eller linke folketællinger, begravelsesprotokoller og kirkebøger, arbejder vi på at kunne præsentere de linkede kilder online for offentligheden. I første omgang i en betaversion, der dermed signalerer at både data og søgefunktion stadig er i proces.

Søgefunktionen vil give mulighed for at søge i de kilder, der kobles sammen af Link-Lives og få dem vist både individuelt og i sammenhæng med de kilder, de er linket til. Med andre ord – i livsforløb. De kilder vi arbejder med er de frit tilgængelige indtastede folketællinger og kirkebøger, samt begravelsesprotokollerne fra København.

Søgefunktionen

Søgefunktionen har været undervejs siden starten af Link-Lives projektet, idet den har været afhængig af og katalysator for en fælles dialog og forståelse af hvad et livsforløb er og ’ser ud’ på tværs af projektet. Betaversionens bygger derfor på to brugertestede prototyper, som vi har udviklet og evalueret over det sidste halvandet år.

I disse måneder tager søgefunktionen endelig form i en funktionel udgave, som vi glæder os til at vise frem.

Ønsker til søgefunktionen

Søgefunktionen bliver udviklet på baggrund af input fra forskere i historie, studerende og slægtsforskere. Det er tre grupper med mange overlappende ønsker, men også lidt forskellige.

I udviklingen af søgefunktionen har vi bl.a. arbejdet med:

  • At gøre forskellen mellem kilder og livsforløb tydelig – og gøre det let at vælge, hvad man vil se
  • At synliggøre hvordan og med hvilken metode et link er skabt og hvor sikre vi er på om et link er rigtigt
  • At gøre det enkelt at revidere sin søgning
  • At synliggøre forskellen mellem de oprindelige indtastede oplysninger og de oplysninger, der er blevet viderebearbejdet, for at kunne blive linket. Det har vi gjort for at processen fra kilde til link er gennemskuelig for de særligt interesserede.

Noget af det vi lige nu arbejder med er:

  • At gøre det muligt at søge på tværs af (endnu) flere kilder. Vi har foreløbig arbejdet med folketællinger og begravelsesprotokollerne og er nu kommet til kirkebøgerne.
  • At finde en for brugeren gennemskuelig måde at søge på tværs af kilder selvom alle søgeparametre ikke er fælles eller går på tværs af alle kilder.
  • At finde en måde at vise, hvor sikre vi er på om et link er rigtigt

Hvornår kan du søge og finde livsforløb

Vi har endnu ikke fastlagt en lanceringsdato for betaversionen af søgefunktionen, men hvis alt går vel, bliver det i løbet af efteråret 2021.

Et skærmbillede fra den kommende søgefunktion. Her har vi søgt på Anders Jensen, født i Nysted. Listen rummer både søgeresultatet fra de indtastede folketællinger, samt bud på livsforløb (linkede folktællinger), hvilket ses som de blå rækker i resultatet. Vi arbejder stadig med at forbedre både de data, der søges i og selve brugergrænsefladen til søgning.
Et skærmbillede fra den kommende søgefunktion. Her har vi søgt på Anders Jensen, født i Nysted. Listen rummer både søgeresultatet fra de indtastede folketællinger, samt bud på livsforløb (linkede folketællinger), hvilket ses som de blå rækker i resultatet. Vi arbejder stadig med at forbedre både de data, der søges i og selve brugergrænsefladen til søgning.

Livsforløb, søgning
Video Still-Billed

Video: Link-Lives. Big Data med danske kilder

Så se med her i denne video, hvor projektleder Barbara Revuelta-Eugercios fortæller om Link-Lives projektet.  

I videoen kan du høre projektleder, arkivar og forskningslektor Barbara Revuelta-Eugercios fortælle om, hvorfor vi har behov for Link-Lives, og hvilke forskningsmuligheder som Link-Lives åbner op for i fremtiden.  

Barbara Revuelta-Eugercios fortæller om Link-Lives projektet.

Videoen er på engelsk med danske undertekster.

Livsforløb
Laptop, som viser prototypens forside

Brugertest af prototype på søgning

Søgning i livsforløb testet af kommende brugere

Et livsforløb i Link-Lives er defineret som linkede eller forbundne oplysninger om den samme person i flere forskellige kilder, som fx folketællinger og kirkebøger.

Men hvordan ser et link-lives-livsforløb ud, når vi en dag skal vise det her på websitet? Og hvordan søger man i og efter livsforløb?

Med en prototype på søgefunktion og søgeresultat, er vi i Link-Lives kommet med et bud på dette.

Prototypen – dvs. en række klikbare tegninger eller skitser – virker ikke, forstået som at man kan søge rigtigt. Den er blot en tegning af, hvordan det kan komme til at virke.

Prototypen blev i februar og marts testet af repræsentanter for forskellige målgrupper. Målet med testen var at afklare, om den søgefunktion, som prototypen skitserer, er forståelig, bliver set som værdifuld og bruger ord, begreber og elementer som knapper, faneblade og websitefeatures som er brugervenlige og til at gå til.

Det var altså prototypen, der skulle testes, ikke brugerne!

Sådan lavede vi prototypen – læs om processen

Brugertestens omfang og metode

De 10 brugere var udvalgt som repræsentanter for Link-Lives største målgrupper, nemlig slægtsforskere, universitetsstuderende, samt forskere inden for historie og sundhed. 5 slægtsforskere, 3 studerende og 2 forskere deltog i testen.

Testen blev udført som en række interviews, udført af forskellige deltagere i Link-Lives efter en fælles spørgeguide, for at sikre sammenlignelighed. Et interview tog omkring tre kvarter og blev udført som en såkaldt tænke-højt-test.

Tænke højt test går kort fortalt ud på at stille nysgerrige og ikke ledende spørgsmål og primært spørge ind til hvad brugeren forventer at se, inden der klikkes og hvad brugen forstår ved det, vedkommende ser. Det handler om at lade brugeren forklare med sin egne ord, hvad elementerne på skærmen er, betyder og kan bruges til.

Brugertestens vigtigste resultater – først det positive

Testen viste, at prototypen overordnet skitserer en søgefunktion og en visning af et søgeresultat, som brugerne fandt attraktiv og glædede sig til at kunne anvende. Prototypen anvender også ord og begreber, som overvejende forstås i tråd med det, vi fra projektet har ment med dem. Ved klik rundt i prototypen fandt de fleste af brugerne sider, oversigter og muligheder for interaktion, som de kunne afkode og umiddelbart anvende. Når en bruger blev spurgt om, hvad de forventede, der ville ske, hvis de klikkede på X, var det i de fleste tilfælde det, der skete. Og sådan skal det gerne være.

Derudover gav testen en lang række små og store forbedringsforslag og vigtige pejlemærker for, hvad der er vigtigt, og hvad vi skal prioritere, finpudse og justere. Listen er lang og detaljeret og utrolig værdifuld for det videre arbejde med søgningen.

Så det negative

Det forvirrede testpersonerne, at de eksempler på data, der optræder i prototypen, ikke var rigtige data, men eksempler, der desværre ikke altid gav mening, når man er erfaren inden for brug af historiske kilder.

Når man navigerer rundt i en søgefunktion, bruges de data man søger i, til at afkode, om søgeresultatet viser det, man forventede at se. Og da eksemplerne ikke var historisk korrekte, som fx en persons konfirmation dateret samme år som samme persons dåb, forvirrede det i et omfang, som ledte til flere misforståelser.

Hvad sker der nu?

Testen har vist, at de greb, som prototypen overordnet gør brug af, er fornuftige og til at forstå. Dem vil vi derfor gå videre med, dog med en række af de justeringer og tilpasninger, som testen også afslørede, er nødvendige.

De dårligt udformede dataeksempler i prototypen giver dog brugertesten en mindre svaghed, som gør at vi ikke som først planlagt justerer denne prototype og tester den tilrettede version igen. I stedet vil næste prototype, som vi tester, være en ekstrem tidlig udgave at den søgning, der en dag ender med at blive den rigtige.

På den måde sikrer vi, at de data, vi tester med, ikke er hverken bedre eller dårligere end de data, den endelige søgning skal formidle, og derfor ikke kan blive en fejlkilde. På den måde kan næste test i endnu højere grad stille skarpt på brugergrænsefladens detaljer – altså knapper, felter, elementer og funktioner på websitet.

Stor tak fra Link-Lives til de 10 brugere, der deltog i testen!

Brugertest, Livsforløb, søgning
Stemningsbillede fra workshop om præsentation af livsforløb på web

Hvordan viser man et livsforløb?

Livsforløb som prototype

Et livsforløb i Link-Lives er defineret som linkede eller forbundne oplysninger om den samme person i flere forskellige kilder, som fx folketællinger og kirkebøger.

Men hvordan ser et link-lives-livsforløb ud, når vi en dag skal vise det her på websitet? Og hvordan søger man i og efter livsforløb? Hvordan ser søgeresultatet ud? Og hvordan viser vi, hvordan et livsforløb er forbundet og af hvilke kilder?

Det er nogle af de spørgsmål, vi har drøftet i Link-Lives i løbet af november og december. Resultatet af drøftelserne er bl.a. en prototype – dvs. en række klikbare tegninger eller skitser – der fastholder vores ideer. Prototypen skal nu testes af forskellige målgrupper.

Workshops og fælles forståelse

Det gode, men samtidig svære, ved at snakke om, hvad der skal vises på et website, er, at det tvinger en til at være meget konkret. Og når man bliver konkret, bliver det også tydeligt, om man snakker om det samme, har en fælles forståelse og ser det samme for sig.

For at få samlet så meget input – og skabt en så bred fælles forståelse som muligt – havde vi allieret os med en interaktionsdesigner fra firmaet 1508 A/S, samt inviteret så mange af projektets deltagere som muligt til workshop.

Det blev en spændende dag, hvor vi fik snakket om søgebehov, visning, ønsker og drømme, alt imens vi tegnede og forklarede vores ideer over for hinanden.

Efter workshoppen blev de mange ideer kondenseret ned til en håndtegnet prototype, som vi siden har evalueret og kvalificeret flere gange.

Smagsprøve fra den første håndtegnede prototype eller skitse, der blev tegnet efter workshoppen. Her ses en liste med søgeresultater.

Det er svært I: Linkningsmetode

Noget af det, som er udfordrende, er, hvordan og i hvilket omfang søgningen skal tydeliggøre processen omkring, hvordan livsforløbet er skabt og på baggrund af hvilke kilder.

På den ene side, vil vi nemlig gerne gøre søgningen intuitiv og let at forstå for alle, der gerne vil søge efter historiske personer, fx i deres egen slægt.

På den anden side vil vi gerne gøre det tydeligt, at et livsforløb er en konstrueret størrelse, der baserer sig på at forskellige informationer fra forskellige kilder, som er blevet sammenlignet og forbundet ved hjælp af forskellige linkningsmetoder og af forskerteamet bag Link-Lives.

Det er svært II: Navngivning

Hvad kalder vi på websitet de forskellige begreber, metoder og elementer, som udgør et livsforløb?

Hvis vi bruger ord, som er velkendte af alle, kan det let fortabe sig, at der i Link-Lives menes noget meget specifikt med ordet.

Tag fx ordet livsforløb: I daglig tale er det ikke Link-Lives’ definition, nemlig linkede eller forbundne oplysninger om den samme person i flere forskellige kilder, som fx folketællinger og kirkebøger, som man først tænker på. Kan ordet livsforløb stadig bruges? Ja, det tror vi.

Et af de elementer, som vi fx har svært ved at finde det rigtige ord for, er de oplysninger en frivillig har indtastet om en enkelt person fra fx en kirkebog. Det kan fx være oplysningerne om en mor til et barn, der er blevet døbt. Person appearance er det ord, som bruges internt i projektet, når vi arbejder med data. Men det er engelsk og ikke særlig mundret og derfor ikke velegnet til websitet.

I prototypen hedder det pt. indtastede kilder. Men om det er den rigtige betegnelse, må tiden – og brugertest – vise.

Smagsprøve fra den anden udgave af prototypen. Navngivning er blevet ændret. Selvom stregerne nu er digitalt tegnede er det stadig blot en skitse, der viser nogle elementer. Prototypen virker ikke, man kan ikke søge i rigtige data, og visuelt er der ikke tænkt over hverken farver, former, skrift eller design generelt.

Brugertest og datagenerering

Over de kommende måneder vil prototypen bliver testet på udvalgte testpersoner. Herefter vil den blive ændret igen. Samtidig knokles der for at generere de data, som der skal søges i. Efterhånden som data generes skal prototypen sikkert ændres igen, fordi nye muligheder, begrænsninger eller behov viser sig.

Til sidst vil prototypen danne grundlag for den søgefunktion som it-udviklere vil implementere på link-lives.dk. En betaversion kan forventes online inden udgangen af 2020.

Livsforløb, søgning
Niels Nielsens livsforløb

Mød Niels Nielsen – det første automatisk skabte minilivsforløb

Mød Niels Nielsen

Niels Nielsen blev født i Solbjerg sogn, Aalborg amt. Han boede i folketællingerne fra 1845, 1850 og 1860 i nabosognet Visborg, Aalborg amt, sammen med sin familie. Første gang, vi møder ham i folketællingen fra 1845, er han 40 år gammel, i 1850 44 år og i 1860 54 år. Niels er derfor sandsynligvis blevet født omkring 1805/1806. I 1845 og 1850 arbejdede han som træskomand, mens han ti år senere i 1860 arbejdede som daglejer.

Niels Nielsens og Marens Jensdatters husstand i 1845. Udsnit af folketællingen for Visborg sogn, 1845.

Gennem Niels Nielsens minilivsforløb fra folketællingerne får vi imidlertid ikke kun viden om ham, og hvor han boede, men også hans familie. Niels Nielsen var gift med den fem år yngre kvinde Maren Jensdatter (i 1860 noteret som Jensen), født i Gjøl sogn, Hjørring Amt. Sammen havde de henover årene børnene Jens, Elsine, Nicoline, Niels Peter, Jens Christian og Niels Peter boende hos sig. Forældreparret valgte altså, at navngive to af deres børn det samme, nemlig Niels Peter. Alle børn blev født i Visborg sogn. I folketællingen fra 1850 boede Niels’ far, ligeså kaldet Niels Nielsen, på 88 år også sammen med familien. Niels Nielsen senior blev i folketællingen betegnet som fattiglem.

Link-Lives’ første automatisk skabte livsforløb

Niels Nielsens livsforløb er skabt automatisk af en computer og ikke ved, at en historiker har sammenlignet informationerne i de tre folketællinger. Det kan lade sig gøre gennem en regelbaseret computertilgang, hvor computeren sammenligner personers navn, fødested, alder, osv. For et par måneder siden begyndte Link-Lives netop at tage de første spæde skridt til at arbejde med denne tilgang. Det har nu resulteret i den første test – og Niels Nielsen.

Metoden er regelbaseret, fordi Link-Lives opstiller en række regler, som afgør, hvornår et sæt oplysninger fra to folketællinger kan udgøre et link. Projektleder Barbara Revuelta-Eugercios har i samarbejde med IT-specialist Nicolai Rask Mathiesen udformet reglerne for den første test. Ud fra reglerne har Mathiesen skabt en basal algoritme, der automatisk skaber links mellem to folketællinger. Reglerne betinger, at der kun må være en minimal forskel mellem de samme informationer i to folketællinger.

Reglerne er:

  • For- og efternavn skal være næsten identisk
  • Fødesogn og –amt skal være næsten identisk
  • Personen skal have samme køn
  • Der må højst være en forskel i alder på +/- 2 år i forhold til intervallet mellem to folketællinger. Det vil sige, at en person, som i 1850 er 30 år gammel, må i folketællingen fra 1860 være registreret som mellem 38-42 år.
  • Og sidst, men ikke mindst accepteres et link kun, hvis der efter anvendelsen af de ovenstående regler alene fremkommer ét muligt link med en kvalitet over en vis grænse. Hvis der er flere potentielle kandidater, afvises linket.

Konservative regler

Reglerne, som Link-Lives har brugt til den første test, er få og meget konservative. Det betyder, at mange links ikke bliver fundet af computeren, fordi den vil finde flere mulige kandidater til en person og forkaste linket. Vores første test fandt frem til et sandsynligt link for ca. 20-30% af registrerede personer i de tre folketællinger fra årene 1845, 1850 og 1860.

Henover de næste år arbejder vi derfor videre med denne tilgang for at øge antallet af sandsynlige links, som computeren automatisk kan finde. Det gør vi ved at tilføje flere og mere komplekse regler, som computeren skal tage højde for. Det kan for eksempel være en persons civilstand, eller om personen i folketællingen har relationer til andre i den samme husstand. Vi vil også inddrage andre kilder som kirkebøger og begravelsesprotokoller i vores kommende tests.

En ting er sikkert. Niels Nielsen blev det første livsforløb, computeren fandt frem til, men ikke det sidste.


Livsforløb, Metode

Fra få til mange livsforløb

Når vi i forskningsregi skaber livsforløb, sker det på baggrund af matchende personlige oplysninger i kilderne som for- og efternavn, fødested og fødselsdato eller alder.

Årsagen til, at vi udelukkende benytter de mest basale personlige informationer, er, at hvis vi systematisk inddrager for eksempel folks bopæl, vil der være en tilbøjelighed til, at de skabte livsforløb hovedsageligt vil repræsentere de personer, der gennem hele livet blev bosiddende det samme sted. Livsforløbene for de mange danskere, der flyttede rundt gennem tilværelsen, vil derimod ikke blive rekonstrueret. Vi ville således ende op med en historisk befolkning, som var meget lidt mobil, hvilket ikke er en korrekt repræsentation af 1800-tallets danskere. Det betyder naturligvis ikke, at vi ser helt bort fra informationer som bopæl, erhverv og familieforbindelser, men i forbindelse med koblingen af links er det vigtigt at tydeliggøre hvilke informationer, som ligger til grund for linket.

Det som adskiller Link-Lives fra, hvordan historikere eller slægtsforskere for den sags skyld traditionelt kobler informationer om den samme person, er gennem vores tilgang til at rekonstruere livsforløb. I løbet af de kommende år skal vi forske i og afprøve kombinationen af tre tilgange til at skabe links og livsforløb, som i dag benyttes inden for historisk demografisk forskning. Målet er at bruge disse tre tilgange til at opnå flest mulige korrekte links og livsforløb. De tre tilgange er: manuel kobling, en regelbaseret computer tilgang og machine learning.

Tre forskellige tilgange

Uddannede historikere eller andre uddannede akademikere skaber livsforløb manuelt ved at sammenholde informationer om en person i én kilde med informationerne i en anden. De kan med det samme bekræfte, om det er den rigtige person, der er tale om. De skabte livsforløb har derfor en meget høj kvalitet.

Desværre er denne tilgang utrolig tidskrævende. Samtidig er der også den udfordring, at det i et forskningsperspektiv er meget svært for andre forskere senere hen at rekonstruere den helt samme måde at skabe de samme livsforløb på. Langt de fleste skabte livsforløb vil forskerne være enige om, men hvis der ikke er meget klare regler for, hvornår et link betragtes som korrekt, kan forskerne lægge større eller mindre vægt på hvilke informationer, der afgør om et link er korrekt eller ej i en given situation. Én forsker kan for eksempel lægge større vægt på, at fødestedet matcher og acceptere en lidt større variation i stavemåden af navnet, mens en anden måske vil lægge vægt på, at navnet er stavet helt ens, men hvor fødestedet ikke er helt det samme.

Mens det er tidskrævende at have historikere manuelt til at sammenkoble informationer, går det langt hurtigere ved hjælp af en regelbaseret computer tilgang. Ved en regelbaseret computer tilgang sammenlignes en specifik person registreret i én kilde med mulige kandidater til at være den samme person i en anden. Man udformer et sæt regler, som afgør hvor ens informationerne om en person skal være i to forskellige kilder før end, der er tale om et korrekt link.

Det er i denne forbindelse ikke nødvendigt at sammenligne personen med alle personer registreret i den anden kilde. En person ved navn Maria Jensen, som er født i Odense behøver udelukkende at blive sammenlignet med andre kvinder, som ligeledes er født i Odense. De klare regler for, hvornår der er tale om et korrekt link, gør denne tilgang systematisk og transparent, hvilket samtidig gør det let for andre forskere at kontrollere og efterprøve metoden. Tilgangen kan imidlertid kun rekonstruere nemme og umiddelbare links. Eksempler, som er mere komplicerede, hvor der for eksempel er større variationer i de registrerede oplysninger om den samme person, vil ikke kunne overholde de oplistede regler, og det potentielle link vil ikke blive accepteret af computeren.

Den tredje tilgang, som Link-Lives vil afsøge, er machine learning. Brug af machine learning til at skabe links og livsforløb fungerer på den måde, at historikere skaber et sæt af korrekte og forkerte links, som computeren bruger til at lære, hvad der udgør et korrekt og et forkert link. Den viden og erfaring, som computeren får herfra, gør den i stand til fremadrettet automatisk at finde de links, som der er størst mulig sandsynlighed for er korrekte. Dog vil machine learning tilgangen og også den regelbaserede computer tilgang misse nogle korrekte links og skabe få falske links. Historikere vil derfor gennemgå og tjekke computerens foreslåede links for at sikre kvaliteten af dem, så der fremkommer korrekte livsforløb.

Først de nemme, så de svære

Link-Lives vil altså teste og kombinere alle tre tilgange i forsøget på at skabe så mange korrekte livsforløb som muligt. Her i begyndelsen af projektet fokuserer Link-Lives på at skabe de nemme links for bagefter at gå i krig med de mere udfordrende koblinger mellem folketællinger, kirkebøger og begravelsesprotokoller.

Læs mere om metoderne her:

Steven Ruggles, Catherine A Fitch & Evan Roberts “Historical Census Record Linkage” i Annuel Review of Sociology (44:1), 2018.

Özgür Akgün, Alan Dearle, Graham Kirby, Eilidh Garreth, Tom Dalton, Peter Christen, Chris Dibben & Lee Williamson, “Linking Scottish vital event records using family groups” i Historical Methods: A Journal of Quantitative and Interdisciplinary History, (Marts, 2019).

Gunnar Thorvaldsen, Trygve Andersen & Hilde L. Sommerseth, “Record Linkage in the Historical Population Register for Norway” i Population Reconstruction af (red.) Gerrit Bloothooft et al., 2015.

Livsforløb, Metode