Deltagere ved Link-Lives Årsseminar 2021. Foto: Gunner Lind

Årsseminar i Link-Lives

Mandag den 27. september samledes alle Link-Lives deltagere for første gang på samme lokalitet siden Coronaepidemiens udbrud. Det var en dag med spændende oplæg om hvad projektet har opnået og dets fremtidsplaner.

Siden sidste årsseminar i februar 2020 har projektet nået en lang række mål, til trods for nedlukningen og hjemmearbejde.

Besøg fra Skotland

Dagen indledtes af Chris Dibben, professor i geografi fra University of Edinburgh, der fortalte om projektet Digitising Scotland. Chris gav interessante perspektiver på hvad digitalisering kan tilføre forskningen.

Ved brug af machine learning har projektet i Skotland bl.a. overført gamle bykort til moderne kort. På den måde har forskere kunnet drage vigtige konklusioner om bebyggelsestæthed i starten af det 20. århundrede og dennes sammenhæng med luftforurening og sygdomme. Bagefter fulgte en interessant diskussion af, hvad Link-Lives kan tage med fra den skotske forskning, og vice versa.

Chris Dibben præsenterer projektet Digitising Scotland. Foto: Gunnar Lind
Chris Dibben præsenterer projektet Digitising Scotland. Foto: Gunner Lind

Lancering af søgefunktion i 2022

Til forrige årsseminar i 2020 fortalte arkivar ved Københavns Stadsarkiv Signe Trolle Gronemann om udviklingen af en beta-søgefunktion, hvor livsforløb bliver søgbare for alle danskere.

Signes præsentation ved dette årsseminar viste, at arbejdet er nået meget langt siden sidst. Efter at forskellige brugergrupper har testet hjemmesiden kan vi konkludere, at siden fungerer godt, sagde Signe. Nu mangler der kun nogle justeringer før siden kan lanceres i 2022.

Signe Trolle Groneman fra Københavns Stadsarkiv præsenterer hjemmesiden, hvor man vil kunne søge i danskernes livsforløb. Foto: Gunnar Lind
Signe Trolle Groneman fra Københavns Stadsarkiv præsenterer hjemmesiden, hvor man vil kunne søge i danskernes livsforløb. Foto: Gunner Lind

Supervised vs. unsupervised machine learning

IT-specialist Nicolai Rask Mathiesen og ph.d.-stipendiat Roc Reguant præsenterede to forskellige machine learning-metoder. Machine learning betyder kort fortalt, at man oplærer et computerprogram til for eksempel, i vores tilfælde, at kende forskel på links og ikke-links.

De foreløbige testresultater tyder på, at denne metode faktisk kan blive lige så dygtig som de historikere, der har lavet træningslinkene.

Hidtil har Link-Lives arbejdet med at bruge manuelle links som træningsdata til computerprogrammet. Eftersom manuel linking kræver ekspertkapacitet og tager lang tid, er det nødvendigt at supplere med machine learning, hvis vi skal kunne linke alle danske borgere fra 1768 og fremefter.

Roc Reguant har som en del af sit ph.d.-projekt eksperimenteret med en anden metode kaldet unsupervised machine learning. Ved denne metode kan man bygge en algoritme til, på egen hånd, at opfange de relevante forskelle og ligheder i data, der gør det muligt at lave links.

Denne metode vil altså kunne linke personforekomster imellem de forskellige kilder, uden brug af menneskeskabte træningslinks. Man har dog stadig brug for historikere og andre eksperter. Deres links skal bruges til at teste, hvor god algoritmen er til at efterligne vores beslutninger.

Rocs oplæg førte til livlig diskussion om muligheder og begrænsninger ved de to metoder. Hvis de to metoder kan bruges i samspil, kan projektet blive endnu mere effektivt.   

Dagens afslutning

Ved udgangen af dagen var alle seminarets deltagere beriget med ny eller opdateret viden inden for de mange aspekter af projektet. En viden som blev taget med videre til refleksion og diskussion ved en uformel middag, der dannede rammen om seminarets afsluttende timer.

Deltagere ved Link-Lives Årsseminar 2021. Foto: Gunnar Lind
Deltagere ved Link-Lives Årsseminar 2021. Foto: Gunner Lind

Årsseminar, Digitising Scotland, KB34
Deltagere til Link-Lives årsseminar opstillet i Harsdorffsalen på Rigsarkivet

De kom fra nær og fjern

En dag med resultater, inspiration og fremtidsplaner

Deltagerne i Link-Lives kom fra nær og fjern og mødtes i Harsdorffsalen på Rigsarkivet i København til en inspirerende eftermiddag med oplæg og diskussion. Deltagerne blev budt velkommen af projektlederne professor Anne Løkke og arkivar og forskningslektor Barbara Revuelta-Eugercios. Efterfølgende havde vi på seminaret lejlighed til at gøre status på det forgangne år og rette blikket mod udviklingen af projektet fremadrettet.

Her følger et lille uddrag af nogle af de indslag, som seminaret bød på.

Algoritmer og træningsdata

På seminaret fortalte IT-specialist Nicolai Rask Mathisen om det forgangne års skabelse og test af algoritmer til at skabe links og livsforløb. Han kom ind på, at de første test resulterede i 25-30% links mellem folketællingerne fra 1845-1860 ved hjælp af en regelbaseret linkningsmetode. Det resulterede bl.a. i et mini-livsforløb for daglejer og træskomand Niels Nielsen.

Nicolai forklarede videre, hvordan han efterfølgende havde forbedret algoritmens genkendelse af en persons køn. En del personer er nemlig ikke registreret med et køn i de transskriberede folketællinger, men kendskab til kønnet er nødvendigt for lettere at skabe automatiske links. Med denne forbedring af algoritmen steg antallet af links til 30-35%.

I 2020 fortsætter Link-Lives med at videreudvikle algoritmerne og teste brugen af machine learning til at skabe links. Det kræver bl.a. træningsdata i form af manuelt skabte links. I denne forbindelse præsenterede arkivar Asbjørn Thomsen det forestående arbejde med at skabe manuelle links, og hvordan vi kan gribe det an. Det er Link-Lives’ ambition at skabe minimum 10.000 manuelle links på tværs af folketællinger, kirkebøger og begravelsesprotokoller inden årets udgang.

Arkivar Asbjørn Thomsen fortæller forestående arbejde med at skabe manuelle links.
Arkivar Asbjørn Thomsen fortæller om det forestående arbejde med at skabe manuelle links. Foto: Gunner Lind

Hjemmeside og beta-søgefunktion

På seminaret fortalte arkivar Signe Trolle Gronemann om tilblivelsen af hjemmesiden link-lives.dk og arbejdet med at skabe en beta-søgefunktion i livsforløb. Signe gennemgik arbejdet med at udforme en visuel skitse og prototype til at søge i livsforløb. Hun fortalte også, at Link-Lives var i gang med at inddrage forskellige brugergrupper til at teste den visuelle prototype. Med erfaringerne fra brugerne kan Link-Lives videreudvikle skitsen til en fungerende prototype i 2020.

Muligheden for at alle danskere senere kan søge i livsforløb på link-lives.dk, kan kun ske med en sikker og stabil digital infrastruktur bagved. På seminaret gjorde IT-arkivar Bo Henriksen os netop klogere på Link-Lives’ hidtidige arbejde med at skabe og implementere en digital infrastruktur på hjemmesiden – og et indblik i det videre arbejde med implementeringen i 2020.

Besøg udefra

På seminaret fik vi også besøg udefra af forskningsdirektør Elisabeth Engberg fra den svenske forskningsenhed CEDAR (Center for Demographic and Ageing Research) ved Umeå Universitet. Hun delte ud af CEDAR’s erfaringer med, hvordan de siden 1970’erne har digitaliseret og linket historiske personer på tværs af kilder. Det var meget inspirerende at høre om deres arbejde og tilgang. Hendes oplæg illustrerede for os, hvor stort et potentiale historiske befolkningsdatabaser rummer for forskning.

Årsseminar, CEDAR