Ved at fodre en computer med manuelt skabte links kan den lære at efterligne menneskers linkningsmetoder og skabe rigtig mange links.
Ved at fodre en computer med manuelt skabte links kan den lære at efterligne menneskers linkningsmetoder og skabe rigtig mange links.
3 minutter

Linky Crush, træningsdata og manuelle links

Linking School, hjælpsomme kolleger og Candy Crush for kildenørder. Link-Lives er begyndt at skabe manuelle links til brug som træningsdata.

Manuelle links

Link-Lives arbejder med at få maskinerne til at skabe historiske livsforløb ved at sammenkæde – eller linke – personoplysninger fra folketællinger, kirkebøger og begravelsesprotokoller. Men for at lære maskinerne den vanskelige kunst at genfinde den samme person i forskellige 1800-talskilder er det nødvendigt at lave en masse af disse links mellem kilderne manuelt. Her mener vi ikke ”manuelt” forstået som med papir og blyant, men ”manuelt” forstået som at der står en menneskelig beslutning bag hvert enkelt link.

Linking school

Link-Lives begyndte derfor tilbage i marts at skabe manuelle links. Link-Lives organiserede en Linking School, hvor alle aspiranter blev trænet i at linke og gennem feedback blev uddannet som linkere. Link-Lives har i denne forbindelse haft stor glæde af, at en række kollegaer fra Rigsarkivet meldte sig som linkere, imens de var hjemsendt på grund af covid-19.

Linky Crush

Link-Lives skaber links gennem et lille program, som vi selv har skabt. Programmet hedder ALA, som står for Assisted Linking Application. Internt i Link-Lives kaldes det manuelle linkningsredskab dog for ”Linky Crush”, fordi vi synes, det er megasjovt at linke personer. En linker har for eksempel kommenteret: ”Man bliver bidt af det. Kan godt bande højt, når man ikke kan finde en person, for derefter at blive begejstret, når det lykkes.”

Når Link-Lives har lavet tusinder af disse arbejdskraftkrævende ”ekspertlinks”, bruges de som træningsdata til at lære maskinerne, hvordan man linker. Derefter kan maskinerne lave millioner af links ved at kopiere vores metoder.

Links med høj kvalitet

Det tager lang tid at lave tusinder af links af høj kvalitet. Hvert sogn linkes af to personer. Hvis de to linkere er uenige om et link, beslutter en tredje linker, hvilket link der tages. På den måde kan vi kvalitetssikre vores data. Efter to måneder med Linky Crush har vi indtil videre skabt over 12.000 links af høj kvalitet. Men machine learning kræver en masse træningsdata, så vi er ikke nået i mål endnu og linker videre.

Linkning frem til nu

  • Hvilke folketællingsårgange linker vi? Lige nu er det 1860 → 1850 og 1850 → 1845
  • Hvilke sogne? 33 landsogne i hele Danmark, købstaden Ebeltoft og stikprøver i Odense.
  • Hvordan linker vi? Vi tager et helt sogn og prøver at finde alle i den foregående folketælling (1860 → 1850)
  • Hvor meget kan vi linke? 75-92% af de potentielle links med et gennemsnit på 85% (det vil sige fraregnet dem, der var født imellem de to folketællinger)
  • Hvor mange links er to øvede linkere enige om? 85-90%
  • Hvem har lavet ALA (aka. Linky Crush)? Arkivar, seniorforsker Asbjørn R. Thomsen og IT-specialist Nicolai Rask Mathiesen har designet og kodet i Python/Kivy og studentermedhjælper Evangelia Miariti bidrager til udviklingen.