Behandlingen af personnavne og fødesteder

Personnavne

I de linkede livsløb kan det nogle gange se mærkeligt ud, når to personregistreringer er koblet sammen, selv om navnene ikke umiddelbart ligner hinanden. Men faktisk har sådan nogle tilfælde meget ofte en logisk forklaring, som bare er svær at gennemskue, hvis man ikke kender de metoder, vi bruger til at gøre de indtastede data klar til maskinel linkning. Derfor forklarer vi processen her.

Læs mere om maskinelle linkningsmetoder

Bemærk dog, at et konkret link godt kan være forkert, selv om vi kan forklare logikken bag det: Logik og korrekthed følges ikke per definition ad, selv om vi selvfølgelig forsøger at opnå så stor en præcision i vores maskinelle links som muligt.

Læs mere om at give feedback på links

Indtastning

Vi arbejder med datasæt, hvor personnavnene er blevet tastet ind i et samlet felt og stavet på den måde, som indtasteren har læst den originale kilde. Det betyder, at et indtastet personnavn fx kan sådan ud:

Hans Kristian Jensen
Hans ??? Jensen
Hans Chr. Jensen
Ane Jensdatter
Anna Jensdatter
Robert Mylhausen

Vi har sendt disse originale indtastninger fra kilderne igennem tre processer (nemlig rensning, standardisering og klassificering), før vi har kunnet bruge dem i selve linkningsprocessen.

Rensning

Rensningen er ganske simpelt gået ud på at fjerne alle tegn, der ikke var enten bogstaver eller et punktum.

Standardisering

Formålet med standardiseringen er at sørge for, at tilfældige variationer i navnes stavemåde ikke forhindrer en linkning: ”Ane Jensdatter” og ”Anna Jensdatter” kan udmærket være den samme person, selv om fornavnene ikke er stavet ens.

Vi har derfor inddelt alle personnavne i enkeltord (”Hans”, ”Kristian” og ”Jensen”), baseret på mellemrummet mellem de enkelte navne. Derefter har vi foretaget en optælling af, hvor ofte de enkelte ord forekommer i afskrifterne af folketællingerne 1787-1901. Der optrådte i alt omtrent 350.000 forskellige ord i materialet, men langt de fleste optrådte kun en enkelt eller meget få gange. Andre ord forekom så ofte, at 95% af navnene blev dækket af de 6.233 mest almindelige ord. To eksperter i det historiske kildemateriale og en ekspert i navneforskning gennemgik manuelt disse 6.233 ord og standardiserede stavemåderne. Dermed er det kun i de færreste tilfælde en tilfældig stavevariation, der forhindrer linkning.

De sidste navne – dem, som ikke blev manuelt standardiseret, fordi de ikke hørte til blandt 6.233 oftest forekommende – blev derefter standardiseret maskinelt. Den maskinelle standardisering foregår ved, at to ord sammenlignes og tildeles en score ud fra, hvor meget de to tekststrenge rent teknisk ligner hinanden i forhold til længden, de anvendte bogstaver og deres rækkefølge. Det giver ofte et godt resultat, men kan også resultere i skæverter, hvor maskinen synes, at ordene ser meget ens ud, mens vi som mennesker kan se, at der ikke er tale om det samme navn (”Peter” og ”Petra” ligner for eksempel hinanden meget i maskinens øjne: der er fem bogstaver i hvert ord, og fire af bogstaverne er ens og forekommer i den samme indbyrdes rækkefølge).

Klassificering

Vi har derefter klassificeret personnavnene i tre overordnede kategorier:

Fornavne (Peter, Anne)
Patronymer (Hansen, Jensdatter)
Familienavne (Rask, Schultz)

Grunden til, at vi har foretaget denne klassificering er, at navnene ”opfører sig” forskelligt, alt efter hvilken type navn der er tale om, og denne ”opførsel” er vigtig, når vi bruger navnene til at linke med: Fornavne var helt personlige, patronymer var ofte arvet direkte fra faderens fornavn, og familienavne gik normalt uændret videre til den næste generation. Navnets type giver os altså oplysninger om, hvordan det kan bruges til at linke til familiemedlemmer.

Klassificeringen er foretaget maskinelt, dels ud fra, hvor ofte det enkelte navn optræder som første og sidste navn, dels ud fra om det indeholder ”sen” eller ”sdatter”.

De to typer af efternavne kan desuden hver især optræde som en kvindes fødenavn, hvis der står enten ”født” eller ”f.” foran det. Denne yderligere klassificering er foretaget for at holde så godt styr på kvinders skiftende efternavne som muligt.

Fødesteder

Rensning

Rensningen er groft sagt gået ud på at fjerne alle tegn, der ikke var bogstaver.

Standardisering

Formålet med standardiseringen er at undgå, at variationer i, hvordan fødenavne skrives og staves, forhindrer en linkning: ”Hjerk Sogn Viborg Amt” og ” Vium Hierch S:” kan udmærket begge være korrekte angivelser af den samme persons fødested, selv om tekststrengene er meget forskellige.

Som første led i standardiseringsprocessen har vi inddelt alle fødestedsstrenge i enkeltord (”Hjerk”, ”Sogn”, ”Viborg” og ”Amt”), baseret på mellemrummet mellem de enkelte ord. Derefter har vi foretaget en optælling af, hvor ofte de enkelte ord forekommer i afskrifterne af folketællingerne 1845-1901. Det gav en liste på godt 130.000 unikke ord, hvoraf langt de fleste kun optrådte en enkelt eller meget få gange. Andre ord forekom så ofte, at 97,8% af ordene blev dækket af de 5.000 mest almindelige ord. En forsker i historisk geografisk mobilitet har manuelt gennemgået og standardiseret stavemåden af disse 5.000 ord.

De sidste ord – dem, som ikke blev manuelt standardiseret, fordi de ikke hørte til blandt de 5.000 oftest forekommende – blev derefter standardiseret maskinelt. Den maskinelle standardisering foregår ved, at to ord sammenlignes og tildeles en score ud fra, hvor meget de to tekststrenge rent teknisk ligner hinanden i forhold til længden, de anvendte bogstaver og deres rækkefølge.

Præ-klassificering

Som det fremgår af tekststrengen “Hjerk Sogn Viborg Amt”, har ordene forskellig karakter: Nogle ord angiver stednavne (”Hjerk” og ”Viborg”), mens andre angiver en klasse (”Sogn” og ”Amt”). Vi vil gerne vide, hvilke klasser de enkelte stednavne kan høre til, da det har indflydelse på vores brug af dem til linkningen (det er for eksempel vigtigt at vide, om en person angives født i Viborg købstad eller i Viborg amt).

Som et første skridt i klassificeringen af stednavnene har vi samlet referencelister (baseret på DigDag-databasen), der beskriver de mulige klassificeringer for hvert enkelt ord. De tre oftest forekommende er: sogn, købstad og amt. For de 5.000 standardiserede ord har vi valgt stavemåden, så den matcher med referencelisten. Dette giver samlet mere end 12.000 ord, som er præ-klassificeret.

Klassificering

I det sidste skridt i processen bliver hele tekststrengen fra fødestedet fortolket og hvert enkelt ord puttet i den/de passende kasse(r). Her bruges de ord, der angiver klasser (”Sogn”, ”S.”, ”Købstad”, ”kjøbstad” etc.) som nøgleord, sådan at de foranstående stednavne (”Hjerk”, ”Viborg” etc.) kan klassificeres.
Et stednavn kan sagtens tildeles flere klasser: Viborg er således både en købstad og et amt, ligesom fx Vejle både kan være et sogn, en købstad og et amt. Ud over brug af nøgleord fortolkes også på rækkefølgen og de mulige klassificeringer for hvert ord. Altså benyttes konteksten i høj grad for at bestemme klassificeringen af hvert ord.

Ord og tekststrenge, der angiver en gentagelse (fx “ditto” eller “som forrige”), er blevet erstattet af tekststrengen fra den forestående person, mens ord og tekststrenge, der angiver, at personen er født i det sogn, som kilden stammer fra (fx ”her” eller ”her i sognet”), er blevet erstattet af navnet på det sogn, som kilden er lavet i.