Kristine Aalrust Kristoffersen ________________________________ Mapping med mening Utfordringer ved mapping av indekseringsspråk Masteroppgave 2015 Master i bibliotek- og informasjonsvitenskap Høgskolen i Oslo og Akershus, Institutt for arkiv- bibliotek- og informasjonsfag 1 Sammendrag I denne oppgaven forsøkes det å identifisere generelle kategorier av utfordringer ved mapping av indekseringsspråk. I en todelt metode ble først dokumenter fra fire tidligere mappingprosjekter analysert og sju forskjellige kategorier av utfordringer ble identifisert. Fire av disse kategoriene ble viderebragt og eksemplifisert i en dataanalyse med et prekoordinert emneordssystem og en tesaurus som datagrunnlag. Analysen viser at utfordringer ved mapping av indekseringsspråk er til en viss grad mulig å generalisere. Utfordringene som ble identifisert ble knyttet til feilaktige mappinger, homonymi, hierarkisk plassering og forskjellig spesifisitet, sammensatte begreper, forskjellig praksis i bruk av emneordvokabularene og konteksten emneord står i, konsistens ved valg av mappinger og relasjonstyper og ressursbruk. Disse utfordringene var til stede i en forskjellig grad avhengig av om man mappet vokabularer basert på prekoordinering eller postkoordinering. The goal of this thesis was to identify general categories of challenges in mapping of indexing vocabularies. Documentation from four previous mapping projects was analysed in order to identify common challenges. These were divided into seven categories. Four of these categories were then used in a data analysis using two new vocabularies, one consisting of compound subject headings and one thesaurus. The analysis shows that there are, to a certain degree, general categories of challenges in mapping of subject headings. The seven categories identified are connected to incorrect mappings, homonymy, hierarchy, compound concepts, different use of the vocabularies and the context of the subject headings, consistency in choice of mappings and the amount of resources needed for mapping. The extent of these challenges was depending on whether the mapping was based on mapping of pre-coordinated or post- coordinated vocabularies. Høgskolen i Oslo og Akershus, Institutt for arkiv- bibliotek- og informasjonsfag Oslo 2015 2 Forord Å skrive masteroppgave har vært en langt mer fornøyelig prosess enn jeg hadde forventet meg. Ikke bare har det vært engasjerende og interessant, men jeg har også møtt stor velvilje og interesse over alt hvor jeg har henvendt meg innen kunnskapsorganiseringens kretser. Sånt motiverer enda mer, og noen takksigelser er på sin plass. Takk til Kjersti Feiring Myrtrøen for interessante faglige diskusjoner og til Liv Bryn, Hege Nenseth og Ida Have for fremragende korrekturlesning, og takk til alle andre kollegaer ved Biblioteksentralen for støtte, interesse og engasjement. Takk til Eir Mariann Hvidsten og andre medstudenter for lange dager, store diskusjoner og gjensidig oppmuntring. Takk til Unni Knutsen og andre mappingengasjerte ved Universitetsbiblioteket i Oslo for imøtekommenhet, interesse, og tilbud om langt mer hjelp enn jeg har hatt vett til å benytte meg av. Takk til Elise Conradi og Ingebjørg Rype ved Nasjonalbiblioteket for tidlig interesse og gode råd. Takk til alle kjente som har fått svare på en rekke dumme spørsmål og bidra med sin fagkompetanse til begrepsavklaringer innen sykepleie, geologi, engelsk og andre fagområder. Til slutt en stor takk til veileder Ragnar Nordlie for god og kyndig veiledning. Kristine Aalrust Kristoffersen Oslo, 7. juni 2015 3 Innhold Innledning ...................................................................................................................................6 1.1 Motivasjon.....................................................................................................................9 1.2 Problemstilling ............................................................................................................10 1.3 Oppgavens oppbygning ..............................................................................................10 2 Litteratur ............................................................................................................................12 2.1 ISO-standard 25964-2:2013 ........................................................................................12 2.1.1 Modeller for mapping ...........................................................................................13 2.1.2 Mappingtyper .......................................................................................................14 2.1.3 Mapping av klassifikasjonssystemer ....................................................................15 2.1.4 Mapping av prekoordinerte begreper ...................................................................15 2.2 Indekseringsspråk .......................................................................................................17 2.2.1 Postkoordinering og tesaurus ..............................................................................17 2.2.2 Prekoordinerte emneord ......................................................................................18 2.2.3 Deweys desimalklassifikasjon ..............................................................................19 2.3 Indekseringskonsistens og emneord i kontekst ...........................................................20 2.4 Tidligere relasjonstyper ...............................................................................................22 2.5 Tidligere forskning .......................................................................................................24 2.6 Andre prosjekter..........................................................................................................28 2.6.1 Humord mappet til Dewey ....................................................................................28 2.6.2 FinnOnto ..............................................................................................................30 2.6.3 Svenska ämnesord og Dewey .............................................................................31 3 Metode ...............................................................................................................................33 3.1 Problemstilling ............................................................................................................33 3.2 Kvalitativ metode.........................................................................................................34 3.3 Dokumentanalysen .....................................................................................................35 3.4 Dataanalysen ..............................................................................................................36 3.5 Metodiske overveielser ...............................................................................................38 4 Om prosjektene..................................................................................................................40 4.1 Realfagstermer + TEKORD .........................................................................................40 4.2 Felles terminologi for klassifikasjon med Dewey .........................................................41 4.3 MACS .........................................................................................................................43 4.4 Criss Cross .................................................................................................................43 4 4.5 Oppsummering ...........................................................................................................44 5 Dokumentanalyse ..............................................................................................................46 5.1 Homonymi...................................................................................................................48 5.2 Sammensatte begreper...............................................................................................49 5.3 Hierarki .......................................................................................................................51 5.4 Kontekst og forskjellig bruk .........................................................................................53 5.5 Støy ............................................................................................................................55 5.6 Vurdering av relasjoner ...............................................................................................56 5.7 Ressursbruk ................................................................................................................57 5.8 Oppsummering ...........................................................................................................58 6 Dataanalyse .......................................................................................................................60 6.1 Homonymi...................................................................................................................60 6.2 Sammensatte begreper...............................................................................................61 6.3 Hierarki .......................................................................................................................62 6.4 Kontekst og forskjellig bruk .........................................................................................66 6.5 Oppsummering ...........................................................................................................68 7 Diskusjon ...........................................................................................................................69 7.1 Finnes det generelle kategorier av utfordringer? .........................................................69 7.1.1 Homonymi ...........................................................................................................70 7.1.2 Sammensatte begreper .......................................................................................71 7.1.3 Hierarki ................................................................................................................72 7.1.4 Kontekst og forskjellig bruk ..................................................................................73 7.1.5 Kategorienes tilstrekkelighet ................................................................................75 7.2 Målet og midlene.........................................................................................................76 7.2.1 Valg av relasjoner ................................................................................................77 7.2.2 Prekoordinerte og postkoordinerte utgangspunkt .................................................78 8 Oppsummering ..................................................................................................................80 8.1 Metodiske svakheter og videre forskning ....................................................................81 9 Litteraturliste ......................................................................................................................84 5 Innledning I takt med den teknologiske utviklingen har også kunnskapsorganisasjon fått et større spillerom og muligheter for å forbedre og utnytte data på nye måter. Datamaskinen gjorde det mulig å lagre og finne fram data på en mer effektiv måte enn man kunne med kortkatalogen. Internett har gjort det mulig å dele disse dataene med andre bibliotek, over hele verden om man vil. Det virker innlysende å gjøre det. Hvorfor skal vi gjøre samme jobben flere ganger, når det er mulig å utveksle og utnytte egen og andres arbeid og kompetanse? Den praktiske løsningen er selvfølgelig ikke så enkel. Foruten organisatoriske problemstillinger som opphavsrett og ansvarsfordeling, er datautvekslingen vanskelig å perfeksjonere fordi alle verdens mennesker, heldigvis, ikke tenker helt likt. Når man tenker etter, er emneordsindeksering nesten for utrolig til å være sant. Ett menneske kan ta for seg et dokument, for eksempel en bok, og oppsummere hele denne bokas innhold i et par ord, som ikke en gang formuleres som setninger. Det er bare noen ord, kanskje tre eller fem, som til sammen sier noe om hva boka inneholder. Disse ordene registreres sammen med annen informasjon om boka i en database og så kan andre mennesker finne igjen denne boka basert på ordene. Ikke fordi de nødvendigvis vet at de leter etter nettopp denne boka, men fordi de formulerer det de ønsker seg med de samme ordene som boka har blitt beskrevet med. To store, uhåndgripelige størrelser, en boks innhold og et menneskes ønske om å lese noe med et bestemt innhold, har blitt kokt ned til de samme ordene, og disse ordene fungerer som innganger til riktig bok. Et slikt utrolig sammentreff er mulig fordi vi mennesker tenker relativt likt. Vi oppfatter og sorterer virkeligheten og alt som finnes i det på omtrent samme måte, uten at noen nødvendigvis har bestemt det. De fleste setter søppelbøtta under kjøkkenvasken, legger bestikket i den øverste skuffen og buksene i den nederste hylla i klesskapet. I matbutikken ligger alle grønnsakene sammen, og kjøttet og fisken ved siden av hverandre. Vi tenker likt, men vi tenker ikke identisk. Vi er ikke datamaskiner. Vi kan se den samme filmen og etterpå diskutere hvorvidt det var en god film eller ikke fordi vår oppfatning av hva “god film” innebærer er forskjellig, og fordi vi ikke er enige i hvilke grep som gjør en film god. Dette er også indekseringens evige problem. Det er umulig å bli helt enige om nøyaktig hva et dokument handler om. 6 Emneord er, i motsetning til en filmtittel eller hvem som står for gitarspillet på en musikkplate, ikke noe man kan finne en fasit på. Man kan anta med en viss sikkerhet at mennesker i stor grad vil tolke et dokuments innhold likt og markere dette innholdet med lignende emneord. Men det er ikke alltid så lett. En sykepleier vil lete etter informasjon om en sykdom med et helt annet begrepsapparat og behov for detaljnivå enn en pårørende. Hvordan kan man få emneordene til å være nyttige for begge? Tradisjonelt har indekseringen vært samlingsspesifikk. Man har satt emneord til dokumenter i egen samling basert på behovet til brukerne i denne samlingen. Sykepleieren går til et medisinsk bibliotek, og de pårørende går på folkebiblioteket, og dokumentene om samme sykdom er indeksert med passende begreper i de respektive samlingene. Med utgangspunkt i de varierende indekseringsbehovene har man også gjennom årenes løp etablert forskjellige kontrollerte vokabularer for emneord, som utvikles og ivaretas etter hvert som gjenfinningsbehovet i de enkelte samlingene endrer seg. Med den teknologiske utviklingen har man fått muligheten for å utveksle informasjon på tvers av disse samlingene. En av de vanligste tilnærmingene for denne utvekslingen, eller samordningen, er mapping. Mapping av emneord går, svært enkelt forklart, ut på å fortelle datamaskinen at to begreper som er benyttet for å beskrive dokumenter i to forskjellige samlinger på en eller annen måte er sammenlignbare. Gjennom en slik kobling, eller mapping, kan man øke tilfanget av emneord i vokabularene eller søke på tvers av samlinger indeksert med forskjellige vokabularer. I videre forstand betyr det at dokumentene som disse to ordene har beskrevet i de to samlingene er, på en eller annen måte, mulig å sette i relasjon til hverandre, for eksempel ved at de representerer det samme begrepet. Men er meningsinnholdet i et ord det samme i Norge og Finland? Eller for en sykepleier og en pårørende? Eller for to personer med samme jobb og utdanning som sitter rett ved siden av hverandre? Siden man til en viss grad er enige om hvordan verden skal kategoriseres og sorteres, om hvilke ord som kan beskrive innholdet i et dokument, og hva disse ordene kan innebære, kan man si ja. Til en viss grad. Med utgangspunkt i denne enigheten er mapping mulig, og det åpner for nye muligheter for samordning. En mapping mellom to indekseringsspråk vil tilføre begge parter 7 mer informasjon og det vil gjøre det mulig å gjøre flere dokumenter gjenfinnbare ved hjelp av de samme emneordene. Tanken bak mapping er altså god, men er det egentlig så lett? Enhver med kjennskap til klassifikasjon og indeksering vet at det ikke er "bare" å koke ned et helt dokuments innhold til fem ord, for ikke å snakke om fem ord som det kan tenkes at alle som måtte behøve å finne dokumentet også kommer på. For å gjøre det enklere for både indekserer og søker baserer man seg ofte på kontrollerte lister over emneord. Disse listene kan organiseres etter faste sett med regler for hvordan emneordene skal sorteres og struktureres, som for eksempel en tesaurus med forhåndsdefinerte interne relasjoner. Eller man kan benytte andre sett med regler, eller ingen spesiell sortering. Og så, når man ser at det gir mening, kan man finne på å lempe litt på reglene og etablere en intern praksis. Å ta forskjellige valg som dette i indekseringsarbeidet er ikke feil. Det er å tilpasse seg det indekseringsbehovet man har, for å sørge for best mulig gjenfinning for brukerne man har. Sett i dette perspektivet ville det vært et dårlig valg å gjøre alt likt. Mapping handler ikke om å gjøre alt likt, men å utnytte disse forskjellene. Samtidig vil disse forskjellene også gjøre det vanskeligere å avgjøre hvilke emneord som skal mappes, nettopp fordi det er så mye mer knyttet til emneordene enn bare selve ordet. Likevel er nytten større enn utfordringene, og dette er grunnen til at flere emneordssystemer, inkludert en rekke norske, er blitt mappet de siste årene. I disse dager pågår et samarbeid mellom Nasjonalbiblioteket (heretter NB) og Universitetsbiblioteket i Oslo (heretter UB) om å etablere en norsk generell tesaurus (heretter NGT). Forprosjektet består i to deler. En del ligger hos UB, og innebærer å undersøke metodikk for mapping av Humord mot DDC. Rapporten fra dette prosjektet beskrives nærmere i kapittel 2.6.1. Den andre delen av prosjektet innebærer å undersøke muligheter for og planlegge hvordan man skal etablere en slik tesaurus. I rapporten fra denne delen av forprosjektet anbefales det at en generell norsk tesaurus skal bygges ut fra de mange vokabularene som allerede finnes hos NB og UB, med UBs tesaurus Humord som utgangspunkt. Prosjektet inviterte i startfasen våren 2014 et åpent seminar for 8 interesserte bibliotekarer og andre fra fagmiljøet hvor det grunnleggende ved en tesaurus ble diskutert (Ohren et al., 2015, s. 4-9). På dette seminaret ble også spiren til denne oppgaven sådd. Da seminaret fant sted var ikke fremgangsmåten hvor man med Humord som utgangspunkt eksisterende vokabular, slik at hvilken tilnærming som ville gi best resultat var oppe til diskusjon. Noen foreslo å oversette et eksisterende generelt vokabular, for eksempel amerikanske LCSH. Noen foreslo å lage et slags “lappeteppe” av eksisterende vokabularer. For meg virket det innlysende at det beste valget ville være å på en eller annen måte utnytte de allerede eksisterende og veletablerte vokabularene som fantes. Men hvordan? Og var det egentlig så enkelt som det hørtes ut, å bare koble forskjellige vokabularer sammen? En nærmere titt på hvordan-spørsmålet ble raskt besvart med “mapping.” Men hvor enkelt, eller vanskelig, det egentlig var, var et mer komplisert spørsmål. 1.1 Motivasjon For de fleste med innsikt i emneordvokabularers bruk og regler er det mulig å se for seg at et forsøk på å få to eller flere av disse til å passe sammen er en overkommelig, men utfordrende oppgave. Mange av utfordringene som forekommer er også lette å anta. Med en grunnleggende kjennskap til emneordsvokabularers struktur og ulikheter er det mulig å se for seg en rekke tilfeller av problemer som kan oppstå, med utgangspunkt i at de alle er organisert på en lignende måte. Likevel er alle emneordsvokabularer ulike, og det er nettopp dette som gjør det verdt å mappe dem. Formålet med denne oppgaven er å undersøke om det er mulig å identifisere noen fellesnevnere for de utfordringene som oppstår i forskjellige forsøk på mapping hvor det er brukt ulike tilnærminger til mapping av indekseringsspråk med forskjellig struktur. Deretter undersøkes det om disse utfordringene igjen oppstår med to nye sett med emneord. Man kan også si at det forsøksvis undersøkes om emneordvokabularer er ulike på en lik måte. En identifisering av slike utfordringer vil forhåpentligvis være nyttig ved oppstart av nye mappingprosjekter, et slags frampek som man kan ta hensyn til i valg av mappingmetoder og indekseringsspråk som skal mappes. Samtidig sier utfordringer i mapping noe om svært sentral tematikk rundt kunnskapsorganisasjon i dag: menneskeskapte systemer forsøkes å organiseres på en måte som også kan utnyttes på best mulig måte av datamaskiner. Alle de eksisterende 9 mappingprosjektene ville ikke blitt gjennomført med mindre teknologien lå til rette for det. De fleste av utfordringene som oppstår kan sies å oppstå fordi det ligger en menneskelig bevissthet, både individuell og felles, til grunn i alle indekseringsspråk. De bygger på vår felles forståelse og enighet, i den grad man kan være enige, om hvordan kunnskap skal organiseres og sorteres. 1.2 Problemstilling Det er ikke er noen garanti for at to forskjellige mennesker benytter samme emneord nøyaktig likt (snarere vet vi at det ikke er tilfelle), men vi vet også at mennesker tenker nesten likt. Vi assosierer nesten de samme tingene med ordene. Vi har en felles enighet om hvilke ting som hører sammen og hvilke måter disse tingene kan sorteres på. Med utgangspunkt i denne kombinasjonen av enighet og uenighet baserer denne oppgavens problemstilling seg på en antagelse: de samme typene utfordringer vil oppstå, i større eller mindre grad, i de fleste mappinger av indekseringssystemer. Uavhengig om emneordene er basert på pre- eller postkoordinering, hvorvidt de benyttes av fag- eller folkebibliotek, hvorvidt det mappes mellom to emneordsvokabular eller fra et emneordsvokabular til et klassifikasjonssystem, vil enigheten og uenigheten i hvordan kunnskap kan organiseres føre til liknende utfordringer. Dette leder til følgende problemstilling: Hva slags utfordringer kan oppstå ved forskjellige mappinger av indekseringsspråk? Hvilke fremgangsmåter er benyttet og hvilke utfordringer har oppstått i tidligere prosjekter? Hvilke fordeler og ulemper innebærer de forskjellige fremgangsmåtene? Hvilke fordeler og ulemper innebærer mapping av forskjellige typer indekseringsspråk? Vurderinger, begrepsoppklaring og tanker rundt problemstillingen diskuteres nærmere i oppgavens metodekapittel. 1.3 Oppgavens oppbygning I kapittel 2, teori og tidligere forskning, presenteres først standarden for interoperabilitet mellom emneordssystemer samtidig som begreper og teknikker rundt mapping avklares. Deretter presenteres noen grunnleggende prinsipper for emneordsvokabularer og bruk av disse. Til slutt 10
Description: