Projekt:Strategisk inkludering av biblioteksdata på Wikidata 2018/Rapportering/Arbete

Externt mål: [Rapport] Import av auktoriteter vars verk används som källor på Wikipedia T205395

Externt mål: [Rapport] Grundstruktur skapad för import av verk/utgåvor T205392

En rapport från vårt arbete med import av auktoriteter samt verk och utgåvor

Wikidata innehåller, förutom uppgifterna om objektens olika egenskaper, även en mängd externa identifierare. Många av dessa är auktoritetsidentifierare med koppling till bibliotek, till exempel VIAF, GND (Gemeinsame Normdatei), LCAuth (Library of Congress authority ID) Tack vare detta har Wikidata kunnat växa till ett centralt nav för auktoritetsdata, en ingångsport till många av världens viktigaste kataloger. Att Wikidata har en erkänd plats i auktoritetslandskapet bevisas av att VIAF inkluderar det i sitt länksystem.

Även Kungliga biblioteket är representerat på Wikidata med inte färre än tre properties: SELIBR ID – auktoritetsidentifieraren i "gamla" Libris; Libris Editions – utgåveidentifieraren i "gamla" Libris; samt Libris-URI – den universiella identifieraren för såväl auktoriteter som utgåvor och verk i nya Libris (Libris XL). Det är deras properties som vi utgick ifrån i vårt arbete med Kungliga bibliotekets öppna data.

Utgångsläge

Innan vi satte igång med arbetet undersökte vi situationen på Wikidata gällande såväl auktoriteter som böcker.

Verk och utgåvor

Eftersom projektet sammanföll med en period av arbete med övergången till länkade data i Libris blev det ett bra tillfälle till att undersöka Wikidatas hantering av bibliografiska data samt dess kompatibilitet med den datastruktur som samtidigt introducerades i Libris XL.

Vi fann en engagerad användargrupp på Wikidata som sysslar med att etablera en datamodell för bibliografiska data som skall såväl vara flexibel och användbar som ej för långt avvika från gängse biblioteksstandarder. Den framtagna datamodellen bygger på Functional Requirements for Bibliographic Records (FRBR), en standard för bibliografiska data utarbetad av IFLA. Det finns paralleller mellan FRBR och Bibframe som gör att de två formaten till viss del kan mappas mot varandra; dessutom är Wikidatamodellen en förenkling av FRBR eftersom Wikidata inte har samma behov av granularitet som bibliotekskataloger gör.

Grundstenen i modellen är att den – precis som Libris XL – gör skillnad på verk och utgåvor. Detta gör modellen kompatibel med Libris XL och ger oss möjligheter till långsiktigt arbete. Modellen är också tillräckligt detaljerad för att överföra en stor mängd information om verken i Libris; det finns properties för de flesta av de fälten som används för att beskriva en bok, såsom titel, författare, antal sidor, utgivningsår m.m. En mer inträngande genomgång av modellen kan läsas på en separat sida.

Vad som skulle överföras – vilka verk, och hur de skulle väljas ut – var en fråga vi fick ställa oss tidigt på grund av den stora omfattningen av Libris. Eftersom vår insats skulle bli ett pionjärarbete – någon tidigare storskalig import av data om böcker kände vi inte till – ville vi helst börja med en mindre, begränsad uppladdning för att provköra både arbetssättet och den tekniska infrastrukturen. Vidare ville vi göra något som skulle vara relevant för den svenskspråkiga Wikimediagemenskapen i syfte att väcka intresse för både projektet och Kungliga bibliotekets resurser i allmänhet. Därför valde vi att fokusera på böcker som ofta användes som källor på svenskspråkiga Wikipedia.

Vi genomförde därför en undersökning av källhänvisningarna på svenskspråkiga Wikipedia. Efter att ha identifierat de flitigast använda böckerna valde vi ut de 500 som ingick i den svenska Nationalbibliografin. Detta var en förutsättning för att kunna ladda upp datan, av upphovsrättliga skäl; Nationalbibliografin är den enda av Libris deltabaser som Kungliga biblioteket haft behörighet att släppa under den Wikidata-kompatibla licensen CC0.

Vi laddade alltså upp bibliografiska data för ca. 500 svensksutgivna böcker som ofta används som källor på svenskspråkiga Wikipedia. Varje Wikidataobjekt försågs med en Libris URI för att knyta det till den motsvarande posten i Libris. Följande fält i bokens katalogbeskrivning konverterades till Wikidataproperties:

  • titel
  • undertitel
  • språk
  • författare
  • illustratör
  • redaktör
  • antal sidor
  • utgivningsort
  • förlag
  • Libris ID (identifierare i "gamla" Libris)
  • Libris URI

En del problem och frågeställningar identifierades under detta arbete.

Libris’ potential för länkade data utnyttjas inte i tillfredsställande grad. Det är exempelvis inte alla böcker där författaren/redaktören/illustratören är angiven med sin Libris URI-identifierare. När så var fallet kunde vi knyta objektet till författarens objekt, förutsatt att ett sådant fanns på Wikidata. Att göra så på ett automatiskt sätt blir betydligt svårare när katalogposten enbart innehåller författarens textsträng – i teorin hade det varit möjligt att försöka identifiera författarens objekt genom en textsökning på Wikidata, men vi valde att avstå från detta på grund av felmatchningsrisken. Istället använde vi oss av Wikidatapropertyn author name string som är skapad just för sådana tillfällen: när man vill ha med informationen om vem som författat verket men kan av någon anledning ej länka till författarens objekt. Detta är en halvmesyr för att säkerställa att informationen kommer med i någon form samtidigt som man signalerar till gemenskapen att den är bristfällig.

En liknande brist upplevdes när det gällde böckernas utgivningsort och förlag. Dessa uppgifter anges alltid som textsträngar i Libris. Vi skapade en mindre mappningsfil där de vanligaste värdena matchades mot deras Wikidataobjekt, vilket var tillräckligt för testuppladdningens behov, men hade inte varit hållbart om vi ville arbeta med hela Nationalbibliografin.

Vidare var vi begränsade till att enbart ladda upp data om utgåvor. Detta orsakades av att verkslagret i Libris inte var färdigställt under projektets gång. Det hade varit tacksamt att kunna experimentera med att koppla samman olika utgåvor eller översättningar av samma verk, något som vi gärna vill arbeta med när verkslagret har implementeras i Libris.

Auktoriteter

Drygt 61 000 objekt som använde sig av propertyn SELIBR – som hade lagts till av volontärgemenskapen – identifierades. I och med att dessa identifierare skulle fasas ut inom Libris – nytillagda auktoritetsposter skulle enbart identifieras med en URI, medan redan befintliga dito skulle tilldelas en jämte den befintliga auktoritetsidentifieraren – beslöt vi att satsa på URI:er.

Vidare beslöt vi att endast arbeta med de Wikidataobjekt som redan hade ett SELIBR-id. Vi skulle alltså inte lägga till URI:er till objekt som inte sedan tidigare hade en koppling till Libris; inte heller skulle vi skapa nya objekt för personer som saknade dessa. Vi bedömde nämligen att det skulle bli svårt att helautomatiskt genomföra matchningar. Den befintliga mängden av 61 000 objekt bedömdes vara tillräckligt stor för att uppnå vårt mål – att skapa mervärde för Wikidatagemenskapen – utan att riskera att introducera fel som volontärgemenskapen sedan skulle behöva åtgärda.