Projekt:Strategisk inkludering av biblioteksdata på Wikidata 2019/Wikidatadagarna/Kursmaterial

Wikidatadagarna 2020

13 och 15 oktober, online

Vällkommen

Utbildning 13 oktober

Videopresentationerna kan också ses på YouTube.

Del 1: Introduktion till Wikidata

Del 1 Introduktion till Wikidata

Alla känner till Wikipedia. En av världens mest besökta webbplatser och en aldrig sinande källa till kunskap inom alla möjliga ämnen.

Wikipedia finns på över tre hundra språk och skapas kollaborativt av tusentals volontärer runt om i världen. Men Wikipedia är inte den enda plattform av det slaget. Det finns ett antal så kallade systerprojekt till Wikipedia som har samma mål, att sprida fri och öppen kunskap, men på andra sätt än genom uppslagsverksartiklar.

Det finns till exempel Wiktionary, den fria ordboken, Wikimedia Commons, den fria mediadatabasen, och Wikidata, den fria och öppna plattformen för strukturerade och länkade data. Precis som Wikipedia kan Wikidata användas och redigeras av alla. Det är ett relativt nytt projekt som växer och utvecklas väldigt snabbt och som har tilldragit sig intresse inte minst utav forskare, akademiker och kulturarvsinstitutioner världen över.

Wikidata skiljer sig mycket från Wikipedia men har även mycket gemensamt med det.

Varje Wikipediaartikel ska vara länkad till ett motsvarande Wikidatasida, eller objekt som det heter på Wikidata. Och i objektet beskrivs ämnet medelst enkla, strukturerade faktauppgifter istället för beskrivande text.

Wikidatas byggstenar

Nyckelbegreppen på Wikidata är:

Objekt: En grundläggande entitet som beskriver ett avgränsat ämne. Wikidata har en väldigt flexibel struktur. Ett objekt kan alltså vara allt från en person, ett naturreservat, en växt eller djurart, en sjö, en bok, ett konstverk, nästan vad som helst.

Varje objekt på Wikidata har en unik identifierare. Den består av bokstaven Q och en siffra, och kallas därför även för Q nummer eller Q-id. Det är just den identifieraren som ingår i objektets url. Till exempel är Kungliga bibliotekets Q-id Q953058.

Just nu har Wikidata 89 miljoner objekt.

Ett Wikidataobjekt kan, men behöver inte vara vara kopplat till en Wikipediaartikel. Wikidata har betydligt lösare relevanskriterier än Wikipedia och därför är de allra flesta objekten inte kopplade till Wikipedia.

Etikett: objektets "namn" eller "titel". Ett objekt kan ha alternativa etikett som då kallas för alias. De kan användas t.ex. när en person är känd under flera olika namn, eller när man förväntar sig att användare kommer att använda olika namn för att söka efter objektet.

Beskrivning: kort fras som sammanfattar objektet, t.ex. tysk filosof, målning av Bruno Liljefors, kyrkobyggnad i Göteborg. Inte obligatorisk att lägga till, men praktisk för att särskilja mellan flera objekt med samma etikett (till exempel personer med samma namn).

Uttalande: påstående om objektets beskaffenhet. Till exempel: Bruno Liljefors är en människa. Kvibergs kyrkogård ligger i Göteborg. Välens naturreservat är 68 ha stort.

Uttalanden

Varje objekt kan innehålla flera uttalanden som med hjälp av egenskaper och värden berättar något om objektets beskaffenhet.

Dessa strukturer kallas för tripletter. En triplett är alltså ett par av tre element: objekt, egenskap och värde.

Egenskaper är till exempel instans av (vad är det här objektet för något), kön, geografiska koordinater, land, yta…

Det flera olika typer av värden. Här finns de vanligaste:

Objekt
- Tove Jansson → är begraven på → Sandudd
Geografisk koordinat
- Sandudd → har den geografiska koordinaten → 60°10'10"N, 24°55'4"E
Filnamn på Wikimedia Commons
- Kungliga biblioteket → har bild → Kungliga_biblioteket.jpg
Fri text
- Kungliga biblioteket → har adress → Humlegårdsgatan 26 Humlegården, 114 46 Stockholm
Siffra
- Uleåborg → invånarsiffra → 200526
Tidpunkt
- Tove Jansson → är född → 9 augusti 1914
Extern identifierare
- Tove Jansson → har Libris URI → wt79bh6f2j46dtr
URL
- Kungliga biblioteket → har officiell webbplats → http://www.kb.se/

Ett uttalande borde ha åtminstone en referens. Man skall alltså ange källan varifrån uppgiften kommer, precis som på Wikipedia. Men eftersom det är så enkelt och snabbt att skapa uttalanden på Wikidata så är det väldigt många som saknar referenser. Många objekt skapas och fylls i baserat på informationen på Wikipedia, men "importerad från Wikipedia" är inte en bra källa. Man bör lägga till en hänvisning till en extern källa, som en hemsida, en artikel eller en bok.

Bestämningsord eller bestämningar är ett annat litet bihang som man kan ha med i ett uttalande. De specificerar uttalandet genom att berätta när eller under vilka omständigheter det gäller. Tack vare detta kan man ange flera värden för en egenskap för att modellera hur de förändras.

Wikidata är flerspråkigt

Wikimedias alla projekt, som Wikipedia och Wikidata, är flerspråkiga. Deras mål är att samla in världens all kunskap och göra den tillgänglig för alla. Detta kan ju inte åstadkommas om man begränsar sig till engelska eller några få stora språk.

Wikipedia har sina olika språkversioner. Det det finns en upplaga där man skriver på svenska, en annan där man skriver på finska, och så vidare. De är separata projekt, med varsin gemenskap. På Wikidata ser det annorlunda ut. Det finns ett Wikidata där alla språk samsas under samma tak.

Gränssnittet finns tillgängligt på många olika språk, däribland svenska. För att ändra gränssnittsspråket måste man vara inloggad på sitt användarkonto.

Objektens och egenskapernas etiketter och beskrivningar kan översättas till många språk. Många finns dock fortfarande enbart på engelska. Att lägga till svenskspråkig etikett eller beskrivning är ett enkelt sätt att börja redigera Wikidata.

Att redigera

Alla kan redigera Wikidata. Man behöver inte vara inloggad. Men det är praktiskt att skapa ett användarkonto, man får då tillgång till flera funktionaliteter. Man får en personlig användarsida där alla ens redigeringar finns samlade. Ett användarkonto fungerar på alla Wikimediaprojekten: Wikipedia, Wikimedia Commons osv. Om man redan har ett Wikipedia-konto fungerar det alltså automatiskt på Wikidata.

Wikidata har ett testobjekt, en sandlåda, där man kan testa sig fram utan oro att något går fel.

Varje Wikipediaartikel bör vara ansluten till ett Wikidataobjekt. Om man skriver en Wikipediaartikel bör man därför antingen länka den till ett befintligt objekt eller om nödvändigt skapa ett nytt objekt.

I videon gås det igenom hur man redigerar befintliga och skapar nya objekt.

Del 2: Bibliografiska data på Wikidata

Del 2 Bibliografiska data på Wikidata

Det inte är så enkelt att katalogisera publikationer så att datan är användbar och lättillgänglig. Samtidigt är böcker och tidskrifter oerhört viktiga för Wikimedianer – man behöver ju tillförlitliga källor för att skriva på Wikipedia. Därför är detta ett område där det sker mycket aktivt arbete, diskussioner och erfarenhetsutbyte. Flera bibliotek har utvärderat eller rentav implementerat Wikidata i sitt arbete, och det skrivs och forskas mycket inom området.

Över trettio sex miljoner, alltså drygt fyrtio procent av Wikidatas alla objekt är vetenskapliga artiklar. Dessa objekt skapades inte för hand. Eftersom Wikidata är byggt för att vara maskinläsbart så är det möjligt att skapa alla sorters skript och program som bearbetar data från olika källor och importerar det till Wikidata. Dessa program som gör olika automatiserade uppgifter på Wikimediaplattformarna kallas för botar, och det är just de som står för den mesta aktiviteten på Wikidata.

Det finns flera online-databaser av bibliografiska data som har använts som källor för dataimporter till Wikidata. En som är särskilt intressant är PubMed, som fokuserar på medicin. Det finns trettio miljoner objekt som innehåller egenskapen PubMed ID, det vill säga länkar till relevant artikel i denna databasen.

I filmen ser du hur data om en vetenskaplig artikel är strukturerad på Wikidata.

Ett problem som illustreras är att när man importerar bibliografiska data från externa källor måste man matcha författarnamnen med motsvarande Wikidataobjekt. Det enda sättet för att göra det automatiskt är med hjälp av externa identifierare, till exempel VIAF eller ORCID. Just ORCID används mycket flitigt på Wikidata, med över en miljon och sex hundra tusen människor som har denna identifieraren. Detta underlättar arbetet något enormt, men är inte en hundraprocentig lösning – det är ju inte alla författare i externa källor som har det.

Om ett författarnamn inte kan matchas mot något Wikidataobjekt sparas det istället som kort författarnamn, vilket är en textsträng, och inte ett objekt. På detta sätt förlorar vi inte informationen, namnet bevaras, och kan ersättas med en länk till ett riktigt objekt senare, om någon hittar ett passande objekt eller skapar ett nytt från grunden. Det är alltså mycket städarbete som måste göras efter en automatisk import.

Just nu är det drygt tjugo sex miljoner Wikidata objekt som har ett DOI, och enligt International DOI Foundation så har över två hundra trettio miljoner av dessa tilldelats runt om i världen.

Illustration av Bibframe 2.0 modellen, vilken datamodellen för böcker på Wikidata är baserad på.

När det gäller att modellera böcker så måste man tänka på att ett litterärt verk kan ha flera utgåvor och översättningar. Det finns en datamodell för bibliografiska data som tar detta i beaktande, Bibframe 2.0. I denna modellen har vi både verk, som är abstrakta, konceptuella entiteter, och instanser, verkets fysiska gestaltningar. En instans återspeglar konkret information som identifierar den aktuella utgåvan, som utgivningsplats, utgivare och utgivningsår, samt bärartyp, till exempel inbunden bok, eller talbok på CD-skiva. Det är just instanserna som har identifierare som ISBN eller Libris ID.

När Wikidatas volontärgemenskap funderade på hur man skulle kunna modellera böcker på Wikidata så använde de sig av just denna modellen som förlaga. En bok borde ha minst två objekt. Objektet på verksnivå är en instans av just verk, och det är just det objektet som ska länkas till en eventuell Wikipediaartikel om boken. Wikipediaartikeln handlar just om den abstrakta romanen eller vad det nu är, och inte om någon specifik utgåva. Detta objektet ska inte ha något ISBN-nummer, eftersom dessa tilldelas just specifika utgåvor, däremot ska det länka vidare till alla objekt på utgåvenivå.

I filmen ser du exempel på hur objekt för böcker kan modelleras på Wikidata.

För att koordinera arbetet kring bokdata och skapa hjälpresurser finns WikiProject Books. Det är ett så kallat wikiprojekt, alltså en plats på Wikidata där användare som intresserar sig för ett särskilt ämne kan hitta information, ställa frågor och diskutera spörsmål som berör detta ämnet. Det är just användarna kring detta wikiprojektet som tagit fram datamodellen med verk och upplagor.

När det gäller bibliografiska data i en större skala, inte begränsat till böcker så finns det ett liknande wikiprojekt, WikiProject Source MetaData. Här handlar mycket av diskussionerna om att koordinera storskaliga importer av olika datamängder.

Det finns alltså väldigt mycket bibliografiska data på Wikidata, men hur mycket bör egentligen Wikidata innehålla? Denna frågan är mycket aktuell bland annat för deltagarna i WikiCite. WikiCite är ett internationellt projekt eller gemenskap som syftar till att bygga öppna, länkade bibliografiska data som stöd för öppen kunskap-ekosystemet, som Wikidata, Wikipedia och de andra Wikimediaplattformarna ingår i. Flera av de aktiva medlemmarna har professionell erfarenhet av biblioteksväsen eller akademisk publicering, och projektet är ett måste att följa om man verkligen intresserar sig för utvecklingen inom bibliografiska data på Wikidata.

Det finns flera idéer eller scenarion om hur bibliografiska data på Wikidata bör utvecklas.

Kanske bör Wikidata endast innehålla bibliografiska data av böcker och artiklar som citeras på Wikipedia, och de andra Wikimediaprojekten. Wikimediagemenskapen har ställt fast att dessa publikationer är relevanta just för att de är viktiga för Wikimedia.

Kanske borde vi satsa på att bygga avgränsade, specifika bibliografiska korpora. Ett exempel är Zikakorpuset, som skapades för att samla ihop att vetenskaplig publicering om Zikaviruset och på det sättet utforska och demonstrera Wikidatas potential som bibliografisk databas.

Eller kanske bör Wikidata innehålla allt. All information om världens alla vetenskapliga artiklar, tidskrifter, tidningar och böcker. Den bibliografiska allmänningen. En hubb där världens olika datakällor, databaser och resurser länkas samman.

Detta scenariot är inte problemfritt, dels av tekniska skäl så klart – Wikidatas infrastruktur skulle behöva växa rejält för att klara det – och dels eftersom det inte är säkert att Wikidata är en bra plats för det. Vem vet, det kanske skapas en helt ny plattform just för bibliografiska data, någon gång i framtiden.

Men innan dess finns det mycket att göra, och flera bibliotek runt om i världen intresserar sig Wikidatas möjligheter. Ett exempel är amerikanska Library of Congress. I maj 2019 lades över en miljon Wikidata-identifierare till bibliotekets auktoritetsdatabas. Om man slår upp en författare i databasen så kan man alltså hitta en länk till hens Wikidata-objekt.

En liknande lösning hittar vi i VIAF, Virtual International Authority File, det auktoritetssystem som bibliotek i flera länder använder, däribland Kungliga Biblioteket i Sverige. Wikidata har nu alltså en självklar roll som en auktoritetshubb.

Både VIAF (P214) och Library of Congress Authority ID (P244) finns som egenskaper på Wikidata, jämte många andra identifierare från hela världen. När det gäller svenska resurser så finns det både Libris gamla identifierare, både för böcker (P1182) och auktoriteter (P906) – samt det nya Libris URI (P5587), som används av både böcker och auktoriteter.

I Europa pågår det aktivitet bland annat vid Tysklands nationalbibliotek. Där utvärderar man Wikibase – mjukvaran bakom Wikidata, som gör det möjligt att skapa en egen Wikidata-liknande strukturerad databas. De undersöker om det är realistiskt att använda sig av Wikibase till bibliotekets auktoritetsfiler.

Och här i Sverige har Kungliga biblioteket samarbetat med Wikimedia Sverige i samband med utvecklingen av Libris XL, en uppdaterad och moderniserad version av Libris som bygger på Bibframe 2.0-modellen och länkade data. Detta gör det möjligt att importera delar av Libris till Wikidata och på det sättet göra bibliotekets samlingar mer synliga på Wikimediaplattformarna, och i fortsättningen på webben i stort.

Del 3: Introduktion till SPARQL

Introduktion till SPARQL

Styrkan med länkade strukturerade data är att man ta fram exakt det man behöver. Man kan göra betydligt mer detaljerade sökningar än på Wikipedia.

För att ställa frågor till Wikidata använder vi oss av språket SPARQL.

Det är ett semantiskt språk som används med databaser som är baserade på tripletter, till exempel Wikidata. Det finns andra databaser som använder sig av SPARQL, det är inte något som är uppfunnet specifikt för Wikidata.

Om man är är programmerare eller webbutvecklare så kan man anropa Wikidata direkt för att hämta den data man vill, till exempel för att använda det i sin app eller webbplats. Men vi behöver inte lära oss programmera, det finns ett gränssnitt där vi kan testa SPARQL och se direkt hur det fungerar: Wikidata Query Service.

Här nedan finns alla queries som vi gick igenom under dagen. De förklaras och kommenteras utförligt i filmen.

Folkbibliotek

Människor som är begravda i Göteborgs kommun