Projekt:Strategisk inkludering av biblioteksdata på Wikidata 2018/Rapportering/Kvalite

Hur man kan undersöka kvalitén på Wikidata med hjälp av Shape Expressions

Bakgrund

Att ladda upp data till Wikidata är ett första steg i en större process som även omfattar hushållning. Exempelvis vill man gärna systematiskt undersöka datans kvalité för att kunna planera framtida åtanganden: vad som skall redigeras, rättas till eller laddas upp härnäst.

Det finns olika sätt att kvalitetsundersöka data på Wikidata. Frågespråket SPARQL är ett ofta använt verktyg, vilket antingen kan användas i egenskrivna dataprogram eller i Wikidata egna gränssnitt Wikidata Query Service. Ett vanligt fall är att man vill ta fram items som besitter vissa påståenden men saknar andra. Här till exempel kan man se alla upplagor med Libris Edition ID som saknar uppgift om språk. Resultatet kan användas för att planera och genomföra en förbättringsinsats.

Shape Expressions

Shape Expressions är ett annat sätt att undersöka RDF-strukturers beskaffenhet. Det är ett sorts språk där man beskriver vilka krav objekten skall uppfylla. I maj 2019 implementerades Shape Expressions i Wikidata. En ny namnrymnd skapades där användarna kan skapa schemas för olika typer utav items. Man kan validera antingen en grupp items (resultatet av en SPARQL-query) eller ett utvalt item gentemot ett schema.

För att testa hur Shape Expressions fungerar i praktiken beslöt vi att skapa ett schema för bokutgåvor med Libris ID (P1182), vilket sparades i schemanamnrymnden. Schemat gör följande antaganden:

  • P31 (instance of) skall vara Q3331189 (version, edition or translation).
  • Ett Libris ID (P1182) skall finnas.
  • Ett Libris URI (P5587) skall finnas.
  • En titel (P1476) skall finnas.
  • En utgivare (P123) skall finnas.
  • En utgivningsort (P291) skall finnas.
  • Ett språk (P407) skall finnas.
  • Antingen en författare (P50) eller en redaktör (P98) skall finnas. Dessa skall vara personer (Q5).
  • En label skall finnas.

Följande spörsmål uppenbarade sig under arbetet. Eftersom vi utgår från utgåvor som har ett Libris Edition ID vill vi också att dessa också har ett URI, eftersom det är så det fungerar i Libris – alla poster som har den gamla identifieraren har också tilldelats ett URI. Det fungerar dock inte tvärtom. Nya Librisposter, skapade efter URI:ets införande, tilldelas endast ett URI, inte den äldre identifieraren. Det betyder att schemat endast kan validera äldre böcker (införda i Libris fram till ungefär 2018). En annan fråga är huruvida det är rimligt att kräva att utgivningsort och utgivare skall vara med. Även om de allra flesta poster i Libris innehåller denna information så har vi hittat ett fåtal som inte gör det, t.ex. https://libris.kb.se/katalogisering/xf7s18682fm4qlj. Frågan är om huruvida det rör sig om enstaka undantagsfall eller om vi får anta att Libris inte alltid kan tillhandahålla den informationen. Samma fråga kan nog ställas om författare – finns det böcker som inte har någon författare, redaktör eller annan upphovsperson?

Ett exempel på ett mer detaljerat schema inom samma område är Edition of a written work vilket vi delvis utgick ifrån. Det innehåller dock krav som Librisposter omöjligen kan uppfylla, såsom ISBN (Libris innehåller ju böcker utgivna innan ISBN:s införande). Dessutom antager schemat att varje utgågva är kopplat till ett verk med hjälp av P629, samt specificerar hur verket skall vara modellerat. Detta är – ännu! – inte av någon nytta för oss då verkslagret i Libris inte är moget nog att importera till Wikidata.

Att validera med hjälp av Shaped Expression

Det finns huvudsakligen två sätt på vilka Wikidataanvändarna använder Shape Expressions för att validera. Det första är att använda ett verktyg som ShEx2 Online Validator för att validera ett större antal items utvalda med en SPARQL-query.  

Verktyget berättar för oss om vilka items ej uppfyller kraven om vad som saknas.

Ett annat sätt att använda Shape Expression är att validera ett item åt gången. Wikidataanvändare kan lägga till en knapp till sitt gränssnitt för att göra det. Detta är ett snabbt sätt att kontrollera hur komplett ett item är.  

Slutord

Shape Expression är ett förhållandevis nytt svar på kvalitetsproblemet på Wikidata som gör det lättare att skaffa sig en överblick över vilka förbättringar av datan som behövs. Samtidigt erbjuder det en möjlighet att fundera över hur datan överhuvudtaget skall vara strukturerad och vilka antaganden som är rimliga.