Verksamhetsberättelse 2018/Story: Datasamlingar som en tjänst

Under året som gått har vi fortsatt våra satsningar på massuppladdningar av data. Vi har fokuserat på tre olika typer av data: data om GLAM-institutioner (såsom belägenhet, typ av institution o.s.v.), bibliografiska data (inledningsvis om författare och utgåvor av böcker), och därtill har vi planerat ett projekt för att samla in fritt licensierat taldata som en tjänst för FOSS-gemenskapen.

Vår målsättning med GLAM-datat är dels att förbättra täckningen av GLAM-institutioner på Wikimediaplattformarna och dels att bygga en tjänst får såväl den internationella GLAM-gemenskapen som för katastrofrespons. Det är nämligen känt att den bristande kunskapen, i det internationella samfundet, om var GLAM-institutioner finns, orsakar verkliga problem i katastroflägen då stöd inte når fram. Detta slår särskilt hårt mot fattigare länder, varför vårt arbete även bidrar till ökad rättvisa när det gäller skydd av kulturarv. Dessutom är vi övertygade om att tillgången på den här typen av data kommer att göra det enklare för andra Wikimediaorganisationer att identifiera nya potentiella samarbetspartners att kontakta. Wikimedia Foundation är vår samarbetspartner i detta projekt som vi kommer att genomföra tillsammans med det team hos dem som utvecklar strukturerade data på Wikimedia Commons.

Inkluderingen av bibliografiska data kommer att göra det lättare och snabbare att arbeta med källor på Wikipedia. Samtidigt hoppas vi på att kunna framhäva Wikidatas roll som en tjänst för så många användare utanför Wikimediarörelsen som möjligt. Eftersom projektet genomförs i samarbete med Kungliga biblioteket, med avsikt att dela med oss av erfarenheterna med andra nationalbibliotek, vi hoppas på att kunna inspirera liknande projekt i andra länder, med ännu mer data tillgängliggjort under de kommande åren.

Det arbete vi gjort under de senaste åren har förberett oss grundligt för att jobba med den här typen av massuppladdningar. Vi vet till exempel att vi behöver avsätta gott om tid för diskussioner, såväl innan som under och efter själva uppladdningen. Detta är särskilt aktuellt när vi pratar om bibliografiska data, eftersom de intresserar många individer och organisationer. Vi planerar därför projektet på ett sätt som undviker brådska och ger oss utrymme för dialog med med alla involverade parter: Wikidata- och Wikimediagemenskapen, Wikimedia Deutschland och Wikimedia Foundation. Vi kommer att ha ett inkluderande förhållningssätt när vi identifierar vilka data som ska fokuseras på, rensas och förberedas.

När det gäller taldatainsamlaren så har vi skapat en detaljerad plan för att bygga själva verktyget. Vidare kommer vi att samarbeta med Wikimedia Deutschlands utvecklargrupp för att koppla de inspelade filerna på Wikimedia Commons med lexem på Wikidata. Vi kommer även att kommunicera med den arbetsgrupp på Mozilla som arbetar med deras projekt Common Voice för att byta ut erfarenheter och förena våra respektive datainsamlingsinsatser. Vi hoppas att fritt tillgängliga taldataresurser kommer att skapa betydande mervärde inte endast för att förbättra talsyntesen på Wikipedia, men även för andra projekt inom webbtillgänglighet, AI-utveckling med mera.

För att kunna genomföra allt detta kommer vi att behöva utöka vår personalstyrka. Vi har inlett förberedelserna för att hitta lämpliga kandidater för tjänsten.

Dessa är samtliga långsiktiga och externt finansierade projekt som kommer att genomföras under 2018–2019; biblioteksdataprojektet och taldatainsamlarprojektet kommer möjligtvis att ta 2–3 år mer i anspråk.