Projekt:Jämställdhet på Wikipedia 2015/Ansökan till Vinnova

Ansökan har avslagits.

Avslagen, men kommentaren: "Projektet har potential att bidra till utlysningens mål. Aktörskonstellationen bedöms dock som smal och den normkritiska kompetensen behöver stärkas".

Ansökan

Organisation: Vinnova (Mångfaldslabbet)

Sista ansökningsdatum: 2015-04-21

Max bidrag: 300 000 (förstudien)

Bedömd chans: 10%

Väntevärde: 30 000 kr

Värde för WMSE (1-5): 4

Beslutsdatum: 5 oktober

Uppföljning inför inskick:

Projektidé: Automatiskt utvärdera hur en språkversion av WP står sig ur ett mångfaldsperspektiv (täckning: män-kvinnor, geografiskt m.m.). I förstudien definieras vad som ska inkluderas.

Projektbeskrivningen ska vara på max motsvarande 5 A4-sidor med 12 punkters text. Den ska skrivas på svenska och omfatta följande:

Projekttitel på svenska och engelska

Normkritiskt index

Automatisk normkritisk översikt av tillståndet på Wikipedias artikelinnehåll

Sammanfattning

Den enorma informationsmängd som finns på Wikipedia innehåller normativa skevheter och att snabbt och smidigt få en överblick över dessa skevheter och deras omfattning är centralt för att ha möjlighet att förändra detta. Lättanvända verktyg för att visualisera skevheter i informationsmängden och upptäcka brister i Wikipedias täckning saknas i dagsläget. Det är dags att förändra detta.

Wikipedia är den största faktasamling världen skådat och med ca 500 miljoner unika besökare varje månad en a de mest populära webbplatserna i världen. Tidigare undersökningar har visat stora skevheter bland Wikipedias skribenter, där västvärlden är överrepresenterat och ca 90% är män.

Vårt mål är att undersöka vad som krävs för att utveckla de verktyg som behövs för att påvisa skevheter i Wikipedias innehåll. I Genomförandeprojektet kommer vi att arbeta med partners för att utveckla de tekniska lösningarna. Detta presenteras sedan visuellt genom Wikimedia Normative Index, en sorts "instrumentbräda" med olika mätare som illustrerar tillståndet i artiklarna och hur de skiljer sig åt (baserat på flera faktorer såsom demografi, språkliga markörer, antal källor m.m.). Instrumentbrädan ger användaren möjlighet att välja vilka faktorer om ska undersökas hur de presenteras; enskilt eller aggregerat. Detta sätter fokus på problemet och möjliggör fler och mer välgrundade normkritiska diskussioner. Det skapar också incitament för fler att engagera sig som bidragsgivare och hjälpa till att bredda Wikipedias artikelsamling för att bättre representera samhället och mänsklig kunskap.

Sammanfattning på engelska

The vast amount of information accessible on Wikipedia offers biases in content and gaining insights in to the nature and extent of these biases is central for the opportunity of change and impact. Comprehensible tools for visualizing how information is skewed and uncovering gaps in content is currently lacking. It is time for us to work to change this.

Wikipedia is the largest body of knowledge the world has ever seen and with 500 million unique visitors monthly it is one of the most popular websites in the world. Studies have revealed how the Wikipedia community is lacking in diversity, with the majority of editors representing the west and 90 % of editors are male.

We propose a study (Förstudie) on how to develop a set of tools to highlight the biases in Wikipedia content, in order to consequently develop the technical solution with partners in the main project (Genomförandeprojekt). We want this set of automated tools to facilitate a critique of how social norms and codes are embedded in Wikipedia content. This will be visually presented on an open dashboard "Wikimedia Normative Index" comprised of data such as demographics, linguistic markers and number of citations and edits etc. The dashboard will enable the user to choose classifications and how to have them presented; individually or aggregated. This will put focus on the issue and help create more and better grounded discussions about social norms. It will also create an incentive for editors to contribute to gaps and engage a more diverse body of content more appropriately reflecting society and human knowledge.

Klassificering

Behovsområde

12 Utbildning (lärande)

Forskningsområde

1.2.99 Annan data - och informationsvetenskap
5.7.02 Ekonomisk geografi
5.8.01 Medievetenskap

Produktområde

63.99 Övriga informationstjänster
88.99 Tjänster avseende övriga öppna sociala insatser
94.99 Övriga tjänster som tillhandahålls av andra intresseorganisationer

Projektets syfte kopplat till utlysningens syfte

Syftet med förstudien är att lägga en grund för utveckling av automatiserade verktyg och analysmodeller i nästa steg.

Projektets mål kopplat till utlysningens syfte

Projektet har som mål att:

Slå fast vilka teoretiska modeller runt textanalys som kan användas
Slå fast vilken typ av data vi kan få tag på och hur detta kan ske
Slå fast hur mycket bearbetning av existerande dataset vi behöver göra
Identifiera lämpliga partners att arbeta med
Förankra idén med existerande skribenter samt Wikimedia Foundation

Potential och nytta

Genomförande. Projektplan inklusive tids- och aktivitetsplan, resurser, budget mm samt plan för nyttiggörande av resultatet

Wikipedia är en av världens mest använda webbplatser och den största faktasamling som världen skådat. 500 miljoner människor använder encyklopedin varje månad för att lära sig om allt mellan himmel och jord. Genom tidigare undersökningar vet vi att det finns en stor skevhet bland skribenterna, där mellan 86-91% uppgett att de är män. Frågan är om detta avspeglas även i innehållet och till vilken grad? Oavsett kausalitet mellan skribenternas kön och täckningen av olika ämnen på Wikipedia är det intressant att veta vad för normer som är rådande samt var detta haft störst påverkan och var de största bristerna finns och hur detta kan åtgärdas.

Ett första projekt inom området, finansierat av Wikimedia Foundation, har påbörjats med att baserat på detta indexera Wikipedias artiklar för att få en överblick över fördelningen mellan män och kvinnor i biografiska artiklar, både geografiskt som över tid. Det är ett litet och väl avgränsat projekt och det som fokuseras på är antalet artiklar. En bra start, men det snäva fokuset begränsar vilka insikter som kan nås. Det fokuserar även endast på binär könsuppdelning och data som behandlar andra normativa aspekter utelämnas. Projektet visar dock på intresset både hos gemenskap såväl som hos Wikimedia Foundation för mer information inom detta område.

För att ge en mer komplett bild skulle vi nu vilja undersöka, inte bara antalet artiklar, utan även olika kvalitativa aspekter gällande artiklarna. Hur detta kan kvantifieras har undersökts i ett flertal vetenskapliga publikationer och kan t.ex. inkludera längd, källor, antal redigeringar, antal återställningar, antal raderingar, antal mediafiler, hur väl kopplade de är till andra artiklar m.m. En del av informationen går att nå genom API-anrop medan andra kommer att kräva nedladdning av databasdumpar och analys av dessa. Dessa mätetal debatteras mycket livligt och kan variera mellan olika tematiska områden där olika skribenter varit aktiva. Det är därför centralt att det skall vara möjligt att välja mellan olika kriterier för att få ut sammanställningar av data (tänk en "Avancerad sökning" där det går att kryssa i om du vill att ex. "Antal redigeringar" skall tas i beaktande eller ej). På detta sätt kan olika grupper kontinuerligt undersöka och diskutera utvecklingen inom sina respektive intresseområden.

Det har de senaste åren även pågått ett intensivt arbete på många språkversioner av Wikipedia med att kategorisera biografiska artiklar bl.a. efter kön, geografisk tillhörighet, yrken m.m. Detta är den absolut grundläggande informationen för att vi skall kunna skapa verktyg. Arbetet har kommit väldigt långt, men det har dock skett organiskt och luckor kan därmed finnas. Detta är något vi kommer att titta vidare på i förstudien för att se om vi kan bidra på något sätt för att förbättra den data som behövs för normkritisk analys. Tanken är att vi genom de databasdumpar och API:er som Wikimedia Foundation har översiktligt kan presentera olika aspekter av artiklarnas tillstånd som en sorts "instrumentbräda", med arbetsnamnet Wikimedia Normative Index. Exakt vad som ska visas kommer att undersökas och definieras i Förstudien.

Vi kommer även att titta på möjligheten att som ett andra steg i Genomförandeprojektet försöka skapa en djupare normkritisk förståelse av det språk som används i Wikipedias innehåll. Detta är mer avancerat och svårare att skala upp till olika språkversioner, men väldigt viktigt för att sätta fingret på språkliga problem som finns i texter så att de systematiskt kan bearbetas. Ett sådant verktyg är extra viktigt på en crowdsourcing-plattform där texter inte går igenom en redaktionell process som innan publikation godkänner eller förkastar formuleringar. Idén är att om vi kan identifiera teoretiska modeller och tillvägagångssätt runt textanalys bör vi kunna undersöka ordval och språkbruk i olika artiklar för att peka på formuleringar som befäster normer för manuell hantering av normmedvetna volontärer som erbjuder alternativa formuleringar. Ett exempel är när mannen framställs som norm genom att kvinnor som grupp språkligt benämns, när så inte sker med en grupp av män. Utan en automatiserad genomgång, som är anpassningsbar för olika språkversioner, är det lätt att problematiska formuleringar ligger kvar i många år innan de upptäcks. Men genom att sätta fokus på detta och lyfta formuleringarna för diskussion (och idealt erbjuda alternativa formuleringar) kan detta trigga diskussioner i den aktiva volontärgemenskapen och leda till insikter och fördjupad förståelse och normmedvetenhet.

Verktyget utvecklas under den första delen av Genomförandeprojektet och kan i den senare delen av Genomförandeprojektet användas av akademiker för att normkritiskt analysera tillståndet på Wikipedias artiklar. Verktyget kommer att vara väldigt flexibelt för att göra många olika typer av undersökningar. Ett stort mått av flexibilitet ökar dock komplexiteten och översikten vid användandet varför vi även planerar att sätta upp webbplatsen Wikimedia Normative Index där vi fokuserar på att belysa intressanta aspekter vi tycker oss se, ex. skillnader mellan biografiska artiklar om kvinnor/män. Detta synliggörande kan användas för att skapa intresse för frågorna från media och framförallt från volontärer. Vi ser framför oss att detta verktyg kommer att vara till nytta för de olika tematiska samarbetsprojekten på Wikipedia (som ex. fokuserar på litteratur, skådespelare, vetenskapspersoner eller konst) när urvalet sker av vilka artiklar ska förbättras m.m. Detta är ett möjliggörande verktyg som ger bättre beslutsunderlag.

Med verktygets hjälp kan Wikipedias artiklar bli ännu bättre och ha en bättre täckning vilket gör produkten mer användbar och värdefull vilket förhoppningsvis kommer att sätta normkritisk granskning av texter i fokus i hela branschen.

Tids- och aktivitetsplan

max 8 månader

25 november 2015: Projektet startar (projektet kan endast med svårighet starta tidigare p.g.a. tidigare åtaganden samt att konferensen Wikimania sker i juli varje år)
December 2015-mars 2016: Tidigare arbete inom området gås igenom
Februari-maj 2016: Identifiering av vilken typ av data som är tillgänglig görs
Februari-maj 2016: Teoretisk bakgrund sammanställs
Maj 2016: Vilka mätare som skall presenteras på webbplatsen väljs ut baserat på tillgänglig data
Maj-juli 2016: Möjliga partners kontaktas om deltagande i genomförandeprojektet
Maj-juli 2016: Den information som är ofullständig identifieras och delprojekt för att förbättra denna definieras
Mars-juli 2016: Projektet kommuniceras ut till den aktiva gemenskapen på relevanta konferenser
25 juli: Projektet avslutas

Budget

max 75% kan vi få

Löner: 170 000 kr (Vinnova) 50 000 kr (WMSE); Tjänster:; Utrustning: 2 500 kr; Material: 2 500 kr; Immaterialrätt:; Indirekta kostnader: 70 000 kr (Vinnova), 25 000 kr (WMSE); Resor: 50 000 kr (Vinnova), 25 000 kr (WMSE); Övrigt: 5 000 kr
Summa: 300 000 kr varav kr söks från Vinnova: 100 000 kr från WMSE

Förtydligande av budget:

Kommunikation och upphovsrätt

För att nå ut till den aktiva volontärgemenskapen finns det några konferenser varje år som är relevanta att delta i för att sprida kännedom om projektet och de resultat som nåtts. De mest centrala är Wikimania (Italien 2016), Wikimedia Conference (Berlin), Diversity Conference (troligtvis Berlin) samt Wikimedia Hackathon (Israel). Målet är att få genomföra en eller flera presentationer, workshops, seminarier eller liknande på dessa för att få fler engagerade. Projektet går att genomföra redan nu, men med fler engagerade volontärer och Wikimedia-föreningar kan vi förbättra den data vi har så att vi kan ge en mer rättvisande bild under Genomförandeprojektet. Allt som finns på Wikimedias projekt är skapat organiskt genom crowdsourcing, vilket gör att vi tror att riktade insatser kommer att behöva genomföras och för att det skall ske måste folk känna till och engageras i arbetet.

Wikimedia Sverige är som organisation mycket van att arbeta med information på webben. Alla våra projekt kommuniceras på våra wikisidor, på bloggar, hemsidor och i sociala medier både i Sverige och internationellt.

Allt resultat och producerat material från projektet kommer att licensieras under Creative Commons-Erkännande-Dela lika (CC BY-SA 4.0) eller friare, vilket förenklar återanvändning och spridning av resultaten av vårt arbete. Rapporteringen av projektet kommer kontinuerligt att ske på Wikimedia Sveriges wiki och är tillgänglig för både Vinnova och andra intressenter. Allt material kommer att placeras på servrar som drivs av Wikimedia Foundation i USA.

All vetenskaplig publicering som kan komma att ske som en del av genomförandeprojektet kommer att vara Open Access.

Uppföljning och kvalitetsarbete

Förstudien ligger till grund för det efterkommande Genomförandeprojektet och kommer att innefatta en mer detaljerad plan samt en formell ansökan till Vinnova. Allt material kommer att tillgängliggöras på Wikimedia Sveriges wiki och kommer att kunna bearbetas och kopieras av samtliga intressenter.

Varje månad rapporteras resultatet av arbetet till Wikimedia Sveriges styrelse (rapporten publiceras öppet på Wikimedia Sveriges wiki).

8a. Behov *

Beskriv behov / problembild som ligger bakom projektet, samt potentialen i att behovet möts. Förklara vilket problem som angrips samt vem eller vilka som gynnas av att en ny lösning kommer fram. Det ska tydligt framgå vilka förarbeten som ligger till grund för er analys av behoven. 1000 tecken

Wikipedia (WP) är en av världens mest använda webbplatser och den största faktasamling som världen skådat. 500 miljoner människor använder encyklopedin varje månad. Genom studier vet vi att det finns en skevhet bland skribenterna, där ca 90% uppgett att de är män. Frågan är om detta avspeglas även i innehållet och till vilken grad? Oavsett kausalitet mellan skribenternas kön och täckningen av olika ämnen på WP är det intressant och viktigt att veta vad för normer som är rådande samt var detta haft störst påverkan och var de största bristerna finns och hur de kan åtgärdas. Det gynnar alla läsare och kan ge skribenter bättre förståelse.

Ett första projekt inom området, finansierat av Wikimedia Foundation, har påbörjats med att indexera WP:s artiklar för att få en överblick över fördelningen mellan män och kvinnor i biografier, både geografiskt som över tid. Det är ett litet och väl avgränsat projekt och det som fokuseras på är antalet artiklar. En bra start, men det snäva fokuset begränsar vilka insikter som kan nås. Det fokuserar även endast på binär könsuppdelning och data som behandlar andra normativa aspekter utelämnas. Projektet visar dock på ett befintligt intresse.

8b. Aktör/aktörskonstellation *

Beskriv er organisation och era projektparters organisationer. Beskriv varför ni är lämpade att driva förstudieprojektet. Redogör för vilken normkritisk kompetens samt innovationskompetens som finns i aktörskonstellationen. 800 tecken

Wikimedia Sverige driver projektet och genomför förstudien. WMSE är en ideell förening med syfte är att göra kunskap fritt tillgänglig för alla människor. Föreningen har ett kansli i Stockholm med 6 anställda och en aktiv och erfaren styrelse bestående av volontärer. Kansliets personal har de nödvändiga kunskaperna och erfarenheterna för att genomföra en undersökning av den här typen.

Wikimedia Sverige har drivit ett flertal framgångsrika projekt med stöd från Vinnova och har under de senaste två åren genomfört projekt med stöd från Myndigheten för ungdoms- och civilsamhällesfrågor för att förbättra jämställdheten på Wikimedias projekt, med ett specifikt fokus på svenskspråkiga Wikipedia. Projektet har varit framgångsrikt och nyligen beviljades projektstöd för ett tredje år. Detta projekt knyter väl in i det arbetet och det nätverk vi arbetat med där hoppas vi kunna engagera för Genomförandeprojektet.

8c. Innovation *

Beskriv typ av innovationer (ex. produktinnovation, processinnovation, organisatorisk innovation, systeminnovation, strategisk policy-innovation) som ett genomförandeprojekt eventuellt kan resultera i. Hur skiljer sig dessa från redan existerande lösningar? En omvärldsanalys ska beskrivas som tydliggör vad som redan finns inom området och på vilket sätt projektets bidrag är innovativt. 2500 tecken

Vi kommer inom projektet att utveckla en produkt som gör det möjligt att få en översikt över tillståndet på artiklarna på Wikipedia. Hur detta kan kvantifieras har undersökts i ett flertal vetenskapliga publikationer men ett välfungerande verktyg som presenterar det saknas. Mättetal kan t.ex. inkludera längd, källor, antal redigeringar, antal återställningar, antal raderingar, antal mediafiler, hur väl kopplade de är till andra artiklar m.m. En del av informationen går att nå genom API-anrop medan andra kommer att kräva nedladdning av databasdumpar och analys av dessa. Dessa mätetal debatteras mycket livligt och kan variera mellan olika tematiska områden där olika skribenter varit aktiva. Det är därför centralt att det skall vara möjligt att välja mellan olika kriterier för att få ut sammanställningar av data (tänk en ´Avancerad sökning´ där det går att kryssa i om du vill att ex. ´Antal redigeringar´ skall tas i beaktande eller ej). På detta sätt kan olika grupper kontinuerligt undersöka och diskutera utvecklingen inom sina respektive intresseområden.

Det har de senaste åren även pågått ett intensivt arbete på många språkversioner av Wikipedia med att kategorisera biografiska artiklar bl.a. efter kön, geografisk tillhörighet, yrken m.m. Detta är den absolut grundläggande informationen för att vi skall kunna skapa verktyg. Arbetet har kommit väldigt långt, men det har dock skett organiskt och luckor kan därmed finnas. Detta är något vi kommer att titta vidare på i förstudien för att se om vi kan bidra på något sätt för att förbättra den data som behövs för normkritisk analys. Tanken är att vi genom de databasdumpar och API:er som Wikimedia Foundation har översiktligt kan presentera olika aspekter av artiklarnas tillstånd som en sorts ´instrumentbräda´, med arbetsnamnet Wikimedia Normative Index. Exakt vad som ska visas kommer att undersökas och definieras i Förstudien.

För att ge en mer komplett bild skulle vi nu vilja undersöka, inte bara antalet artiklar, utan även olika kvalitativa aspekter gällande artiklarna. Hur detta kan kvantifieras har undersökts i ett flertal vetenskapliga publikationer och kan t.ex. inkludera längd, källor, antal redigeringar, antal återställningar, antal raderingar, antal mediafiler, hur väl kopplade de är till andra artiklar m.m. En del av informationen går att nå genom API-anrop medan andra kommer att kräva nedladdning av databasdumpar och analys av dessa. Dessa mätetal debatteras mycket livligt och kan variera mellan olika tematiska områden där olika skribenter varit aktiva. Det är därför centralt att det skall vara möjligt att välja mellan olika kriterier för att få ut sammanställningar av data (tänk en ´Avancerad sökning´ där det går att kryssa i om du vill att ex. ´Antal redigeringar´ skall tas i beaktande eller ej). På detta sätt kan olika grupper kontinuerligt undersöka och diskutera utvecklingen inom sina respektive intresseområden.

8d. Innovationsprocess *

Beskriv hur ni tänker arbeta för att åstadkomma en innovationsprocess som möjliggör utvecklingen av innovationer. (om detta inte sker i förstudien beskriv hur planerna ser ut för ett genomförandeprojekt). 1000 tecken

Projektet kommer att använda en iterativ metod med stor transparens och med öppenhet för crowdsourcade bidrag. Genom de internationella mailinglistor som finns kommer synpunkter på föreslagna funktioner att hämtas in. Hela processen drivs i huvudsak på en öppen wiki och kommer att använda sig av koncept lånade från Open Innovation. Denna del kommer att var mest tydlig i genomförandeprojektet snarare än förstudien, även om tankesättet kommer att genomsyra hela verksamheten.

8e. Angreppssätt/metod *

Beskriv den eller de metoder/angreppssätt som ska användas för att generera innovation, på vilket sätt den/de är normkritiska samt vilka normkritiska aspekter metoden/angreppssätt tar utgångspunkt i. (om detta inte sker i förstudien beskriv hur planerna ser ut för ett genomförandeprojekt). 1500 tecken

En systematiserad teoretisk genomgång kommer att lägga grunden för att specificera vilken typ av data vi behöver presentera för att ge läsare och skribenter en djupare förståelse av skillnaderna på artiklarnas tillstånd. Det teoretiska ramverket styr sedan vilka processer och metoder som utarbetas samt den rent tekniska utvecklingen. Det kommer även påverka vilken data vi kommer att bjuda in volontärer till att förbättra.

Vi kommer även att titta på möjligheten att som ett andra steg i Genomförandeprojektet försöka skapa en djupare normkritisk förståelse av det språk som används i Wikipedias innehåll. Detta är mer avancerat och svårare att skala upp till olika språkversioner, men väldigt viktigt för att sätta fingret på språkliga problem som finns i texter så att de systematiskt kan bearbetas. Ett sådant verktyg är extra viktigt på en crowdsourcing-plattform där texter inte går igenom en redaktionell process som innan publikation godkänner eller förkastar formuleringar.

Idén är att om vi kan identifiera teoretiska modeller och tillvägagångssätt runt textanalys bör vi kunna undersöka ordval och språkbruk i olika artiklar för att peka på formuleringar som befäster normer för manuell hantering av normmedvetna volontärer som erbjuder alternativa formuleringar. Ett exempel är när mannen framställs som norm. Utan en automatiserad genomgång, som är anpassningsbar för olika språkversioner, är det lätt att problematiska formuleringar ligger kvar i många år innan de upptäcks. Men genom att sätta fokus på detta och lyfta formuleringarna för diskussion (och idealt erbjuda alternativa formuleringar) kan detta trigga diskussioner i den aktiva volontärgemenskapen och leda till insikter och fördjupad förståelse och normmedvetenhet.

8g. Organisation och styrning *

Beskriv förstudieprojektets organisation och roller (styrgrupp/ referensgrupp/ arbetsgrupp/ projektledare etc.), samt hur projektet skall styras. Om flera projektparter finns, förklara deras roll. Beskriv projektledarens kompetens och drivkrafter för att klara av projektet. Namnge även andra personer med nyckelfunktioner i projektet och beskriv deras kompetens. 500 tecken

Sara Mörtsell är projektledare och har arbetat hos Wikimedia Sverige i 1,5 år som utbildningsansvarig och driver arbetet med Wikipedias utbildningsprogram med samverkanspartners inom skola och högre utbildning. Sara har också varit projektledare för Wikimedia Sveriges arbete för ökad mångfald bland Wikipedias skribenter där fokus tydligt varit på jämställdhet och kvinnors representation i gemenskapen.

Jan Ainali är innovations- och designingenjör och bidrar med expertis kring innovation och Wikimedias olika API:er. Jan har stor vana att visualisera data och statistik.

8h. Plan för spridning och förankring *

Beskriv er plan för hur förstudieprojektet och dess resultat ska kommuniceras och spridas under projektets gång och efter avslut. 300 tecken

Målet är att få genomföra presentationer på konferenser i Wikimediasfären för att få fler engagerade. Med fler engagerade kan vi förbättra den data vi har så att vi kan ge en mer rättvisande bild.

Allt material licensieras under CC BY-SA 4.0. All vetenskaplig publicering som kan komma att ske kommer att vara Open Access.