Semantiske data, Wikipedia og Wikidata

Wikipedia har en stor mengde semantiske data, men disse er ikke lett tilgjengelig for de er lagret som parametre til maler på de enkelte sidene. I noen tilfeller kan de også bli lagret i malparametre på andre sider som så inkluderes på artiklenes sider, eller transkluderes som det sies på Wikipedia. Når sidene vises frem så får en med hele taggsuppa og all semantikk er tapt. Dette gjør det ikke er helt enkelt å gjenbruke Wikipedia som et semantisk datalager, selv om det er mulig å bruke URLene som identifikatorer. Det er derimot mulig å gå veien om andre tjenester for å få tak i de samme dataene og disse har også mer velstrukturerte URIer som vi kan bruke som identifikatorer.

DBpedia og Freebase

For å løse dette problemet ble DBpedia til som et samarbeidsprosjekt mellom Universität Leipzig, Freien Universität Berlin og OpenLink Software. I dette prosjektet høstes data fra Wikipedias maler, kategorier og tildels annen lenkestruktur av programvareagenter (automatiserte botter – små programmer) hvoretter dataene struktureres og lagres som triplets (små datastrukturer som består av subjekt, predikat og objekt) i de tilsvarende beskrivelsene på DBpedia.

Det er unektelig spennende å bruke botter for å gjøre dette, og mengden data som kan høstes fra Wikipedia er enorm, men metoden har enkelte svakheter. På Wikipedia er det veldig lite kontroll med hva som skrives inn i disse malparametrene. Det gjør at en angivelse av innbyggertall kan inneholde et tall (42), en tekstlig versjon av et tall (førtito), et tall og en enhet (42 mennesker), eller en frase (42 mennesker og en hund). I tillegg kan det tas med referanser som dokumenterer hvor dataene kom fra. Vanligvis er det nokså ryddig, men det er ikke noe som hindrer at dette skjer. Det gjør jobben vanskelig for automatiserte botter.

DBpedia høster også fra andre kilder, og mange av disse er nok både enklere og mer velstrukturerte enn Wikipedia. Det gjør at DBpedia har en nokså unik rolle ved at data fra ulike kilder blir knyttet sammen. På sett og vis er dette en vel så viktig, og kanskje en viktigere egenskap ved DBpedia enn deres litt rufsete datakvalitet.

Et annet tilsvarende prosjekt er Freebase. I dette prosjektet er det lagt større vekt på at innholdet skal være kuratert og det er også satt strengere krav til datakvalitet. Det gjør at mengden data (i form av antall beskrivelser og antall tripler) er mye mindre enn på DBpedia, men sjansen for å få tekst i felt som burde være tall er mye mindre.

Wikidata

Nettsamfunnet på Wikimedia så at hverken DBpedia eller Freebase var en god løsning. Istedenfor å høste fra Wikipedia burde Wikipedia selv ha et semantisk datalager. Da kan artikler på alle språk bruke data fra dette datalageret, og ikke minst så kan arbeid lagt i en artikkel på ett språk gjenbrukes i tilsvarende artikler på alle de andre språkene. Hvis noen andre trenger de samme dataene så kan også de bruke disse dataene.

Våren 2012 startet prosjektet som skrev koden som skulle til for å lage Wikidata, og sent på året ble selve nettstedet satt opp. Til å begynne med ble kun den nødvendige strukturen satt opp for å understøtte det som i Wikipedia er kalt språklenker (langlinks), det vil si lenkene som går på kryss og tvers mellom utgaver på forskjellige språk. Disse er ofte feilaktig omtalt som iw-lenker (iwlinks). På en generalisert form ble disse til nettstedlenker (sitelinks) på Wikidata. Denne strukturen er nødvendig for å holde styr på hva en artikkel heter på de forskjellige språkene. Det er lett å finne ut at Oslo heter det samme både på bokmål og engelsk, men kanskje ikke så opplagt at byen heter 오슬로 på koreansk.

Etter at dette var på plass startet arbeidet med å definere relasjoner mellom interne beskrivelser på Wikidata. Dette er det som omtales som lenker til ressurser i RDF, eller lenker til et datasett (item) slik ordboka er definert på Wikidata. En intern beskrivelse på Wikidata er et datasett som plasseres på en side på Wikidata og beskriver alle forholdene ved en entitet. I semantiske data snakker vi om subjekt, predikat og objekt. Et datasett i Wikidata tilsvarer subjektet.

Wikidata har definert sine egne begrep som ikke alltid er helt i overensstemmelse med hva som er vanlig innen semantiske data og lenka data. Det som beskrives er en lagringsstruktur for semantiske data, og for en stor del er strukturen helt i overensstemmelse med metodene som er kjent fra lenka åpne data. Når en henter RDF fra Wikidata så ser de litt merkelig ut, men det er fordi det brukes tingliggjorte utsagn (reified statements) isteden for ordinære tripler. Det gjør at triplene blir mer komplekse, de er selv entiteter, men at de er også mer eksakte og beskrivende.

I hvert datasett listes det et antall utsagn. Hvert slikt utsagn har en egenskap (property). Disse egenskapene tilsvarer predikatene i semantiske data.

Hver egenskap har i tillegg en tilordnet verdi, som kan være en primitiv verdi (literal data) eller den kan være en lenke. Disse verdiene tilsvarer objektene i semantiske data.

Et sentralt arbeidsområde på Wikidata er når dette skrives å implementere støttefunksjonene for de viktigste slike primitive verdier. Ikke bare skal en kunne skrive inn verdiene, en skal også kunne søke de opp og hente de ut. Noen slike verdier er veldig enkle, mens andre kan være svært komplekse. Wikidata støtter flerspråklige dataverdier og det som kalles datatyping (data typing), men foreløpig er Wikidata litt dårlig på å publisere egenskaper og deres verdier.

Fordi utsagn på Wikidata er tingliggjorte så har et utsagn (eller en triplet) flere hjelpepåstander hektet på seg. Disse kan for eksempel si noe om tilhørighet for utsagnet, og da kan en steinøks bli datert til mellomneolitikum av NTNU Vitenskapsmuseet. Vitenskapsmuseet er da eieren av påstanden om at steinøksa er fra mellomneolitikum. Det er også en spesiell gruppe av slike hjelpepåstander som viser til hva som er kilden for utsagnet. Det er ikke alltid at et utsagns tilhørighet er den samme som har publisert utsagnet opprinnelig. For eksempel kan eierskapet på utsagnet være Vitenskapsmuseet, men stedet hvor noen fra Wikidata observerer utsagnet er i DigitaltMuseum.

Lenking til og fra Wikidata

En sentral tjeneste for et fungerende trippelstore er at det skal kunne brukes for å identifisere en entitet og det skal kunne returnere nyttig informasjon om entiteten. Hvis en lenker til Q585 på Wikidata, som er det samme som Oslo, så vil en komme frem til siden som brukes for redigering. Grunnen til at vi havner på denne siden er at vi ber om HTML under innholdsforhandlingen (content negotiation).

Det første som skjer er at vi gir adressen til Oslo, dermed får vi en «oops – kan ikke sende deg Oslo på en digital linje», og isteden sender Wikidata «HTTP 303 – See other» og med en lenke. Deretter prøver nettleseren denne adressen og får til svar «hva vil du ha, RDF eller HTML?» Fordi nettleseren er for mennesker så sier den HTML og havner på den vanlige websiden. Hvis vi hadde svart at vi ønsket RDF, slik en maskin ville, så hadde vi fått det samme som vi kan hente ut på .

Denne formen for runddans, det kalles ofte 303-dansen, er det som er beskrevet av W3 som Cool URIs for the Semantic Web. Den er helt sentral for å både kunne identifisere en entitet, og bruke identifikatoren (URIen) for entiteten som en lenke til en mer omfattende beskrivelse av entiteten.

I virkeligheten ønsker vi å få det hele til å snurre litt raskere. Så lenge det er en wiki inni URLen til Wikidata så sendes en rett videre til HTML-siden. Hvis det derimot er en entity der isteden så vil en bli sendt til siden Special:EntityData og derifra til en side som passer for leseren avhengig av om hun er menneske eller maskin.

Det er mulig å lenke fra Wikidata og til det som kalles kilder (sources), og det er mulig å lenke til artikler på Wikipedia, Wikisource, Wikivoyage og Commons. Det er derimot ikke mulig å lenke til en vilkårlig side ute på nettet for dermed å få definert en owl:sameAs. Det er antatt at dette vil bli mulig i fremtiden, men det er ikke mulig nå. Dette er en alvorlig hindring som gjør det vanskelig å få Wikidata til å opptre som en integrert del av den semantiske web’en.

Det som mangler er at det ikke finnes en integrert egenskap (predikat) som er en full-blown ressurs. Dette kommer til uttrykk i Wikidatas overflod av identifikatorer for spesifikke systemer. Det er spesialiserte egenskaper som gir en implisitt datatype for danske, svenske og finske og svenske kommuner. Det er merkelig nok ingen slik for norske kommuner.

Sammendrag

Vi kan lenke til Wikidata og bruke det som om det var hvilket som helst annet lager (repository), med unntak at det ikke publiserer literal data for øyeblikket, men vi kan ikke fortelle lageret at vi selv publiserer data. Mer spesifikt så kan vi ikke fortelle repositoryet at data vi publiserer kan være nyttige for andre som bruker Wikidata, og enda mer spesifikt at noen eller alle av våre data ikke blir tilgjengelig i Wikipedia. Alle data som skal viderepubliseres fra Wikidata må legges inn som literal data, og selv om det er ønsket fra flere hold å kunne inkludere eksterne data automatisk så er dette ikke mulig. Dette er særdeles uheldig.

Det finnes verktøy for å inkludere referanser til våre egne data i DBpedia, men dette repositoryet er resultatet av en enveisaktivitet ut av Wikipedia. Hvis vi ønsker data inn i Wikipedia så er ikke DBpedia løsningen. I tillegg har DBpedia problemer med datakvalitet, slik at det som er mest aktuelt er lenking til våre repository og ikke materialisering fra våre repository og til DBpedia.

Freebase er noe bedre enn DBpedia, men også dette repositoryet har sine problemer.

Et alternativ er å legge literal data inn i Wikipedia, men det er en lite tilfredstillende løsning hvis formålet er å gjøre de tilgjengelig som tripler. Hvis vi legger inn dataene i Wikipedia så må noen parse de ut igjen fra taggsuppa og dette er en prosess som introduserer feil.

Resultatet er at vi kan bruke Wikidata for å skape felles identiteter, men for ikke så mye mer. En vei rundt er å sikre Wikidata tilstrekkelige ressurser slik at de kan forsere jobben med å skape lenkingen innenfra og ut, men er det vilje til noe slikt?

Kategorier: Andre prosjekt, DBpedia, Freebase, Lenka data, Linked Open Data, LOD, Semantisk web, Wikidata, Wikipedia

Abonner

Subscribe to our RSS feed and social profiles to receive updates.

Ingen kommentarer så langt.

Legg igjen en kommentar

Fyll inn i feltene under, eller klikk på et ikon for å logge inn:

WordPress.com-logo

Du kommenterer med bruk av din WordPress.com konto. Logg ut / Endre )

Twitter picture

Du kommenterer med bruk av din Twitter konto. Logg ut / Endre )

Facebookbilde

Du kommenterer med bruk av din Facebook konto. Logg ut / Endre )

Google+ photo

Du kommenterer med bruk av din Google+ konto. Logg ut / Endre )

Kobler til %s