Linken met Wikidata: Deel 3 - En dan? Usecases

In de vorige blogs hebben we uitgelegd wat Linked data is en waarom en hoe we met Wikidata werken. Inmiddels is een steeds groter deel van de GTAA gelinkt met Wikidata. Maar wat kunnen we nou eigenlijk met deze data? In deel 3 zijn twee stagiairs, studenten Information Sciences van de VU, aan het woord: John Brooks, die zich focust op de onderzoeker als gebruikersgroep, en Tim de Bruyn die zich heeft bezig gehouden met meer interne behoeften rondom de gelinkte thesaurus.

Blog

6 augustus 2018

Jesse de Vos

Werkzaam bij Beeld & Geluid tot december 2021

Thema's

Gebruikersgroep: onderzoekers - John

In mijn onderzoek heb ik me gericht op onderzoekers die de audiovisuele collectie van Beeld & Geluid gebruiken als onderzoekscorpus. Ik heb interviews gehouden met onderzoekers gespecialiseerd in de velden sport, politiek en ontwrichtende media-gebeurtenissen om hun wensen in kaart te brengen met betrekking tot het platform dat gebruikt wordt om het audio-visueel materiaal te doorzoeken, de CLARIAH Mediasuite (toegankelijk voor mensen met een SURFnet account).

Nadat de wensen in kaart waren gebracht zijn Tim en ik gezamenlijk begonnen met het analyseren van de data in de thesaurus van Beeld & Geluid, de Gemeenschappelijke Thesaurus Audiovisuele Archieven (GTAA) en de data op Wikidata. We hebben gekeken in hoeverre de data compleet is, zowel in de GTAA als in Wikidata, en welke ‘properties’ of eigenschappen van Wikidata relevant zou kunnen zijn voor verschillende doelgroepen. Zo heeft 95% van de GTAA-personen op Wikidata minimaal één beroep ingevoerd als eigenschap, 97% een geslacht en 95% een geboortedatum. Voor minder algemene eigenschappen lopen die percentages uiteraard terug.

Toen eenmaal de data in kaart was gebracht scheidden onze wegen en ben ik aan de slag gegaan met het uitwerken van een use case: het implementeren van de functionaliteit van Wikidata in de Clariah Mediasuite. Hiervoor heb ik een mock-up prototype van de Clariah Mediasuite gecreëerd en daarin een extra tool geïntroduceerd, genaamd ‘the Wikidata Retrieval Service’.

Figuur 1

The Wikidata Retrieval Service is bedoeld voor onderzoekers om exploratief onderzoek uit te voeren. Het laat gebruikers kiezen uit verschillende eigenschappen (denk aan; beroep, geslacht, lid van politieke partij, enz.) die het van Wikidata haalt. De gebruiker krijgt de kans om te filteren op verschillende eigenschappen om zo een lijst op te kunnen halen van mensen die aan de gekozen combinatie van eigenschappen voldoen. Achter de schermen haalt het systeem door middel van SPARQL queries live de bijbehorende data van Wikidata op.

In figuur 1 is het design van the Wikidata Retrieval Service te zien. De gebruiker typt een zoekquery in; in dit geval Groenlinks. De gebruiker krijgt een lijst te zien van alle leden van Groenlinks en kan op de twee knoppen klikken om extra informatie over bepaalde personen te bekijken. Aan de hand daarvan kan hij een keuze maken van welke personen hij beeldmateriaal wilt bekijken. Deze kunnen dan geselecteerd worden en als zoekvraag fungeren.

Een relatief eenvoudige SPARQL query.

Uit de evaluatie met onderzoeks bleek dat de Wikidata Retrieval Service als een waardevolle aanvulling wordt gezien. Het kan vooral helpen bij het exploratief en verbredend zoeken wanneer de onderzoeker nog een beeld moet vormen van zijn onderzoeksveld. De Wikidata Retrieval Service maakt het mogelijk om een veelvoud van eigenschappen in te stellen en de personen die daaraan voldoen op te halen uit Wikidata. De functionaliteit erachter is gebaseerd op SPARQL queries in de Wikidata Query Service. Theoretisch gezien zou een onderzoeker zelf SPARQL kunnen leren, maar in figuur 2 is te zien dat zelfs een simpele query al heel ingewikkeld kan zijn. De interface van de Wikidata Retrieval Service faciliteert dit.

Gebruikersgroep: bezoekers website Beeld & Geluid - Tim

Aan de hand van onderzoek en interviews zijn er drie use cases opgezet voor de verrijkte GTAA. Allereerst: Beeld & Geluid beheert een archief waarop voor het grootste gedeelte nog auteursrecht rust. Het blijkt in de praktijk lastig om collectie-onderdelen aan te wijzen die in het Publieke Domein vallen omdat in veel gevallen het auteursrecht vervalt 70 jaar na de dood van een maker. De sterftedatum van makers is echter niet opgenomen in de systemen van Beeld & Geluid. Deze informatie is op Wikidata wel vaak beschikbaar. Op basis van een SPARQL query heb ik de overlijdensdata van alle aan de GTAA gekoppelde Wikidata-items geëxporteerd. Vervolgens heb ik deze data omgeschreven naar de eerste januari, ná de overlijdensdatum. Dit is namelijk de datum waarop het auteursrecht vervalt. Op basis van die data is een Google agenda notificatie gerealiseerd die de relevant medewerkers informeert over makers wiens auteursrecht is verlopen.

De tweede en derde use case die uit het onderzoek naar voren kwamen hadden allebei betrekking tot het verhalen platform. Het verhalen platform van de Beeld & Geluid is nog volop in ontwikkeling. In de tweede use case is gekeken hoe informatie van Wikidata geautomatiseerd kan worden toegevoegd aan de belangrijkste belangrijkste personen die in een verhaal genoemd worden. Denk aan feitelijke informatie zoals leeftijd, beroep en woonplaats etc. De derde use case heeft zoals eerder genoemd ook betrekking op het verhalen platform. In deze use case wordt de data uit Wikidata die gekoppeld is aan personen gebruikt om mogelijke recommendations te geven aan de auteur voor andere verhalen of voor items uit het archief. Van de personen die in het verhalen voorkomen worden aanvullende zoektermen uit Wikidata gehaald. Die termen leveren nieuwe zoekresultaten op die door auteur kunnen worden beoordeeld op relevantie en toegevoegd als aanbeveling voor de lezer.

Meer info

De masterscriptie van John Brooks lees je hier, van Tim de Bruyn lees je hier
In de maand juli zijn er ruim 20.000 matches goedgekeurd op Wikidata! Er zijn er nog 26.000 te gaan. Hier lees je hoe je mee kunt helpen.

Linken met Wikidata: Deel 3 - En dan? Usecases

Blog

Jesse de Vos

Thema's

Gebruikersgroep: onderzoekers - John

Gebruikersgroep: bezoekers website Beeld & Geluid - Tim

Meer info

Andere blogs in deze serie

DEEL 1: WAT IS LINKED DATA?

DEEL 2: HET WAT EN HOE