vrijdag 7 februari 2014

Fröbelen met figshare

Voor het project RDM Ondersteuning haal ik ideeën en inspiratie uit het werk van anderen, bijvoorbeeld uit Data Intelligence 4 Librarians, RDMRose, MANTRA en verschillende RDM-websites. De makers van deze trainingen en websites hebben de dingen die zij maakten online beschikbaar gesteld voor hergebruik, doorgaans onder een CC BY- of CC BY-SA-licentie. Dat vind ik een goed voorbeeld om te volgen, ook als ik hun werk niet letterlijk citeer, vertaal of bewerk.

UvA-DARE, het institutionele repository voor publicaties van UvA-medewerkers, was daarvoor geen optie, omdat het niet bedoeld is om lesmateriaal te delen. Box, Dropbox en soortgelijke websites bieden weliswaar opslagruimte en links waarmee je bestanden met anderen kunt delen, maar ze richten zich niet op aantrekkelijk publiceren of presenteren. Slideshare was vanuit dat perspectief wel een optie, maar die website biedt geen permanente links en geen mogelijkheid om gerelateerde bestanden te groeperen. Enter figshare, een website die is opgezet voor het delen van onderzoeksresultaten die niet naadloos in traditionele publicatievormen passen.

figshare is hard op weg om een interessante verzamelplaats van afbeeldingen, video- en audiobestanden, datasets, conferentieposters, papers en presentaties te worden. Het voorziet in behoeften die wetenschappelijke tijdschriften en andere repository's niet vervullen: data van experimenten die niet succesvol waren, kunnen van waarde zijn bij het opzetten van nieuw onderzoek, maar publicaties over 'mislukt' onderzoek verliezen het gevecht om tijdschriftruimte van publicaties over succesvolle experimenten en de data zelf zijn (al of niet door het ontbreken van een gerelateerde publicatie) in sommige repository's niet welkom. Bovendien 'produceren' onderzoekers meer dan het traditionele artikel; al tellen ze in onderzoeksregistratiesystemen en onderzoeksimpactberekeningen (nog) niet altijd mee, ook conferentieposters en presentaties zijn van waarde voor het verspreiden van onderzoeksresultaten.

Om bestanden te kunnen delen via figshare dien je een gratis account te openen. Bij dat account hoort 1GB aan opslagruimte voor bestanden die je voor jezelf houdt; bestanden die je openbaar maakt, tellen voor je gebruik van opslagruimte niet mee. De website is, om oprichter Mark Hahnel te citeren, "stupidly simple" in het gebruik: nadat je via de upload-link een bestand van je harde schijf hebt geselecteerd en op figshare hebt gezet, voer je de belangrijkste gegevens over het bestand in en besluit je of je het bestand publiceert, en met een druk op de knop Save changes ben je klaar.

De gegevens die je kunt invoeren, zijn Type of file (voorkeuzemenu), Title, Author(s) (je eigen naam staat er al), Categories (vakgebied, voorkeuzemenu), Tags (suggesties verschijnen zodra je begint te typen), Description, en Links. De beschrijving mag je zo kort houden of lang maken als je wilt, er geldt geen (dwingend) minimum of (zeurderig) maximum aantal tekens voor dit veld. Toegevoegde links worden aanklikbaar, zodat bezoekers van figshare direct naar (bijvoorbeeld) een gerelateerde blogpost kunnen doorklikken. Je kunt de gegevens van een bestand te allen tijde wijzigen; via de replace-link in het wijzigingsmenu kun je het bestand bovendien vervangen door een nieuwere versie ervan.

Zodra je een bestand publiceert, krijgt het een Digital Object Identifier (DOI). Voor bestanden die je nog niet wilt publiceren, kun je alvast een DOI reserveren. Gerelateerde bestanden kun je groeperen in een fileset - te onderscheiden van het bestandstype dataset, dat een enkele tabel kan zijn. Een fileset krijgt een eigen pagina, waar de bestanden individueel en de set als geheel gedownload kunnen worden. Ook filesets krijgen bij publicatie een eigen DOI. Een derde pluspunt van figshare is versiebeheer: als je een gepubliceerd bestand door een nieuwere versie vervangt, gaat de DOI van het bestand naar de nieuwste versie verwijzen; onder aan de publieke pagina waarop het bestand staat, wordt aangegeven dat er een eerdere versie is en kan daarnaar worden doorgeklikt.

Minpuntjes zijn er ook: in de preview van PowerPointbestanden rolt tekst die in werkelijkheid toch echt keurig op de slide past, van de slide af, en in de preview van Wordbestanden met een plaatje in de koptekst – bijvoorbeeld het UvA-logo – verschijnen ter hoogte van het plaatje letters die er in het origineel en in een download van het bestand niet staan. Met voorzetsels in Nederlandse achternamen doet figshare wat ook in referentiesoftware nog wel eens misgaat: in de automatisch gegenereerde citatie heet ik "van Selm, Mariette" in plaats van "Selm, Mariette van". En de integratie met ORCID is nog niet zoals-ie moet zijn: de bestanden die ik vorige week op mijn figshare-pagina zette, zijn nog niet tot mijn ORCID-pagina doorgedrongen.

Met betrekking tot de licentie waaronder ik mijn maaksels ter beschikking stel, ben ik eigenwijs geweest. De website van figshare meldt dat datasets onder CC0- en andere bestandstypen onder CC BY-licentie vallen. Omdat ik ook gebruik maak van materiaal dat onder CC BY-SA-licentie beschikbaar is, houd ik voor mijn eigen bestanden die 'beperktere' licentie aan en vermeld ik die in de bestanden. Als ik word afgewezen als figshare advisor weet ik waar het door komt ;-)

dinsdag 4 februari 2014

RDM-ondersteuning in 21 vragen

Een training ontwerpen op basis van a) wat de beoogde deelnemers al weten en b) wat zij belangrijk vinden om aan de weet te komen. Dat wilde ik bij het opzetten van de training research data management (RDM) voor mijn collega's, de informatiespecialisten van de Bibliotheek van de Universiteit van Amsterdam. Een handvat voor zo'n peiling van kennisbehoefte vond ik bij RDMRose, en ik maakte er een Nederlandstalige variant van.

Het project RDMRose, waar ik in maart 2013 een paar dagen in de keuken mocht kijken, resulteerde in lesmateriaal over onderzoeksdatamanagement voor informatieprofessionals. Dit materiaal kan gebruikt worden bij face-to-face training – tijdens het project is het materiaal getest bij de Universiteitsbibliotheken van Sheffield, Leeds en York, en het is de bedoeling dat het ook binnen de iSchool van de Universiteit van Sheffield wordt gebruikt. Daarnaast is het geschikt voor 'training op eigen houtje', netter geformuleerd: self-directed Continuing Professional Development (CPD).

Voor wie niet de gelegenheid heeft om het lesmateriaal van alle acht thema's binnen RDMRose door te nemen, is een self evaluation tool (Worddocument) gemaakt: een lijst met aspecten van research data management die je kunt waarderen op twee punten, nl. je huidige kennis ervan en het belang van (het opdoen van) kennis ervan voor jou. Bij elk item staat aangegeven welke onderdelen van RDMRose voor dat aspect van belang zijn, zodat je aan de hand van je eigen kennisbehoefte die onderdelen van het lesmateriaal kunt doorwerken die voor jou het belangrijkst zijn.

Naar dat voorbeeld maakte ik een eigen vragenlijst: ik liet weg wat ik wel in de lijst van RDMRose vond, maar voor mijn collega's minder relevant achtte, en voegde op basis van andere bronnen vragen toe die ik bij RDMRose miste. Ik kwam uit op 20 vragen over allerlei ingrediënten van onderzoeksdatamanagement: nut en noodzaak, ondersteuning, beleid, hindernissen en voor(oor)delen bij het delen van onderzoeksdata, etc. Deze vragen wilde ik door mijn collega's laten beoordelen op een schaal van 0 (= ik heb geen idee wat het antwoord op de vraag is) tot en met 4 (= ik kan de vraag prima beantwoorden).

Het vinden van een vorm die voor zowel mijn collega's als mijzelf handig zou zijn, bleek een puzzel. Een Worddocument met twee kolommen – één voor de huidige kennis en één voor het belang van die kennis – zou eenvoudig in te vullen zijn, maar het verwerken van de antwoorden tamelijk arbeidsintensief maken. Een Google-formulier zou eenvoudig in te vullen en te verwerken zijn, maar daarin kon ik geen twee kolommen kwijt.

Een test van het Google-formulier op twee collega's leerde me dat het tweemaal stellen van de vragen – hen de 20 vragen eerst laten beantwoorden in relatie tot hun huidige kennis en hen vervolgens de 20 vragen nogmaals te laten beoordelen vanuit een "dit moet ik weten om mijn onderzoekers goed te ondersteunen" – verwarrend werkte. Ik korte het formulier daarom in: 20 vragen, te beoordelen vanuit huidige kennis, en daarna één open vraag: "Je hebt in de voorgaande 20 vragen allerlei aspecten van (het ondersteunen van) onderzoeksdatamanagement voorbij zien komen. Welke aspecten zijn voor jou het belangrijkst? Wat wil jij na afloop van de training in elk geval weten of kunnen? Wat heb jij nodig om jouw onderzoekers het beste te kunnen ondersteunen?"

Nadat de vragenlijst in november 2013 door alle collega's was ingevuld, verwerkte ik de antwoorden op de gesloten vragen met behulp van Excel in pivot tables waarvan ik een grafiek maakte. De standaardkleuren die Excel aan balken in een grafiek geeft, verving ik door verkeerslichtgradaties: 0 (dat weet ik niet) werd rood, 1 (dat weet ik nauwelijks) werd lichtrood, 2 (dat weet ik ongeveer) werd oranje, 3 (dat weet ik goed) werd lichtgroen, en 4 (dat weet ik heel goed) werd groen. Daarmee geeft de grafiek per vraag weer hoe groot de kennisbehoefte is, en is in één oogopslag te zien of er een trainingsnoodzaak is.

Dat gezegd zijnde: de vragenlijst was voor mij een middel, en de grafiek was niet het doel. De scores van de gesloten vragen hebben me geholpen om de thema's voor de trainingsbijeenkomsten te identificeren. De vragen zelf hielpen bij het formuleren van leerdoelen. En in het lesmateriaal dat ik voor de training maak, geef ik aan – al was het alleen maar om voor mezelf te kunnen controleren of alle vragen inderdaad in de training aan bod komen – op welke vragen uit de vragenlijst het betrekking heeft.

De antwoorden op de open vraag gaven me inzicht in de verwachtingen van mijn collega's ten aanzien van de training. Een belangrijk punt – en een echo van wat ik in Engeland hoorde – was: maak het concreet, wat gaan we nu precies dóen? Daarom krijgt de laatste trainingsbijeenkomst het thema 'Data en dienstverlening'. Hoe een informatiespecialist een onderzoeker kan ondersteunen, komt in elke trainingsbijeenkomst wel (impliciet) aan de orde; in de laatste bijeenkomst maken we het, op basis van de voorafgaande bijeenkomsten en de ervaringen die elke informatiespecialist met zijn of haar eigen onderzoekers heeft, samen expliciet.

Als mijn collega's me tegen het einde van de training nog niet zat zijn, leg ik de vragenlijst nogmaals aan hen voor. Als de grafiek dan 'n stuk groener uitpakt, hebben we met z'n allen iets goed gedaan :-)

De vragenlijst is onder CC-BY-SA-licentie beschikbaar via figshare (Worddocument met toelichting).