OGC: ICT & Onderzoek

ICT en Onderzoek Geesteswetenschap

Hoofding afbeelding 1

Sociale spanningenindicator CBS vandaag gelanceerd

24th maart 2017 · Geen reacties

Het Centraal Bureau voor de Statistiek komt vandaag met de eerste versie van haar sociale spanningenindicator. Een fantastisch initiatief, omdat het CBS verder gaat dan de vele algemene metingen die in omloop zijn. Vaak zie je allerlei bureautjes en individuele onderzoekers redelijk ongericht Twitterdata bijeen harken op basis van snel bedachte gebruikerskenmerken en dito trefwoorden. De CBSindicator onderscheidt zich door een doordacht combineren van kwalitatief en kwantitatief onderzoek, zodat de observaties meer focus hebben.

 

Klik op de grafiek om te vergroten

De sociale spanningen indicator is gebaseerd op een woordenlijst die tot stand kwam in diepte-interviews, en werd aangevuld met synoniemen. De meest frequent gebruikte woorden zijn vervolgens gehandhaafd voor de definitieve woordenlijst.

Alle openbare tweets en retweets van Nederlandse bedrijven en particulieren zijn in de indicator opgenomen. De data zijn niet terug te herleiden naar de berichten en er is geen koppeling naar de gebruikers. De uitvoer is gebaseerd op dag-gegevens. De indicator geeft korte pieken te zien na gebeurtenissen zoals de aanslagen in Parijs en Brussel en de verkiezing van Donald Trump. Maar de dienst laat ook toe om trends te volgen; zo lijkt het aantal tweets waarin blijk wordt gegeven van gevoelens van onveiligheid, na 2013 structureel licht te dalen.

Het CBS is van plan de indicator verder te ontwikkelen naar een bijna real-time weergave waarmee per minuut te zien zal zijn hoe de sociale spanning in Nederland zich ontwikkelt. Voor dit moment hoopt ze op feedback over deze nieuwe dienst op de website.

→ Geen reactiesTags: Uncategorized

Donald Trump en Tekstanalyse

2nd september 2016 · Geen reacties

Een fraai voorbeeld van tekstanalyse met Twitter als bron verscheen een week of twee geleden op het blog Variance.org.

 

Image result for Donald Trump met Samsung Galaxy
De hypothese: Als Donald Trump een tweet verstuurt met een prettige toonzetting, is die afkomstig van een lid van zijn campagneteam. Als hij daarentegen een tweet verstuurt waarin hij zijn gebruikelijke narrige taal over of tegen een medemens bezigt, is deze sneer afkomstig van Trump zelf. Inventarisaties van de tijdlijn van Donald Trump lijken deze aanname te bevestigen. De beledigingen waren afkomstig van een Android en een wervende tweet was steevast verzonden van een Iphone. Inderdaad gebruikt Trump een Samsung Galaxy.

David Robinson zocht het uit. Met behulp van twitteR package maakte hij een bestand van 628 Iphone tweets en 762 Android dito’s. De Androidbezitter houdt er kennelijk een ouderwetse manier van retweeten op na: copy-paste, aanhalingstekens en voilà. En als er een plaatje is ingekopieerd, is het meestal de Iphone. Want de Iphone doet de voor een campagneteam typerende aankondigingen van bijeenkomsten en dergelijke.

Echt leuk wordt het als Robinson verslag doet van de resultaten van vergelijking van woordkeuze en sentiment analyse met het tidytext package. De Androïd verstuurt de emotioneel geladen woorden (“crazy”, “weak”, “dumb”).  Algemeen komt de meerderheid van de negatieve lading van de Androïd. Overigens hadden verschillen in positieve termen tussen de twee accounts geen significant effect.

Al met al interessante datajournalistiek. Hier na te lezen. Tijd om een duik te nemen in de R-pakketten die Robinson gebruikt. Hierover later meer.

 

 

 

→ Geen reactiesTags: Uncategorized

Een archief waar je nooit meer uit wilt.

2nd september 2015 · Geen reacties

Eén van mijn vakantievoornemens was, om dit Blog weer te gaan bijhouden. Het DH Lab loopt goed, dus heb ik wat meer ruimte in mijn hoofd om te schrijven. Gisteren kreeg ik een mooie aanleiding voor een post aangereikt, toen iemand twee linkjes stuurde van nieuwe archieven die op archive.org zijn geplaatst. Deze website, ook bekend als het Internet Archive is een non-profit bibliotheek waarin miljoenen boeken, films, software, muziek enzovoort worden bewaard. Wie er gaat kijken, blijft er gegarandeerd een tijd hangen, het is een verslavende omgeving. Alleen al de oude MSDosgames zijn een garantie voor weer een uurtje vermorste tijd.

Filmarchief27-8-2015

Twee thumbnails uit de nieuw toegevoegde collecties

Het Internet Archive is ook het grootste online filmdepot. De toegestuurde linkjes attenderen op de nieuw geplaatste collecties uit de Penn State Library of Educational Film  en de Prelinger collectie met ongeveer 11.000 titels. Voor mij als historicus een luilekkerland met fascinerend materiaal. En bovendien veel toegankelijker en bruikbaarder, dan veel uit overheidsgeld betaalde online initiatieven van deze soort.

 

→ Geen reactiesTags: Bronnen

Heb je het gehad met Refworks? Overweeg Zotero.

19th april 2013 · 2 reacties

Sinds de Universiteitsbibliotheek in zijn wijsheid heeft besloten dat iedereen Refworks moest gaan gebruiken, is het niet echt meer goed gekomen met de hoeveelheid tevreden gebruikers van dit verplichte nummer. Gedupeerde onderzoekers die bezig waren met een boek, zitten soms nog privé  met hun allerlaatste exemplaar van Endnote dit werk af te ronden. Het enige maanden geleden uitgedeelde Office 2010 werkt niet met eerdere versies van Endnote, dus eerdaags moet er echt door iedereen worden overgeschakeld of anders de portemonnee worden getrokken voor een eigen versie van Endnote. En over Refworks zijn nog altijd fors wat klachten.
In dit geval is goede raad niet duur. Er is open source software die betere functionaliteit combineert met meer gebruikersvriendelijkheid.

Zotero is de naam. Zotero is als add-on te gebruiken in de browsers Chrome, Firefox en Safari. Met één muisklik neem je wat je zit te bekijken op in je bibliografische bestand. Geen gedoe meer met filters en importeren.  Zo nodig staat er een backup van je bibliografie online, die dan weer vanaf elke machine te benaderen is. Het duurt wel even voor de gratis 300 mb van de online backup vol zijn.  Binnen het E-Humanity Approaches to Reference Cultures project is Zotero inmiddels in gebruik genomen.  Niet zonder reden, want Zotero heeft nogal wat eigenschappen waardoor het een uitstekend alternatief is.
-Het kost niets. Je bent dus ook niet meer afhankelijk van universitaire licenties.
-Je bent niet meer gedupeerd als ergens in het management wordt besloten dat nu een ander softwarepakket de standaard moet worden, zoals is gebeurd toen Endnote zeer tegen de zin van velen werd afgeschakeld.
-Niet meer verplicht een ander pakket aanleren terwijl je al genoeg te doen hebt.
-Zotero staat import toe uit meer databases dan Endnote en Refworks doen, zoals Factiva, FreePatentsOnline enz.
-Refworks beperkt de mogelijkheden tot artikelen en boeken. Zotero staat toe dat je PDF’s, patenten,  screenshots, bestanden en afbeeldingen in je bibliografie opneemt. De PDF’s zijn doorzoekbaar te maken door ze in het preferences menu te indexeren.
-Staat notities op PDF’s toe.
-Voor geesteswetenschappers zijn veel stijlen beschikbaar, waaronder De Buck. Geschiedenisstudent Rine le Compte bouwt aan een stijl die geschikt is voor papers.
-Zotero Werkt met meer tekstverwerkers samen dan Refworks, je kunt bijvoorbeeld ook met Open Office werken.
-Betere sorteermogelijkheden
-Mogelijkheid om citatiegegevens te koppelen via Google Scholar
-Mogelijkheid om op elk veld te zoeken in plaats van, zoals in Refworks, alleen op toegestane velden

Daar staan slechts enkele nadelen tegenover:
-Zotero biedt wel de mogelijkheid om de hele database te doorzoeken, maar geen algehele zoek- en vervangfunctie
-Zotero werkt in Firefox, Chrome en Safari. Maar niet in Internet Explorer.

Vergelijkingen tussen de diverse bibliografische pakketten zijn onder andere hier te vinden:

http://libguides.mit.edu/content.php?pid=55486&sid=427307

→ 2 reactiesTags: Uncategorized

ING HUYGENS Digitale Geschiedenis, de depressie slaat toe.

9th januari 2013 · Geen reacties

Op 7 januari 2013 organiseerde het Koninklijk Nederlands Historisch Genootschap (KNHG) samen met het Huygens ING een studiedag over het thema digitale geschiedenis.

Diverse sprekers behandelden uiteenlopende aspecten van dit thema. De nadruk in de diverse papers lag niet zozeer op het technologische vlak (de ontwikkeling van tools & software en de productie van data of digitale bronnen) maar op een wat deprimerende  toelichting op de onmogelijkheden van de onderzoekers zelf, zo leek het.

Van de toegezegde drie onderwerpen:

  • hoe veranderen historisch onderzoek en onderwijs door nieuwe technologieën?
  • welke nieuwe onderzoeksvragen maken zij mogelijk?
  • welke methodologische gevolgen heeft het gebruik van digitale bronnen

kwam niet zoveel terecht. De dag bood enkele interessante lezingen over institutionele aspecten en toelichting op nieuw gedigitaliseerd materiaal. Maar een aantal inhoudelijke presentaties boden ook een staalkaart van wat er niet kan. “Text mining laat ook ruis zien”, “het biografisch portaal kent lacunes en problemen voor wie het wil gebruiken voor demografisch onderzoek”. Tja, het is het lot van de historicus. Of je nu het archief in gaat of een (gedigitaliseerde) bron met nieuwe technieken probeert te benaderen: er zijn altijd haken en ogen. Het was grappig om te zien dat men gewend is aan papieren bronnen met tekortkomingen, maar dat van ICT en digitale toepassingen een perfecte match met de eigen onderzoeksvraag wordt verwacht. Terwijl ook de allerbeste text mining techniek de bron zelf niet zal verbeteren. Nieuwe technieken zijn tijdbesparend, bieden nieuwe mogelijkheden om te rekenen aan teksten, bieden mogelijkheden om (big) data efficienter en op nieuwe manieren te minen, maar zijn natuurlijk evenmin volmaakt als een kast vol archiefmateriaal dat is.

Eén van de weinige lezingen waarin inderdaad technologie aan bod kwam, was die van Rens Bodt. Maar ook die bood, behalve een nieuwe methode om auteurschap te achterhalen, geen nieuwe vergezichten. Terwijl die er wel zijn, natuurlijk. Het wachten is op een congres waarin inderdaad nieuwe onderzoeksvragen aan bod komen.

 

 

→ Geen reactiesTags: Uncategorized

Text mining deel 5. Hackaton, twitter en netwerkanalyse

10th oktober 2012 · Geen reacties

Een intrigerend initiatief van Thomas Boeschoten vond vorige week plaats. Hij organiseerde een Hackaton rond de rellen in Haren. Een mooi voorbeeld van het combineren van grootschalig tekstonderzoek met andere technieken zoals netwerkanalyse. De veertig deelnemers doken in een bad van wat tegenwoordig ook wel wordt aangeduid met “big data” : rond de 500.000 tweets en 20.000 Facebook-posts  namen ze onder de loep.  De methodieken waren divers. Sommigen maakten gebruik van visualisaties waarmee de populariteit van berichten in de tijd kon worden gevolgd, zoals in dit voorbeeld. Hoe lang en hoe vaak werden populaire tweets geretweet? En hoe lang duurde het voordat geruchten over dodelijke slachtoffers en gewonden begonnen te circuleren? Ook dat is uitgezocht, en hier gevisualiseerd.

De illustratie bij deze post is net als de links ontleend aan de site van tweetonderzoek.nl, en toont hoe ook hier gold: Follow the leader. Het visualiseren van de tweets met behulp van netwerkvisualisatietools levert namelijk onthullende plaatjes op.  Het project X netwerk had een aantal cruciale knooppunten, sleutelindividuen waar de berichten binnen de sociale netwerken zich op concentreerden.

Volgens het blog van tweetonderzoek.nl is er ook gewerkt met geodata, daar heb ik echter nog geen uitkomsten van gezien, of ik heb er overheen gelezen. Ook de achtereenvolgens getwitterde foto’s waren object van studie.

Vrijdag presenteerde Thomas de resultaten voor de leden van de  onderzoekscommissie die er hun voordeel mee gaan doen.  Het blog over de Hackaton wordt gelukkig hier , bij tweetonderzoek.nl voortgezet.

 

 

 

→ Geen reactiesTags: Uncategorized

Text Mining deel 4. De distributie van kennis.

14th september 2012 · Geen reacties

Op het Digital Humanities Congres in Sheffield, werden soms fascinerende text mining toepassingen getoond. Een aantal onderzoekers maken nu gebruik van text mining en GIS. Eén van de beste lezingen die ik bijwoonde in Sheffield, was die van Hilde de Weerdt. Zij analyseerde Chinese “aantekenboeken” (biji) uit de twaalfde en dertiende eeuw. Deze boekjes bestonden uit bijdragen uit zowel publicaties als het orale circuit. Ze onderwierp de boekjes aan prosopografisch onderzoek door ze te linken aan bestaande prosopografische data en traceerde zo de informanten van de auteurs. Vervolgens combineerde ze text mining met GIS,  (Geografische Informatie Systemen). En zo kreeg ze overzicht over de regio’s waaruit de informanten afkomstig waren en de veranderingen in de tijd in de geografische distributie van deze informatie. Die veranderingen in de tijd kon ze relateren aan politieke verschuivingen. Daarmee gaf ze inzicht in de verspreiding van kennis en de invloed van politieke ontwikkelingen op kennisnetwerken.  In mijn ogen een voorbeeldige toepassing van text mining, die Hilde de Weerdt in staat stelt om nieuwe vragen te beantwoorden.  Applaus!

→ Geen reactiesTags: Uncategorized

Text Mining deel 3 Text mining, Netwerkanalyse en negentiende-eeuwse romans

27th juni 2012 · Geen reacties

Netwerkanalyse is een methode die al sinds de jaren dertig van de vorige eeuw wordt toegepast. Met netwerkanalyse visualiseer je verbindingen tussen eenheden. Dat kunnen personen zijn, maar het kan ook gaan om dingen, om organisaties, om groepen enz. Alle soorten verbindingen kunnen met netwerkanalyse in kaart worden gebracht. De toepassingen zijn legio en uiteenlopend: inzicht krijgen in de sociale verhoudingen tussen leerlingen in een schoolklas, de verspreidingspatronen achterhalen van infectieziekten, innovaties, geruchten, nieuw gedrag……. 

Sociaal netwerk in een schoolklas. L.C. Freeman, Visualizing social networks, Jnl. of Social Structure 2000 vol. 1

 Netwerkanalyse beperkt zich niet tot de verbindingen tussen eenheden in de “echte wereld”. Ook teksten zijn op te vatten als werelden met eigen netwerken. En deze netwerken zijn te reconstrueren door text mining met netwerkanalyse te combineren. Een student van Jan Scholtes, hoogleraar text mining in Maastricht, reconstrueerde geheel “automatisch”  wie welke reizen in Tolkiens Lord of the Rings maakten en visualiseerde de resultaten op een kaart van Midden Aarde. Het resultaat is spectaculair.   
En  twee informatici en een hoogleraar Engelse taal en letterkunde reconstrueerden de sociale netwerken in negentiende-eeuwse romans. Ze hebben twee hypothesen getest die ze ontlenen aan de gangbare opvattingen over deze romans. 
1. Hoe meer karakters optreden in een verhaal, hoe minder dicht het sociale netwerk tussen hen zal zijn.
2.  Romans die zich afspelen in een plattelandsomgeving bevatten dichte netwerken met minder romanfiguren. Romans die zich in een stedelijke omgeving afspelen, herbergen daarentegen meer karakters in een minder dicht sociaal netwerk.
Deze gangbare opvattingen zijn ingeburgerd geraakt na grondige studie van slechts enkele teksten. De twee hypothesen die de onderzoekers daaruit distilleerden kunnen echter met behulp van text mining worden getoetst aan de hand van een veel groter corpus.
Eerst identificeerden ze de eigennamen in de teksten. Daarna hebben ze alle dialogen geïnventariseerd. En geconcludeerd dat de hypothesen geen stand houden. De “plattelandsroman” verschilt niet van de het verhaal dat zich afspeelt in de stad. De samenstelling en dichtheid van de sociale netwerken in de teksten lijken samen te hangen met de manier van vertellen, niet met de omgeving waarin het verhaal is gesitueerd. Zie verder het fascinerende artikel.

Er wordt bezwaar gemaakt tegen de methode van de auteurs: alleen rechtstreekste conversaties zijn meegenomen. Verwijzingen naar contacten en/of indirecte rede niet. Iemand moet minstens drie maal het woord tot iemand anders richten om mee te tellen.  Reducties die in mijn ogen inderdaad noodzakelijk zijn om tot resultaten te kunnen komen bij de huidige stand van de techniek, maar waar literatuurwetenschappers met hun hang naar complete teksten wantrouwig van worden.

Ik begrijp de bezwaren, maar toch acht ik de combinatie van text mining en netwerkanalyse heel veelbelovend en ben ik begonnen met eigen proefnemingen. Het eerste corpus waar ik mee aan de slag ben gegaan is dat van de BMGN,  De Bijdragen en Mededelingen betreffende de Geschiedenis der Nederlanden, het eerbiedwaardigste historische vakblad dat ik ken. U hoort er hopelijk nog van.

→ Geen reactiesTags: Uncategorized

Text mining deel 2.

8th mei 2012 · Geen reacties

Zoals gezegd zien velen in text mining vooral een geavanceerde zoekmachine. Ga graven in bergen tekst en unieke vondsten zullen uw deel worden? Het zou kunnen natuurlijk. Maar dat kan al met Google books. Of met de zoekmachine van de Historische Kranten online van de Koninklijke Bibliotheek.

Eén van de resultaten van de opdracht: "Koningin Juliana in de pers"

Maar voor onderzoek zijn toch de andere text mining functies: automatisch vergelijken, automatisch samenvatten, automatisch categoriseren van teksten en text mining als onderdeel van een complete datamining stroom, interessanter.  Met het automatisch vergelijken zijn velen ook al vertrouwd. Plagiërende studenten hebben tot hun schade kennis gemaakt met pakketten als Ephorus, die hetgeen ze inleveren vergelijken met bestaande teksten.  Misschien maakte Jos Joosten er gebruik van om Elsbeth Etty te betrappen op het plagiëren van zowel Wikipedia als Susanne Jansen en Nel van Dijk

 

→ Geen reactiesTags: Uncategorized

Text mining begint booming business te worden. Wat is text mining?

16th april 2012 · Geen reacties

Toen ik in 2006 begon met het toepassen van text mining voor mijn onderzoek naar de negentiende eeuwse pers, had vrijwel niemand interesse. Als ik bijeenkomsten organiseerde om de techniek toe te lichten, kreeg ik hooguit twee aanmeldingen.  Dat is sinds ruim een jaar flink aan het veranderen. De collega’s worden wakker, zo lijkt het. Vermoedelijk is het steeds ruimere aanbod van gedigitaliseerde teksten daar debet aan. Het wachten is op implementatie van de techniek in een grootschaliger Nederlands project dan mijn VIDIonderzoek, dat zal de toepassing van text mining hopelijk vleugels geven. Want de mogelijkheden van de techniek voor de letteren zijn enorm.

Maar voordat text mining voldoende benut zal kunnen worden, zal er nog wel wat moeten veranderen. Er is onvoldoende kennis van zowel de mogelijkheden als de toepassing van deze methode, waardoor er allerlei vage en vaak achterhaalde verhalen de ronde doen. Daarom heb ik besloten een serie blogberichten te gaan maken over text mining. Deze tekst wordt dus de eerste uit een reeks.

Veel letterenonderzoekers menen dat text mining een soort geavanceerde zoekfunctie is. Voor een deel is dat nog waar ook. Met text mining software kan gezocht worden naar de spreekwoordelijke naald in de hooiberg. Maar is het niet veel fascinerender om woordgebruik daadwerkelijk in kaart te brengen? Bijvoorbeeld: wanneer is een woord, term of concept voor het eerst gebruikt en hoe is het zo’n begrip sindsdien vergaan?

Culturonomics, wordt dit genoemd in dit zeer geestige TEDfilmpje.

Freakhumanities, zeggen anderen smalend. Tja, er zal nog wel wat water door de zee gaan voordat letterenonderzoekers die gewend zijn om met teksten te werken, bereid zullen zijn om technieken als clusteranalyse onder de knie te krijgen, zodat ze echt aan ‘culturonomics’ zullen kunnen gaan doen. Waarover meer in een volgend bericht. 

Voor nu en voor een eerste eigen kennismaking met text mining: kijk in de Google NGram viewer, waar de TEDpresentatie over gaat en waar ik bij wijze van voorbeeld Koningin Juliana heb opgezocht, maar helaas noodgedwongen in een Engels corpus. 

 Vermors nu de rest van uw dag met dit fascinerende speeltje. Wat jammer dat Google nog niet zoiets heeft gebouwd voor het Nederlands. Maar daar valt omheen te werken. Ook daarover meer in volgende berichten over text mining.

→ Geen reactiesTags: Uncategorized