Elke week bespreken we in Toolbox een programma of techniek om datavraagstukken op te lossen of lekker verkennend bezig te zijn. Omdat vandaag de eerste keer is, beginnen we niet met statistische data waar je databases open moet trekken en data in de juiste vorm moet slaan voordat er vergelijkingen mee te maken zijn, maar gaan we lekker vrij aan de slag met tekst.
Tekst is misschien qua resultaten wat minder wetenschappelijk, maar tegelijkertijd kan het analyseren van tekst persoonlijke dingen over de auteur of spreker naar boven halen. Als we bijvoorbeeld tagclouds zouden maken van verschillende columnisten kunnen we zien of ze veel lange woorden gebruiken, wat de stopwoordjes zijn en welke onderwerpen vaak terug komen.
Maar ook serieuzere analyses kunnen gemaakt worden, het ministerie van Algemene Zaken zet bijvoorbeeld Radio- en tv-teksten online, letterlijke transcripties van wat de minister-president op tv en radio heeft gezegd. Door deze teksten interactief te visualiseren heb je een middel om terug te zoeken wat de minister-president over verschillende onderwerpen heeft gezegd.
Hierboven zie je wat Mark Rutte allemaal op de persconferentie van 9 september 2011 heeft gezegd beginnend met het woord “Ik”. Door het zoekveld bovenaan te gebruiken kun je ook op andere termen zoeken, zo levert “Griekenland” de uitspraak “Griekenland uit de euro te gooien, dat kan ook helemaal niet” op. Dit zijn het soort uitspraken die mogelijk belangrijk worden op een later tijdstip.
Let wel op dat de woorden voor Griekenland weg vallen, besef dus dat deze zin niet als directe quote gebruikt kan worden. De volledige zin is in dit geval “Dan heeft u het hele debat met mevrouw Van der Heyde niet gevolgd. Wij komen niet met een voorstel om Griekenland uit de euro te gooien, dat kan ook helemaal niet.”
De bovenstaande visualisatie is gemaakt met Many eyes, een site waarop IBM gratis datavisualisatie middelen online zet. Als tegenprestatie wordt al je brondata beschikbaar gesteld voor iedereen. Dus visualiseer hier niet je persoonlijke financiën mee, maar leer van anderen wat zij met visualisaties doen om het inzichtelijk te maken. Zo kon ik makkelijk de visualisatie over uitspraken van Balkenende over Afganistan verzameld door Emiel Elgersma laten zien, die mij oorspronkelijk op het idee bracht voor dit artikel. Een mooie eigenschap van many eyes is dat een dataset gebruikt kan worden voor meerdere visualisaties. Mocht je je dataset op een later moment aanvullen dan neemt hij dit mee in al je visualisaties gebaseerd op die dataset. Hieronder bijvoorbeeld een tagcloud op basis van dezelfde persconferentie. Zo zien we dat op 9 september het woord “natuurlijk” een favoriet woord is van onze minister president.
Zelf aan de slag met many eyes
Many eyes is te vinden op http://www-958.ibm.com/software/data/cognos/manyeyes/. Het eerste wat je ziet zijn een aantal visualisaties die gemaakt zijn door anderen en aan de linkerkant een menu. Mocht je andersmans datasets willen visualiseren kan dit meteen onder “Explore->data sets”, wil je aan de slag met eigen data, dan moet je een account aanmaken.
Zelf data uploaden
Als we klikken op “upload data” blijken we eerst een account nodig te hebben. Klik op “register” en volg stap voor stap de verschillende stappen. Na wat formuliertjes en een controlemailtje zijn we geregistreerde many eyes gebruikers en kunnen we aan de slag!

Het upload scherm had niet veel simpeler kunnen zijn. Zorg dat je data op de juiste manier geformateerd is, in het geval van tekst hoef je niets te doen, en plak het in het formulier. In het scherm eronder krijg je te zien of de data herkend wordt. Bij spreadsheets is het handig om te zien of de juiste kolommen worden herkend, maar bij tekst is het altijd goed. Vul vervolgens in waar de data precies uit bestaat, waar je het vandaan hebt, een aantal tags en een aanvullende beschrijving. Druk op create en je bent klaar om visualisaties te maken.
Visualiseren maar!

Nu we zelf een dataset gecreëerd hebben, of er een gebruiken van iemand anders, kunnen we gaan visualiseren. Elke dataset heeft een overzichtspagina waar onderaan het knopje visualize staat. Vervolgens krijg je een scherm met alle beschikbare visualisaties. Tekst analyses staan bovenaan, dus kunnen we meteen er een kiezen. De word tree, tag cloud of word cloud worden meteen aangemaakt als je er op klikt. Als de visualisatie gemaakt is kun je nog even stoeien met de instellingen, een titel meegeven en vervolgens kunnen we een nieuwe visualisatie publiceren. Nu kan je iedereen laten zien wat je gemaakt hebt.
Dus aan de slag! Analyseer boeken die in wikisource te vinden zijn, analyseer je eigen twittertijdlijn, leg stukken van verschillende kranten naast elkaar om schrijfstijl te vergelijken of doe iets totaal anders. Ik ben benieuwd wat je naar boven weet te halen dus zet in de comments mooie toepassingen voor dit soort analyses of link naar je eigen visualisaties.






Zojuist gebruikt. Eenvoudig te bedienen, maar ik heb nog geen idee waar het nuttig kan zijn het te gebruiken. Het maakt wel een mooi plaatje.