ODE II - Werkpakket 6: Schowcase transparantie en democratie

update: losse xml gzip bestanden en ode2data app zijn verplaatst, locatie wordt aangepast

Data

Een eerste analyse van schriftelijke vragen uit de Amsterdamse Gemeenteraad is gedaan op een set van 928 documenten. De geanalyseerde data is beschikbaar als losse xml gzip bestanden (zie lijst), en via een eXist app (zie installatie instructies). Een live versie van de deze data app is beschikbaar en beschreven op http://ode.politicalmashup.nl/ode2data/.

De xml bevat de tekst zoals in de oorspronkelijk gedownloade pdf bestanden, verrijkt met woord- en concept-annotaties in FoLiA formaat. Daarnaast is voor elk document samenvatting gegeven van woorden die dat document het beste beschrijven.

De documenten zijn te doorzoeken op document niveau en op zin/woord niveau.

Voorbeelden

Een geanalyseerd document, weergegeven als html: ode.d.163_12_schriftelijke_vragen_benjamin_inzake_dokmodel_zuidas_en_gevolgen_voor_voetbalclub_afc.

Tevens kan een lijst van alle beschikbare xml bestanden en html weergaven, inclusief bronverwijzing, worden opgevraagd.

Zoekopdrachten naar verslagen, zoals vertrouwen genoemd ergens in een document.

date id snippet
2012-12-07 ode.d.1077_12_schriftelijke_vragen_shahsavari-jansen_[...]_door

... spanningen en versterken van vertrouwen in Amsterdamse buurten ” , ...

2013-03-22 ode.d.171_13_schriftelijke_vragen_roodink_[...]_basisscholen

... ing daarvan heeft het College vertrouwen in Amsterdamse schoolbestu ...

...

5 ★ Open Data

Five star open data (5stardata.info) beschrijft een voorstel om data incrementeel open en bruikbaar te verspreiden. Hieronder per ster een beschrijving, en hoe geprobeerd wordt de toegevoegde waarde te bewerkstelligen.

make your stuff available on the Web under an open license

Alle documenten zijn te downloaden via het hierboven genoemde overzicht.

Voor de oorspronkelijke pdf data is, voor zover momenteel (20 september 2013) bekend, geen specifieke informatie over auteursrechten en licenties gedefinieerd. Alle door de UvA toegevoegde data, metadata en analyse is beschikbaar onder de Creative Commons Attribution licentie, onder vermelding van bovenstaand bericht. Dit houdt in dat de documenten vrij te (her)gebruiken en verspreiden zijn met naamsvermelding "UvA, PoliticalMashup.nl".

De oorspronkelijke pdf bestanden zijn allemaal bereikbaar op het Internet, als weergeven in de bronverwijzingen in verwerkte documenten.

★★ make it available as structured data

De data is beschikbaar in XML formaat, bijvoorbeeld ode.d.162lammeren.xml. XML is expliciet een machine readable document, en per definitie gestructureerd. De html documenten (ode.d.162lammeren.html) zijn slechts een andere weergave van dezelfde informatie.

Een voordeel van gestructureerde data is, dat er heel gericht gezocht kan worden, bijvoorbeeld naar alle documenten met verbetering genoemd in de titel.

2012-10-19 ode.d.842_12_schriftelijke_vragen_verburg_[...]_wwb_2012.1

... terbericht " goede financiële verbetering uitkeringsbudget WWB 2012 ...

Met de explicitie structuur zijn ook facet-queries mogelijk, waarbij documenten worden gegroepeerd per eigenschap. Een overzicht van het aantal documenten gepubliceerd in een maand, bijvoorbeeld over subsidie, is zo eenvoudig te geven. Maanden met vijf of meer documenten zijn in het rood aangegeven.

2011-10 2
2011-11 5
2011-12 1

De oorspronkelijke pdf bestanden zijn te lezen door programmatuur, maar vereisen een extra stap om makkelijk met de inhoud te werken.

★★★ use non-proprietary formats

XML is een open, duidelijk gedefinieerde standaard, die leesbaar en interpreteerbaar is voor een veelvoud aan open, vrij verkrijgbaar en vrij bruikbare programma's. Het is voor iedereen mogelijk om de data te hergebruiken, bijvoorbeeld voor alternatieve analyses zoals de samenvatting van onderscheidende termen.

PDF bestanden zijn sinds 2008 beschreven in een open standaard (ISO 32000-1:2008), alhoewel gebaseerd op een oorspronkelijk proprietary formaat.

★★★★ use URIs to denote things, so that people can point at your stuff

Alle bestanden, en onderliggende woorden en woord-concepten, zijn uniek geidentificeerd met een identifier. Via de basis URL http://ode.politicalmashup.nl/resolver/ zijn deze documenten en document-delen ook opvraagbaar.

Het kan nuttig zijn om bijvoorbeeld, naast naar een document, specifiek te verwijzen naar een opmerking, of zelfs naar een enkel woord. Ook de machine-leesbare meta-data met daarin de entity links en parsimonious language models, kan expliciet worden opgevraagd.

Naar de oorspronkelijke pdf bestanden kan worden verwezen met de URI die ook gebruikt is om de bestanden te downloaden. Naar specifieke elementen binnen de documenten kan niet worden verwezen.

★★★★★ link your data to other data to provide context

Waar mogelijk zijn woorden en concepten gelinkt aan externe bronnen, specifiek aan Wikipedia. Het voorbeeld document kan zo worden verrijkt met context en/of achtergrond informatie over voetbalclub AFC of mogelijke locatie het Amstelpark.

De toevoeging van woordsoorten en lemma's maak specifiekere zoekopdrachten mogelijk, bijvoorbeeld naar een gegeven.

id pos lemma snippet
ode.d.125_13_schriftelijke_vragen_[...]_afvalstoffenheffing.2.34

... e : “ Kennis te nemen van het gegeven dat deze maatregelen , sam ...

ode.d.125_13_schriftelijke_vragen_[...]_afvalstoffenheffing.2.34.11 N gegeven

gegeven

ode.d.622_13_schriftelijke_vragen_[...]_in_amsterdam.2.6

... dt momenteel reeds uitvoering gegeven aan de ambitie om bestaand ...

ode.d.622_13_schriftelijke_vragen_[...]_in_amsterdam.2.6.5 WW geven

gegeven

De oorspronkelijke pdf bestanden bevatten geen expliciete verwijzingen naar andere/externe data.

Stappen

Voor de transformatie van pdf naar xml en html weergave zijn een aantal opeenvolgende stappen ondernomen.

downloaden pdf

Allereerst zijn de pdf bestanden gedownload via http://www.amsterdam.nl/gemeente/gemeenteraad/instrumenten-raad/schriftelijke_vragen/.

tekst uit pdf

De tekst is direct uit de pdf gehaald middels pdftotext -layout (zie Xpdf).

omzetten naar xml

De tekst is opgeschoond (valide voor xml), en samengevoegd met meta-informatie over titels, datums en identifiers in een xml bestand per document.

toevoegen folia

Aan deze xml zijn folia annotaties toegevoegd. Deze zijn woordsoorten (part-of-speech tagging), lemma's, en waar mogelijk named entities en wikipedia referenties.

parsimonious lemma model

Op basis van de lemma's, genormaliseerd door kleine letters en het verwijderen van getallen, zijn parsimonious language models gemaakt van de documenten met als achtergrond corpus de volledige verzameling documenten.

weergave html

Een html weergave is beschikbaar via de eXist app, gegenereerd middels een XSLT transformatie van de xml data.

Openstaande Punten