The Data Journalism Handbook 1.0
Loading

Ένας σύντομος οδηγός

Αναζητάτε δεδομένα για έναν συγκεκριμένο ή κάποιο θέμα; Είστε αβέβαιοι για το τι υπάρχει ή που να βρείτε κάτι; Δεν ξέρετε από πού να αρχίσετε; Σε αυτό το μέρος εξερευνούμε πώς να αρχίσουμε την ανεύρεση δημόσιων πηγών δεδομένων στον ιστό.

Διευκολύνοντας την έρευνα σας

Ενώ δεν είναι πάντα εύκολο να βρεθούν, πολλές βάσεις δεδομένων στον ιστό καταλογογραφούνται από τις μηχανές αναζήτησης ανεξάρτητα από το εάν ήταν πρόθεση του εκδότη ή όχι. Ορίστε μερικές μικρές συμβουλές:

  • Κατά την αναζήτηση δεδομένων, διασφαλίστε ότι συμπεριλαμβάνετε τόσο τους όρους αναζήτησης που σχετίζονται με το περιεχόμενο των δεδομένων που επιχειρείτε να βρείτε όσο και μερικές πληροφορίες πάνω στον τύπο ή την πηγή που θα περιμένατε να το βρείτε. Το google καθώς και άλλες μηχανές αναζήτησης επιτρέπουν την αναζήτηση με βάση τον τύπο του αρχείου. Για παράδειγμα, μπορείτε να ψάχνετε μόνο για υπολογιστικά φύλλα (με προσάρτηση στην αναζήτηση όρων όπως: “filetype:XLS filetype:CSV”), γεωδεδομένα (“filetype:shp”), ή αποσπάσματα από βάσεις δεδομένων (“filetype:MDB, filetype:SQL, filetype:DB”). Αν δε είστε περισσότερο πρόθυμοι μπορείτε να ψάχνετε και για αρχεία pdf (“filetype PDF”).

  • Επίσης μπορείτε να αναζητήσετε με μέρος του URL. Αναζητώντας στο google “inurl:downloads filetype:xls” θα επιχειρηθεί η αναζήτηση αρχείων excel που έχουν «λήψεις» στην ιστοσελίδα τους (αν βρείτε μια μόνη λήψη συχνά αξίζει να εξετάσετε τι άλλα αποτελέσματα υπάρχουν στον ίδιο φάκελο του δικτυακού διακομιστή). Μπορείτε επίσης να περιορίσετε την αναζήτηση σε ένα μοναδικό όνομα τομέα , με το να αναζητάτε “site:agency.gov” για παράδειγμα.

  • • Ένα άλλο κοινό μυστικό είναι να μην ψάχνετε ευθέως την βάση δεδομένων αλλά τα μέρη που μπορεί να είναι διαθέσιμα συγκεντρωμένα στοιχεία. Για παράδειγμα το “site:agency.gov Directory Listing” ενδέχεται να σας δώσει κατηγοριοποιήσεις δημιουργημένες από τον διακομιστή web με εύκολη πρόσβαση σε μη επεξεργασμένα αρχεία ενόσω το “site:agency.gov Λήψη Βάσης Δεδομένων” θα αναζητά για ηθελημένα δημιουργημένες κατηγοριοποιήσεις.

Πηγαίνοντας κατευθείαν στην πηγή

Το πρώτο κόλπο που κάνω στη διαδικασία δέσμευσης ψηφιακών δεδομένων που δημοσιεύονται από ένα δημόσιο φορέα είναι το να πηγαίνω απευθείας στον κάτοχο των δεδομένων και όχι στον υπεύθυνο δημόσιων σχέσεων ή μέσω ενός αιτήματος για την ελευθερία της πληροφορίας. Θα μπορούσα να κάνω ένα τέτοιο αίτημα ή ένα αίτημα για τα δημόσια στοιχεία αλλά θα ήταν οι ρυθμοί πολύ αργοί. Είναι πιθανό δε ότι στην απάντηση που θα πάρω τα δεδομένα δεν θα έχουν τη μορφή που ζήτησα ή (όπως έχει συμβεί σε άλλες περιπτώσεις) το κυβερνητικό σώμα χρησιμοποιεί ένα προνομιακό λογισμικό και δεν μπορώ να εξάγω τα δεδομένα στην μορφή που ζήτησα. Ωστόσο, αν εξαρχής καταφέρω επιτυχημένα να φτάσω στον υπεύθυνο διαχείρισης των δεδομένων μπορώ έπειτα να ρωτήσω σχετικά με το τι είδους δεδομένα υπάρχουν πάνω στο θέμα και πως τα διατηρούν. Μπορώ να ανακαλύψω έπειτα την μορφή. Μπορώ να μιλήσω τη γλώσσα των δεδομένων και να βρω ότι χρειάζεται να ξέρω για να ζητήσω επιτυχημένα τα δεδομένα. Ποια είναι τα εμπόδια σε αυτή την προσέγγιση; Συχνά δεν μπορείς να φτάσεις σε αυτά τα άτομα. Ο αξιωματούχος δημόσιων πληροφοριών θα με θέλει να ανακατευτώ με αυτούς. Κατάλαβα πως σε αυτές τις περιπτώσεις είναι καλύτερο να προσπαθήσεις να κάνεις μια τηλεδιάσκεψη ή ακόμη καλύτερα μια προσωπική συνάντηση με αυτόν τον αξιωματούχο, τον γκουρού για τα δεδομένα και εμένα. Και μπορώ να το στήσω έτσι το θέμα που θα είναι δύσκολο για αυτούς να αρνηθούν. «Δεν θέλω να προκαλέσω δουλειά σ’αυτούς», λέω. «Δε θέλω να κάνω ένα αχρείαστο κουραστικό ή πολύ γενικό αίτημα οπότε μια συνάντηση θα με βοηθήσει να καταλάβω ακριβώς τι έχουν και πως μπορώ να ζητήσω ότι χρειάζεται.»

Αν η μέθοδος αυτή αποτύχει, η εναλλακτική μου είναι να ζητήσω πρώτα τη μορφή του αρχείου και έπειτα με αίτημα ένα λεξικό δεδομένων. Στην πραγματικότητα τότε ζητώ τα δεδομένα. Μερικές φορές θα ρωτήσω επίσης πως κρατάνε τα δεδομένα και με τι σύστημα. Με αυτό τον τρόπο ερευνώ τους τρόπους με τους οποίους τα δεδομένα μπορούν να εξαχθούν πριν κάνω το αίτημα.

Τέλος η μεγαλύτερη επιτυχία μου έρχεται από όταν δούλευα σε μια μικρή εφημερίδα στην Μοντάνα. Χρειαζόμουν κάποια δεδομένα της επαρχίας που από ότι έμαθα δεν μπορούσαν να βγουν εκτός του κεντρικού υπολογιστή. Έκανα μια μικρή έρευνα και προσφέρθηκα να μπω και να βοηθήσω. Δούλεψα με το άτομο που ήταν υπεύθυνο για τα δεδομένα, χτίσαμε ένα μικρό κείμενο και εκτυπώσαμε τα δεδομένα σε μια δισκέτα-ήταν πολύ καιρό πριν. Είχα τα δεδομένα και η επαρχία ήταν εφοδιασμένη να παρέχει δεδομένα σε οποιονδήποτε τα ζητούσε. Δεν ήταν αυτός ο σκοπός τους αλλά χρειάζονταν να εξάγουν τα δεδομένα κατά περιστάσεις και οι ίδιοι και δεν καταλάβαιναν πλήρως το σύστημα οπότε όλοι βοηθηθήκαμε.

Cheryl Philips, The Seattle Times

Περιήγηση σε σελίδες και υπηρεσίες δεδομένων

Τα τελευταία χρόνια μερικές αφοσιωμένες πύλες ή και κόμβοι δεδομένων, καθώς και άλλοι σχετικοί με τα δεδομένα ιστότοποι έχουν εμφανιστεί στον ιστό. Αποτελούν καλές τοποθεσίες για να εξοικειωθείτε με τα είδη των δεδομένων που βρίσκονται εκεί. Για αρχή μπορεί να θέλετε να κοιτάξετε σε:

Figure 1. datacatalogs.org (Open Knowledge Foundation)
Επίσημες πύλες δεδομένων

The government’s willingness to release a given dataset will vary from country to country. A growing number of countries are launching data portals (inspired by the U.S.'s data.gov and the U.K.'s data.gov.uk) to promote the civic and commercial reuse of government information. An up-to-date, global index of such sites can be found at datacatalogs.org. Another handy site is the Guardian World Government Data, a meta search engine that includes many international government data catalogues.

The Data Hub

Μια καθοδηγούμενη από την κοινότητα πηγή που τρέχει από το Ίδρυμα Ανοιχτής Γνώσης (Open Knowledge Foundation) που καθιστά εύκολη την ανοιχτή ανεύρεση, την διανομή και επαναχρησιμοποίηση διαθέσιμων πηγών δεδομένων, ειδικά με τρόπους που είναι αυτοματοποιημένοι.

ScraperWiki

Ένα online εργαλείο που βοηθάει στη διαδικασία εξαγωγής «χρήσιμων κομματιών δεδομένων με ευκολότερο τρόπο έτσι ώστε να μπορούν να επαναχρησιμοποιηθούν σε άλλες εφαρμογές ή να εξετάζονται διαρκώς από δημοσιογράφους και ερευνητές.» Οι περισσότεροι από τους καθαριστές και τις βάσεις δεδομένων αυτών είναι δημόσιες και μπορούν να επαναχρησιμοποιηθούν.

Κόμβοι δεδομένων της Παγκόσμιας Τράπεζας και των Ηνωμένων Εθνών

Αυτές οι υπηρεσίες παρέχουν υψηλού επιπέδου για όλες τις χώρες και συχνά αναδρομικά για πολλά χρόνια.

Buzzdata, Infochimps, και DataMarket

Αναδυόμενα περιβάλλοντα εκκίνησης που αποσκοπούν στην δημιουργία κοινοτήτων σχετικά με την διανομή και επαναπώληση δεδομένων.

DataCouch

Χώρος για να ανεβάσεις, εκκαθαρίσεις, μοιραστείς και οπτικοποιήσεις τα δεδομένα σου.

Freebase

Μια ενδιαφέρουσα θυγατρική της Google που παρέχει ένα οντολογικό γράφημα ανθρώπων, τοποθεσιών και πραγμάτων, δημιουργημένο από μια κοινότητα ανθρώπων που αγαπούν τα ανοιχτά δεδομένα.

Δεδομένα για έρευνα

Υπάρχουν πολυάριθμοι κρατικές και πειθαρχικές τροχοπέδες κατά την έρευνα των δεδομένων όπως το Αρχείο Δεδομένων του Ηνωμένου Βασιλείου. Ενώ εκεί θα υπάρξουν πολλά δεδομένα που είναι ελεύθερα σε βαθμό πρόσβασης, θα υπάρχουν επίσης πολλά δεδομένα που θα απαιτούν μια εγγραφή ή κάποια που δεν μπορούν να επαναχρησιμοποιηθούν ή να αναδιανεμηθούν άνευ πρότερης αδείας.

Παίρνοντας δεδομένα από Αρχεία εγγράφων

Αμέσως μετά την δημοσιοποίηση εγγράφων του Αμερικανικού στρατού σε Αφγανιστάν και Ιράκ από τη wikileaks, αποφασίσαμε να προσαρμόσουμε την ιδέα του εορτασμού της 50ης επετείου από τον Αλγερινό πόλεμο, δημοσιεύοντας τα Ημερολόγια Πολέμου από την Αλγερία. Ξεκινήσαμε να συλλέγουμε και να ψηφιοποιούμε τα αρχεία του γαλλικού στρατού στην Αλγερία. Τα αρχεία αυτά είναι διαθέσιμα στο αρχείο του Υπουργείου πολεμικών επιχειρήσεων στη Γαλλία, στο Παρίσι αν και βρίσκονται σε έντυπη μορφή. Στείλαμε δημοσιογράφους και φοιτητές να τραβήξουν φωτογραφίες των εγγράφων. Προσπαθήσαμε να κάνουμε σάρωση με έναν φορητό σαρωτή Canon P-150 αλλά δεν είχε αποτέλεσμα καθώς πολλά από τα αρχεία είναι συρραμμένα.

Εντέλει περίπου 10.000 σελίδες συλλέγησαν σε μερικές εβδομάδες. Τρέξαμε ένα λογισμικό αναγνώρισης κειμένου πάνω τους (ABBYY FineReader) το οποίο όμως απέδωσε ελάχιστα. Επιπλέον το υπουργείο συμπτωματικά αρνήθηκε την πρόσβαση στα πιο ενδιαφέροντα κουτιά αρχείων. Κυρίως όμως, το υπουργείο απαγορεύει σε οποιονδήποτε να αναδημοσιεύσει έγγραφα τα οποία μπορούν να φωτογραφηθούν στο μέρος που βρίσκονται, επομένως αποφασίσαμε ότι δεν άξιζε το ρίσκο και το έργο θα έμπαινε σε αναμονή.

Nicolas Kayser-Bril, Journalism++

Απευθυνθείτε σε ένα φόρουμ

Αναζητήστε για υπάρχουσες απαντήσεις ή ρωτήστε στο Get the Data ή στο Quora. To Get the Data είναι μια ιστοσελίδα ερωτήσεων και απαντήσεων όπου μπορείς να ρωτήσεις ερωτήσεις σχετικά με τα δεδομένα συμπεριλαμβάνοντας το που να βρεις δεδομένα σχετικά με ένα συγκεκριμένο θέμα, πώς να ψάξεις ή πώς να ανακτήσεις μια συγκεκριμένη πηγή δεδομένων, τι εργαλεία να χρησιμοποιήσεις για να εξερευνήσεις ένα σύνολο δεδομένων με οπτικό τρόπο, πώς να καθαρίσεις τα δεδομένα ή να τα πάρεις με μια μορφή στην οποία μπορείς να τα επεξεργαστείς.

Ρωτήστε μια λίστα ταχυδρομείου

Οι λίστες ταχυδρομείου συνδυάζουν τη σοφία μιας ολόκληρης κοινότητας σε ένα συγκεκριμένο θέμα. Για δημοσιογράφους που ασχολούνται με τα δεδομένα, οι λίστες Data-Driven Journalism και NICAR-L είναι εξαιρετικές αφετηρίες. Και οι δύο λίστες είναι γεμάτες με δημοσιογράφους στο θέμα των δεδομένων και ειδικούς στο ρεπορτάζ με τη βοήθεια υπολογιστή που δουλεύουν σε κάθε είδος εργασιών. Είναι πιθανό κάποιος να έχει εξερευνήσει μια ιστορία σαν τη δική σου και να ξέρει από πού να ξεκινήσει-αν όχι έναν σύνδεσμο που οδηγεί κατευθείαν στα δεδομένα. Μπορείς επίσης να δοκιμάσεις το Project Wombat («μια λίστα συζήτησης για δύσκολες ερωτήσεις παραπομπών), τις πολλές the λίστες ταχυδρομείου του Open Knowledge Foundation, λίστες ταχυδρομείου στο theInfo ή να αναζητήσεις για λίστες ταχυδρομείου στο θέμα ή την περιοχή που σε ενδιαφέρει.

Γίνετε μέλος στους Hacks/Hackers

Οι Hacks/Hackers είναι μια ταχέως επεκτεινόμενη διεθνής λαϊκή δημοσιογραφική οργάνωση με δεκάδες τμήματα και χιλιάδες μέλη σε τέσσερις ηπείρους. Η αποστολή του είναι να δημιουργήσει ένα δίκτυο δημοσιογράφων (Hacks) και τεχνολόγων (Hackers) που επανεξετάζουν το μέλλον των ειδήσεων και των πληροφοριών. Με ένα ευρύ πεδίο σαν και αυτό, υπάρχει σοβαρή πιθανότητα να ξέρει κάποιος που να ψάξετε για ότι αναζητάτε.

Ρωτήστε έναν ειδικό

Καθηγητές, δημόσιοι υπάλληλοι και άτομα σχετιζόμενα με τη βιομηχανία συχνά ξέρουν που να απευθυνθούν. Παρ’τους τηλέφωνο, στείλ’τους mail, πιάσ’τους την κουβέντα σε μια εκδήλωση ή εμφανίσου στο γραφείο που δουλεύουν. Ρώτα ευγενικά: «Ετοιμάζω μια ιστορία για το τάδε θέμα. Που θα μπορούσα να απευθυνθώ; Ξέρετε μήπως ποιος μπορεί να βοηθήσει;»

Μάθετε για την τεχνολογία πληροφοριών της Κυβέρνησης

Αντιλαμβανόμενος το τεχνικό και το διοικητικό πλαίσιο στο οποίο οι κυβερνήσεις διατηρούν τις πληροφορίες τους είναι συχνά βοηθητικό όταν επιχειρείτε την πρόσβαση σε δεδομένα. Είτε είναι CORDIS, είτε COINS, είτε THOMAS, οι βάσεις δεδομένων με μεγάλα ακρωνύμια γίνονται συχνά πιο χρήσιμες όταν έχετε καταλάβει λίγο ποιος είναι ο στόχος τους.

Εντοπίστε διαγράμματα κυβερνητικών οργανισμών και ψάξτε για τμήματα με μια αλληλουχία στη λειτουργία τους, όπως για παράδειγμα την τεχνολογία πληροφοριών ή τις αναφορές, και έπειτα εξερευνήστε τις ιστοσελίδες τους. Πολλά από τα δεδομένα διατηρούνται σε πολλαπλά τμήματα, και μπορεί σε ένα μια βάση δεδομένων να θεωρείται η πολυτιμότερή τους αλλά σε ένα άλλο να έχετε ελεύθερη πρόσβαση.

Ψάξτε επίσης για δυναμικά πληροφοριακά γραφήματα σε ιστοσελίδες της κυβέρνησης. Συχνά τρέχουν από δομημένες πηγές δεδομένων/API πηγές που μπορούν να χρησιμοποιηθούν ανεξάρτητα, για παράδειγμα εφαρμογίδια για εντοπισμό πτήσεων εφαρμογές Java για την πρόβλεψη του καιρού.

Ψάχνοντας τα τηλεφωνικά αρχεία

Λίγους μήνες πριν, ήθελα να αναλύσω τα τηλεφωνικά αρχεία του κυβερνήτη στο Τέξας και έπειτα υποψήφιου προέδρου των ΗΠΑ, Rick Perry. Ήταν το αποτέλεσμα ενός πολυαναμενόμενου αιτήματος προς το δημόσια αρχεία. Τα δεδομένα τελικά ήρθαν σε μορφή 120 και πλέον σελίδων ποιότητας fax. Ήταν ένας κόπος που απαιτούσε εισαγωγή και εκκαθάριση δεδομένων ακολουθούμενος από μια εφαρμογή Χρυσού Οδηγού ώστε να ψάξω από την αντίστροφη τηλεφωνικούς αριθμούς.

Συμπυκνώνοντας τα ονόματα με τα εκλογικά δεδομένα της πολιτείας και της χώρας ανακαλύψαμε πως ο Perry επιχειρούσε να κάνει καμπάνια και έκανε δωρεές από επιτροπές πολιτικής δράσης από υπηρεσιακά τηλέφωνα της πολιτείας, μια πρακτική που αντιμετωπίστηκε συνοφρυωμένα καθώς επέφερε ερωτήσεις τι είδους δεσμοί υπάρχουν μεταξύ αυτού και των επιτροπών πολιτικής δράσης να δουλεύουν υπέρ του.

Jack Gillum, Associated Press

Αναζητώντας εκ νέου

Όταν ξέρετε περισσότερο τι ψάχνετε, ξανααναζητήστε φράσεις και γενικώς αδύναμους λεκτικούς συνδυασμούς, διαφορετικούς από αυτούς που εντοπίσατε την τελευταία φορά. Μπορεί να φανείτε περισσότερο τυχεροί με τις μηχανές αναζήτησης.

Στέλνοντας ένα αίτημα για την ελευθερία της πληροφόρησης

Αν πιστεύετε πως ένα τμήμα της κυβέρνησης έχει τα δεδομένα που χρειάζεστε, μπορεί το καλύτερο σας εργαλείο να είναι ένα αίτημα για την ελευθερία της πληροφόρησης. Δες στην επόμενη ενότητα για το πώς να αρχειοθετήσετε ένα.

Brian Boyer (Chicago Tribune), John Keefe (WNYC), Friedrich Lindenberg (Open Knowledge Foundation), Jane Park (Creative Commons), Chrys Wu (Hacks/Hackers)

Όταν ο νόμος αποτυχαίνει

Κατόπιν ανάγνωσης ενός ακαδημαϊκού άρθρου, που εξηγούσε πως η δημοσίευση των αποτελεσμάτων των επιθεωρήσεων υγιεινής στα εστιατόρια μείωσαν τον αριθμό των ασθενειών που είχαν να κάνουν με τη διατροφή στο Λος Άντζελες. Ρώτησα τις υπηρεσίες υγιεινής στο Παρίσι για την λίστα των επιθεωρήσεων. Ακολουθώντας την διαδικασία που προβλεπόταν για το αίτημα της ελευθερίας της πληροφορίας στη Γαλλία, περίμενα 30 μέρες για να μου αρνηθούν και μετά πήγα στην Επιτροπή για την Πρόσβαση σε Δημόσια Δεδομένα (CADA στα γαλλικά, το οποίο βασίζεται στη νομοθεσία για τα αιτήματα περί ελευθερίας της πληροφορίας. Η εν λόγω επιτροπή υποστήριξε το αίτημα μου και έστειλε εντολή στην διεύθυνση να αποδεσμεύσουν τα δεδομένα. Η διεύθυνση στη συνέχεια ζήτησε για δυο μήνες επιπλέον χρόνο, πράγμα που αποδέχθηκε η Επιτροπή. Δύο μήνες αργότερα η διεύθυνση δεν είχε κάνει τίποτα ακόμη.

Προσπάθησα να αποκτήσω κάποιους επώνυμους και ιδιαιτέρους ακριβούς συνηγόρους για τα ανοιχτά δεδομένα προκειμένου να πάμε στα δικαστήρια, υπόθεση κόστους 5000€ και με σίγουρη νίκη με την υποστήριξη της CADA, αλλά φοβήθηκαν να συμβιβάσουν τις συνδέσεις τους με επίσημα προγράμματα για τα ανοιχτά δεδομένα. Αυτό το παράδειγμα είναι ένα μεταξύ αρκετών όπου η γαλλική διοίκηση απλά αγνοεί τον νόμο και οι τοπικές πρωτοβουλίες δεν κάνουν τίποτα να υποστηρίξουν τις κοινές επικλήσεις για δεδομένα.

Nicolas Kayser-Bril, Journalism++