The Data Journalism Handbook 1.0
Loading

Τα βασικά βήματα στην επεξεργασία δεδομένων

Υπάρχουν το λιγότερο τρεις έννοιες κλειδιά που χρειάζεται να κατανοήσετε όταν αρχίσετε ένα έργο με δεδομένα:

  • Οι αιτήσεις για τα δεδομένα πρέπει να ξεκινούν όταν με μια λίστα ερωτήσεων που θέλετε να απαντήσετε.

  • Τα δεδομένα είναι ακατάστατα και χρειάζονται εκκαθάρηση.

  • Τα δεδομένα μπορεί να έχουν χαρακτηριστικά που δεν έχουν τεκμηριωθεί.

Figure 2. Messy data

Να γνωρίζετε τις ερωτήσεις που θέλετε να απαντήσετε

Κατά πολλούς τρόπους, η εργασία με τα δεδομένα είναι σαν συνέντευξη με μια ζωντανή πηγή. Θέτετε ερωτήσεις στα δεδομένα και αυτά σας αποκαλύπτουν τις απαντήσεις. Αλλά όπως η πηγή σας δίνει απαντήσεις για τις οποίες έχει πληροφορία, ένα σύνολο δεδομένων μπορεί να απαντήσει μόνο ερωτήσεις για τις οποίες έχει τα σωστά στοιχεία και τις κατάλληλες μεταβλητές. Αυτό σημαίνει ότι θα πρέπει να αναλογιστείτε προσεκτικά ποιες ρωτήσεις θα πρέπει να απαντήσετε ακόμα και πριν αποκτήσετε τα δεδομένα σας. Βασικά, πρέπει να δουλεύετε προς τα πίσω. Πρώτα κάντε μια λίστα με τις δηλώσεις που θέλετε να εξάγετε από τα δεδομένα στην ιστορία σας. Έπειτα αποφασίστε ποιες μεταβλητές και στοιχεία θα πρέπει να αποκτήσετε και να αναλύσετε ώστε να μπορείτε να κάνετε τις δηλώσεις που είχατε αναφέρει.

Αναλογιστείτε ένα παράδειγμα που περιέχει τοπικές αναφορές σχετικά με την εγκληματικότητα. Ας πούμε ότι θέλετε να δημιουργήσετε μια ιστορία κοιτώντας στα πρότυπα εγκληματικότητας στην πόλη σας και οι δηλώσεις που θέλετε να κάνετε περιλαμβάνουν τις ώρες τις ημέρας και τις ημέρες της εβδομάδας που οι διαφορετικοί τύποι εγκληματικότητας είναι πιο πιθανόν να συμβούν καθώς επίσης και ποια σημεία της πόλης είναι πιο επιρρεπής στις διάφορες κατηγορίες εγκλημάτων.

Θα συνειδητοποιήσετε ότι τα δεδομένα που σχετίζονται με το αίτημά σας θα πρέπει να περιλαμβάνουν την ημερομηνία και την ώρα που καταγράφηκε το κάθε έγκλημα, το είδος του εγκλήματος (φόνος, κλοπή, διάρρηξη) καθώς και την διεύθυνση του τόπου εγκλήματος. Έτσι ο χρόνος, η κατηγορία του εγκλήματος και η διεύθυνση είναι οι ελάχιστες μεταβλητές που θα χρειαστείτε.

Όμως προσέξτε ότι υπάρχει ένας αριθμός από πιθανές ενδιαφέρουσες ερωτήσεις που αυτό το σύνολο των τεσσάρων μεταβλητών δεν μπορεί να απαντήσει, όπως η εθνικότητα και το γένος ή η συνολική αξία της κλοπιμαίας περιουσίας ή ποιοι αστυνομικοί είναι πιο αποτελεσματικοί στις συλλήψεις. Επίσης υπάρχει η περίπτωση να μπορείτε να συλλέξετε στοιχεία μόνο για κάποια περιορισμένη περίοδο. Αυτές οι ερωτήσεις μπορεί να είναι έξω από την προγραμματισμένη έρευνά σας αλλά δεν πειράζει. Παρόλα αυτά δεν θα συνιστούσα να προχωρήσετε στην ανάλυση των δεδομένων σας και ξαφνικά να αποφασίσετε ότι χρειάζεται να ξέρετε το ποσοστό των εγκλημάτων σε διαφορετικές περιοχές της πόλης που καταλήγουν σε σύλληψη.

Μια καλή συμβουλή είναι να ζητάτε όλες τις μεταβλητές και τα στοιχεία στην βάση δεδομένων, και όχι ένα υποσύνολο που θα μπορούσε να απαντήσει την ιστορία. (Στην πραγματικότητα η ανάκτηση όλων των δεδομένων μπορεί να είναι πιο οικονομική από το υποσύνολο καθώς ίσως χρειαστεί να πληρώσετε κάποιον προγραμματιστή να εξάγει το υποσύνολο). Μπορείτε πάντα να εξάγετε το υποσύνολο που ζητάτε μόνοι σας, η πρόσβαση σε όλο το σύνολο των δεδομένων σας επιτρέπει να απαντήσετε σε καινούργιες ερωτήσεις που μπορεί να δημιουργηθούν την στιγμή που γράφετε το ρεπορτάζ σας και να γεννηθούν καινούργιες ιδέες για ακόλουθες ιστορίες. Πολλές φορές κάποιες μεταβλητές όπως η ταυτότητα των θυμάτων δεν μπορούν να κοινοποιηθούν λόγο της νομοθεσίας υπέρ της ιδιωτικότητας ή άλλων πολιτικών. Αλλά ακόμη και ένα υποσύνολο της βάσης δεδομένων είναι καλύτερο από το τίποτα εφόσον ξέρε ποιες ερωτήσεις μπορεί να απαντήσει και ποιες όχι.

Εκκαθαρίζοντας ακατάστατα δεδομένα

Ένα από τα μεγαλύτερα προβλήματα στην επεξεργασία βάσεων δεδομένων είναι ότι τα δεδομένα που θα χρησιμοποιήσετε για ανάλυση έχουν συλλεχθεί για γραφειοκρατικούς σκοπούς. Το πρόβλημα είναι ότι το επίπεδο ακρίβειας για αυτούς τους δυο σκοπούς είναι αρκετά διαφορετικό.

Για παράδειγμα, μια βασική λειτουργία της ποινικής βάση δεδομένων του συστήματος είναι να βεβαιωθεί ότι η κατηγορούμενη Τζόουνς οδηγείται στον δικαστή Σμιθ κατά την διάρκεια της ακρόασής της. Για αυτόν τον σκοπό, δεν έχει σημασία εάν η ημερομηνία γέννησης της Τζόουνς είναι εσφαλμένη ή εάν η διεύθυνση της έχει ορθογραφικά λάθη, ακόμα και αν το αρχικό του μεσαίου ονόματός της είναι λάθος. Γενικά, το σύστημα μπορεί να χρησιμοποιήσει την ατελή καταγραφή ώστε να ώστε να οδηγήσει την Τζόουνς ενώπιον του Σμιθ στο δικαστήριο σε μια καθορισμένα ώρα.

Όμως τέτοια λάθη μπορεί να αποπλανήσουν τις προσπάθειες ενός δημοσιογράφου για να ανακαλύψει πρότυπα στην βάση δεδομένων. Για αυτόν τον λόγο, η πρώτη μεγάλη εργασία όταν αποκτήσετε ένα νέο σύνολο δεδομένων είναι να εξετάσετε πόσο ακατάστατο είναι και έπειτα να το καθαρίσετε. Ένας καλός και γρήγορος τρόπος για να ανιχνεύσετε την ακαταστασία είναι να δημιουργήσετε πίνακες συχνοτήτων από τιμές που ανήκουν σε διάφορες κατηγορίες, και που αναμένεται να έχουν σχετικά μικρή διαφορά στις τιμές τους. (Όταν χρησιμοποιείτε το Excel για παράδειγμα μπορείτε να το κάνετε με την χρήση φίλτρου ή με πίνακες pivot για κάθε μεταβλητή της κατηγορίας).

Χρησιμοποιείστε το «Φύλλο» σαν ένα εύκολο παράδειγμα. Μπορεί να ανακαλύψετε ότι το πεδίο του Φύλλου περιλαμβάνει ένα μείγμα μεταβλητών όπως: Αρσενικό, Θηλυκό, Α, Θ, 1, 0, ΑΡΣΕΝΙΚΟ, ΘΗΛΥΚΟ κτλ., συμπεριλαμβανομένου ανορθογραφίες όπως «Θηλυκ». Για να κάνετε μια σωστή ανάλυση του φύλλου, θα πρέπει να είστε συνεκτικοί - να αποφασίσετε ίσως στο «Α» και «Θ» και έπειτα αλλάξτε όλους τους πιθανούς συνδυασμούς ανάλογα με το πρότυπό σας. Μια κοινή βάση δεδομένων με προβλήματα αυτού του τύπου είναι η Αμερικανική εκστρατεία οικονομικών αρχείων όπου το πεδίο της απασχόλησης μπορεί να περιέχει τους όρους: «Δικηγόρος», «Σύμβουλος», «Δοκιμαστικός Δικηγόρος» με πολλές παραλλαγές και ανορθογραφίες. Το τέχνασμα είναι να προτυποποιήσετε τους τίτλους επαγγελμάτων σε έναν μικρότερο κατάλογο επιλογών.

Η εκκαθάριση των δεδομένων γίνεται ακόμη πιο προβληματικό όταν δουλεύετε με ονόματα. Είναι ο “Joseph T.Smith”, “Joseph Smith,” “J.T. Smith,” “Jos. Smith,” και “Joe Smith” το ίδιο άτομο; Μπορεί να χρειαστεί να κοιτάξετε σε άλλες μεταβλητές όπως διεύθυνση ή ημερομηνία γέννησης ή και σε άλλα αρχεία ώστε να δώσετε μια απάντηση. Όμως εργαλεία όπως το «Google Refine» μπορούν να επιταχύνουν και να καθιστούν λιγότερο κουραστική την εκκαθάριση των δεδομένων και την προτυποποίηση.

Ακάθαρτα Δεδομένα

Χάρη στους ισχυρούς νόμους σχετικά με τα δημόσια αρχεία στις Ηνωμένες Πολιτείες, η πρόσβαση στα δεδομένα δεν αποτελεί πρόβλημα όπως στις άλλες χώρες. Παρόλα αυτά αντιμετωπίζουμε το πρόβλημα ότι πρέπει να δουλέψουμε με δεδομένα που έχουν συλλεχθεί για γραφειοκρατικούς σκοπούς και όχι για αναλυτικούς. Τα δεδομένα είναι συχνά ακάθαρτα με τιμές που δεν είναι προτυποποιημένες. Πολλές φορές λαμβάνω δεδομένα που δεν συμβαδίζουν με την υποτιθέμενη διάταξη του αρχείου και το λεξικό των δεδομένων που το συνοδεύει. Πολλές υπηρεσίες επιμένουν στο να δίνουν δεδομένα με δύσκολη μορφή όπως .pdf που πρέπει να μετατραπούν σε άλλη μορφή. Προβλήματα σαν και αυτό σας κάνουν να εκτιμάτε ένα σύνολο δεδομένων χωρίς προβλήματα.

Steve Doig, Walter Cronkite School of Journalism, Arizona State University

Τα δεδομένα μπορεί να έχουν ατεκμηρίωτα χαρακτηριστικά

Η πέτρα της Ροζέτας για κάθε βάση δεδομένων είναι το επονομαζόμενο λεξικό των δεδομένων. Συνήθως, αυτό το αρχείο (μπορεί να σε μορφή κειμένου ή pdf ή ακόμα και σε υπολογιστικό φύλλο) θα σας υποδείξει πως είναι δομημένα τα φύλλα των δεδομένων (οριοθετημένο κείμενο, κείμενο σταθερού πλάτους, Excel, dBase, etc.), την σειρά των μεταβλητών, τα ονόματα κάθε μεταβλητής, και τον τύπο δεδομένων κάθε μεταβλητής (αλφαριθμητικό, ακέραιος, δεκαδικός κτλ.). Θα χρησιμοποιήσετε αυτήν την πληροφορία ώστε να σας βοηθήσει να εισάγετε κατάλληλα τα δεδομένα στο λογισμικό που χρησιμοποιείτε (Excel, Access, SPSS, Πίνακες σύντηξης, διάφορα ήδη SQL, etc.)

Το άλλο χαρακτηριστικό – κλειδί του λεξικού των δεδομένων είναι η εξήγηση των κωδικών που χρησιμοποιούνται για συγκεκριμένες μεταβλητές. Για παράδειγμα το Γένος μπορεί να κωδικοποιηθεί ως: «1=Αρσενικό» και «1=Θηλυκό». Τα εγκλήματα μπορεί να κωδικοποιούνται με τον αριθμό του καταστατικού την νομοθεσίας για κάθε είδους έγκλημα. Τα αρχεία των νοσοκομειακών θεραπειών μπορεί να χρησιμοποιούν κωδικούς πέντε ψηφίων για την διάγνωση των συμπτωμάτων του ασθενή, για τα οποία θεραπεύεται. Χωρίς το λεξικό των δεδομένων, αυτά τα σύνολα δεδομένων μπορεί να είναι δύσκολο ή αδύνατον να αναλυθούν κατάλληλα. Όμως ακόμη και με την ύπαρξη ενός λεξικού δεδομένων, μπορεί να υπάρχουν άλλα προβλήματα. Για παράδειγμα, οι δημοσιογράφοι στο Miami Herald στην Florida πριν από μερικά χρόνια έκαναν μια ανάλυση σχετικά με τις διαφορετικές κυρώσεις που λαμβάνουν οι άνθρωποι που οδηγούν σε κατάσταση μέθης από διαφορετικούς δικαστές. Οι δημοσιογράφοι έλαβαν τα αρχεία της καταδίκης από το δικαστικό σύστημα και ανέλυσαν τους αριθμούς από τις τρεις διαφορετικές μεταβλητές από το λεξικό των δεδομένων: τον χρόνο φυλάκισης που επιβλήθηκε, τον χρόνο της κράτησης και το ποσό του προστίμου που δόθηκε. Αυτοί οι αριθμοί ποικίλουν αρκετά ανάμεσα στους δικαστές, δίνοντας στους δημοσιογράφους ένδειξη για μια ιστορία ότι κάποιο δικαστές είναι ιδιαίτερα σκληροί και κάποιοι ιδιαίτερα επιεικείς.

Αλλά για κάθε δικαστή, περίπου 1-2 % των περιπτώσεων έδειξαν καθόλου φυλάκιση, κράτηση ή πρόστιμο. Έτσι, το διάγραμμα που παρουσιάζει τα πρότυπα των καταδικών για κάθε δικαστή περιλάμβανε ένα μικρό ποσό των περιπτώσεων ως «Καμιά τιμωρία," σαν πρώτη σκέψη. Όταν η ιστορία και το γράφημα τυπώθηκαν, οι δικαστές αντέδρασαν έντονα , λέγοντας ότι το Herald τους κατηγορούσε για αθέτηση ενός κρατικού νόμου που απαιτεί η οδήγηση σε κατάσταση μέθης να τιμωρείται.

‘Έτσι οι δημοσιογράφοι γύρισαν πίσω στο γραφείο του υπαλλήλου του Ελεγκτικού Συνεδρίου που είχε προσκομίσει τα στοιχεία και ρώτησαν ποια ήταν η αιτία του σφάλματος. Τους ειπώθηκε ότι οι συγκεκριμένες περιπτώσεις αφορούσαν άπορους κατηγορούμενους που συλλαμβάνονταν για πρώτη φορά. Κανονικά τους δόθηκε ένα πρόστιμο αλλά δεν είχαν χρήματα. Έτσι οι δικαστές τους καταδίκασαν σε κοινωνική εργασία όπως την συγκομιδή απορριμμάτων από τους δρόμους. Όπως αποδείχθηκε, ο νόμος για την υποχρεωτική τιμωρία επιβλήθηκε μετά την δημιουργία της δομής της βάσης δεδομένων. Έτσι οι δικαστές γνώριζαν ότι το μηδέν στις μεταβλητές της ποινής σημαίνει κοινωνική εργασία. Παρόλα αυτά αυτό δεν ήταν καταγεγραμμένο στο λεξικό των δεδομένων και έγινε διόρθωση εκ των υστέρων.

Το δίδαγμα είναι σε αυτήν την περίπτωση να ρωτάτε την υπηρεσία που σας δίνει τα δεδομένα εάν υπάρχουν ατεκμηρίωτα στοιχεία στα δεδομένα ή εάν υπάρχουν καινούργιοι κωδικοί που δεν έχουν συμπεριληφθεί στο λεξικό των δεδομένων, αλλαγές στην διάταξη των αρχείων ή οτιδήποτε άλλο. Επίσης να εξετάζετε πάντα τα αποτελέσματα της έρευνάς σας και κάντε την εξής ερώτηση «Τα συμπεράσματα είναι λογικά;» Οι Herald δημοσιογράφοι είχαν προθεσμία να δημιουργήσουν το διάγραμμα και ήτα τόσο απασχολημένοι με το μέσο όρο των επιπέδων της ποινής του κάθε δικαστή που δεν έδωσαν σημασία σε κάποιες περιπτώσεις που φαινομενικά δεν είχαν καμία ποινή. Θα έπρεπε να αναρωτηθούν εάν είναι λογικό όλοι οι δικαστές να παραβιάζουν τον νόμο, ακόμα και αν πρόκειται κατά ένα πολύ μικρό ποσοστό.

Steve Doig, Walter Cronkite School of Journalism, Arizona State University

Ακατάστατα, Κρυμμένα και απόντα δεδομένα

Θυμάμαι μια αστεία ιστορία όπου προσπαθήσαμε να αποκτήσουμε πρόσβαση στα Ουγγρικά δεδομένα από τις γεωργικές επιδοτήσεις: ήταν όλα εκεί αλλά υπήρχε ένα υπερβολικά βαρύ PDFαρχείο και το οποίο περιείχε επίσης δεδομένα και από κρατικές επιδοτήσεις. Οι προγραμματιστές μας έπρεπε να δουλέψουν πολλές ώρες προτού τα δεδομένα να είναι χρήσιμα.

Επίσης ενδιαφέρουσα ήταν η περίπτωση των δεδομένων για τις ευρωπαϊκές αλιευτικές επιδοτήσεις, τις οποίες τις οποίες τα 27 κράτη μέλη υποχρεούνται να αποκαλύψουν. Παρατίθεται ένα απόσπασμα από μία έκθεση που γράψαμε σχετικά με το θέμα: «Στο Ηνωμένο Βασίλειο, για παράδειγμα, η μορφή των δεδομένων ποικίλλει από τις πολύ φιλικές προς το χρήστη HTML σελίδες αναζήτησης, σε μορφή PDF ή ακόμα και λίστες παραληπτών σε ποικίλες μορφές κρυμμένες στο κάτω μέρος του δελτίου τύπου. Όλα αυτά ισχύουν για ένα μόνο κράτος μέλος. Στη Γερμανία και τη Βουλγαρία, εν τω μεταξύ, δημοσιεύονται άδειες λίστες. Οι κατάλληλες επικεφαλίδες υπάρχουν, αλλά χωρίς δεδομένα. »

Brigitte Alfter, Journalismfund.eu