The Data Journalism Handbook 1.0
Loading

Χρησιμοποιώντας απεικόνιση για να αποκτήσετε γνώση των δεδομένων

Η απεικόνιση είναι κρίσιμη για την ανάλυση των δεδομένων. Παρέχει μια πρώτη γραμμή επίθεσης, αποκαλύπτοντας περίπλοκες δομές δεδομένων που δεν μπορούν να κατανοηθούν με οποιοδήποτε άλλο τρόπο. Ανακαλύπτουμε αποτελέσματα που δεν φανταζόμασταν, και θέτουμε υπό αμφισβήτηση αυτά που θεωρήσαμε ότι ισχύυν.

Hobart Press)
— William S. Cleveland (from Visualizing Data

Τα δεδομένα από μόνα τους, αποτελούνται από bits και bytes, αποθηκεύονται σε ένα αρχείο στο σκληρό δίσκο του υπολογιστή και είναι αόρατα. Για να κάνετε οποιαδήποτε ερμηνεία πάνω στα δεδομένα, θα πρέπει να το απεικονίσετε. Σε αυτή την ενότητα θαχρησιμοποιήσω μια ευρύτερη κατανόηση του όρου απεικόνιση, που περιλαμβάνει ακόμα και την μορφή κειμένου ως αναπαραστάση των δεδομένων. Για παράδειγμα, η φόρτωση ενός συνόλου δεδομένων σε ένα υπολογιστικό φύλλο μπορεί να θεωρηθεί ως απεικόνιση των δεδομένων. Τα αόρατα στοιχεία ξαφνικά μετατρέπονται σε μια ορατή «εικόνα» στην οθόνη μας. Έτσι, η ερώτηση δεν πρέπει να να προσανατολίζεται στο αν οι δημοσιογράφοι πρέπει να απεικονίσουν τα δεδομένα ή όχι, αλλά ποιο είδος απεικόνισης είναι το καταλληλότερο για κάθε περίσταση.

Με άλλα λόγια: πότε έχει νόημα να προχωρούμε παραπέρα από τον πίνακα στην απεικόνιση; Η σύντομη απάντηση είναι: σχεδόν πάντα. Οι πίνακες μόνο δεν αρκούν για να μας δώσουν μια συνολική επισκόπηση του συνόλου των δεδομένων. Και οι πίνακες από μόνοι τους δεν μας επιτρέπουν να εντοπίσουμε αμέσως πρότυπα μέσα στα δεδομένα. Το πιο κοινό παράδειγμα εδώ είναι τα γεωγραφικά πρότυπα που μπορούν μόνον να παρατηρηθούν μετά από απεικόνιση των δεδομένων σε ένα χάρτη. Υπάρχουν και άλλα είδη μοτίβων, τα οποία θα δούμε αργότερα σε αυτό το κεφάλαιο.

Χρησιμοποιώντας την μέθοδο της απεικόνισης για την απόκτηση γνώσης

Δεν είναι ρεαλιστικό να αναμένουμε ότι τα εργαλεία και οι τεχνικές απεικόνισης δεδομένων θα αποκαλύψουν έτοιμες ιστορίες από τα σύνολα δεδομένων. Δεν υπάρχουν κανόνες, δεν υπάρχει καποιο "πρωτόκολλο" που θα μας εγγυηθεί μια ιστορία. Αντ 'αυτού, νομίζω ότι είναι πιο λογικό να ψάξετε για «ιδέες», οι οποίες μπορούν να μεταμορφωθούν σε ιστορίες στα χέρια ενός καλού δημοσιογράφου.

Κάθε νέα απεικόνιση είναι πιθανό να μας δώσει κάποιες πληροφορίες σχετικά με τα δεδομένα μας. Μερικές από αυτές τις ιδέες μπορεί να είναι ήδη γνωστές (αλλά ίσως να μην έχουν ακόμη αποδειχθεί), ενώ άλλες ιδέες μπορεί να είναι νέες ή ακόμα να αποτελούν έκπληξη για εμάς. Ορισμένες νέες ιδέες μπορεί να σημαίνουν την αρχή μιας ιστορίας, ενώ άλλες θα μπορούσαν να είναι το αποτέλεσμα σφαλμάτων στα δεδομένα, τα οποία είναι πιο πιθανό να βρεθούν από την απεικόνιση των δεδομένων.

Θεωρώ ότι η εικόνα 5-4 και το υπόλοιπο αυτής της ενότητας θα σας βοηθήσουν να γίνετε πιο αποτελεσματικοί στην αναγνώριση ιδεών μέσα από τα δεδομένα.

Figure 4. Data insights: a visualization (Gregor Aisch)
Μάθετε πως να απεικονίζετε τα δεδομένα

Η απεικόνιση παρέχει ένα μοναδικό τρόπο προοπτικής στα δεδομένα. Μπορείτε να απεικονίσετε τα δεδομένα με πολλούς διαφορετικούς τρόπους.

Οι πίνακες είναι πολύ ισχυρό εργαλείο όταν έχουμε να κάνουμε με ένα σχετικά μικρό αριθμό δεδομένων. Επιδεικνύουν τις ετικέτες και τους αριθμούς με διαρθρωμένο και οργανωμένο τρόπο και αποκαλύπτουν το πλήρες δυναμικό τους, όταν συνδυάζονται με τη δυνατότητα ταξινόμισης και φιλτραρίσματος. Επιπλέον, ο Edward Tufte πρότεινε την εισαγωγή μικρών τμημάτων γραφήματος στις στήλες του πίνακα, για παράδειγμα, μια μπάρα ανά γραμμή ή μια μικρό γράφημα στην γραμμή (γνωστό και ως sparkline). Αλλά και πάλι, όπως προαναφέρθηκε, οι πίνακες έχουν σαφώς τα όριά τους. Είναι εξαιρετικοί στην επίδειξη μονοδιάστατων ακραίων τιμών, όπως οι κορυφαίες 10, αλλά δεν ενδείκνυται για τη σύγκριση πολλαπλών διαστάσεων ταυτόχρονα (όπως η αύξηση του πληθυσμού ανά χώρα με την πάροδο του χρόνου).

Figure 5. Tips from Tufte: sparklines (Gregor Aisch)

Τα διαγράμματα, σε γενικές γραμμές, σας επιτρέπουν να χαρτογραφήσετε τις διαστάσεις των δεδομένων σας σε οπτικές ιδιότητες γεωμετρικών σχημάτων. Έχουν γραφτεί πολλά για την αποτελεσματικότητα των επιμέρους οπτικών ιδιοτήτων, και η σύντομη εκδοχή αναφέρει το εξής: το χρώμα είναι δύσκολο, η θέση είναι το παν. Σε ένα διάγραμμα σκέδασης, για παράδειγμα, οι δύο διαστάσεις αντιστοιχίζονται με τις θέσεις Χ και Ψ. Μπορείτε να εμφανίσετε ακόμη και μια τρίτη διάσταση με το χρώμα ή το μέγεθος των συμβόλων που εμφανίζονται. Τα γραφήματα γραμμής είναι ιδιαίτερα κατάλληλα για την προβολή της χρονικής εξελίξεις, ενώ τα ιστογράμματα είναι ιδανικά για τη σύγκριση κατηγορικών δεδομένων. Μπορείτε να στοίβαξετε τα στοιχεία γραφήματος το ένα πάνω στο άλλο. Εάν θέλετε να συγκρίνετε ένα μικρό αριθμό ομάδων στα δεδομένα σας, ένας πολύ ισχυρός τρόπος είναι να επιδείξετε πολλαπλές φορές το ίδιο γράφημα (αναφέρεται επίσης ως μικρά πολλαπλάσια). Σε όλα τα γραφήματα, μπορείτε να χρησιμοποιήσετε διαφορετικά είδη κλιμάκας για να διερευνήσετε διάφορες πτυχές στα δεδομένα σας (π.χ. γραμμική ή λογαριθμική κλίμακα).

Στην πραγματικότητα, τα περισσότερα δεδομένα με τα οποία πρέπει να εργαστούμε σχετίζονται με πραγματικούς ανθρώπους. Το δυνατό στοιχείο των χαρτών αποτελεί η σύνδεση των δεδομένων με τον φυσικό κόσμο. Φανταστείτε ένα σύνολο δεδομένων με περιστατικά εγκλημάτων που περιέχουν γεωγραφικά δεδομένα. Κυρίως, θέλετε να δείτε που συνέβη το εγκλήμα. Επίσης οι χάρτες μπορούν να αποκαλύψουν γεωγραφικές σχέσεις μέσα στα δεδομένα (π.χ., μια τάση από Βορρά προς Νότο, ή από τις αστικές στις αγροτικές περιοχές).

Figure 6. Choropleth map (Gregor Aisch)

Αναφορικά με τις συσχετίσεις, το τέταρτο πιο σημαντικό είδος απεικόνισης είναι ο γράφος. Οι γράφοι αποκαλύπτουν τις διασυνδέσεις (ακμές) στα σημεία των δεδομένων σας (κόμβοι). Η θέση των κόμβων υπολογίζεται από πολύπλοκους αλγόριθμους διάταξης του γράφου που μας επιτρέπουν να δούμε αμέσως τη δομή του δικτύου. Το τέχνασμα της απεικόνισης του γράφου είναι ένας κατάλληλος τρόπος να μοντελοποιήσετε το ίδιο το δίκτυο. Δεν περιλαμβάνουν όλα τα σύνολα δεδομένων σχέσεις μεταξύ τους, και στην περίπτωση που έχουν, μπορεί να μην είναι η πιο ενδιαφέρουσα πτυχή των δεδομένων που πρέπει να εξετάσουμε. Μερικές φορές ο δημοσιογράφος μπορεί ο ίδιος να καθορίσει ακμές μεταξύ των κόμβων. Ένα καλό παράδειγμα είναι ο κοινωνικός γράφος της γερουσιας των ΗΠΑ, του οποίου οι ακμές συνδέουν γερουσιαστές που ψήφισαν το ίδιο σε περισσότερους από 65% των ψήφων τους.

Αναλυστε και Ερμηνέψτε αυτό που βλέπετε

Μόλις απεικονίσετε τα δεδομένα σας, το επόμενο βήμα είναι η εικόνα που δημιουργήσατε να σας διδάξει κάτι. Θα μπορούσατε να ρωτήσετε τον εαυτό σας:

  • Τι μπορώ να δω σε αυτή την εικόνα; Είναι ό, τι περίμενα;

  • Υπάρχουν ενδιαφέροντα πρότυπα;

  • Τι σημαίνει αυτό στο πλαίσιο των δεδομένων;

Μερικές φορές μπορεί να καταλήξετε με μια απεικόνιση που, παρά την καλή εμφάνισή της, μπορεί να μην περιέχει τίποτα ενδιαφέρον για τα δεδομένα σας. Αλλά υπάρχει σχεδόν πάντα κάτι που μπορείτε να μάθετε από κάθε απεικόνιση, ίσως και ασήμαντο.

Καταγράψτε τις ιδέες και τα βήματά σας

Αν θεωρήσετε αυτήν την διαδικασία σαν ένα ταξίδι μέσα από το σύνολο δεδομένων, η τεκμηρίωση είναι το ημερολόγιο του ταξιδιού. Θα σας ενημερώσει για τα μέρη που έχετε ταξιδέψει, τι έχετε δει εκεί, και πώς πήρατε τις αποφάσεις σας για τα επόμενα βήματα σας. Μπορείτε να ξεκινήσετε την τεκμηρίωση σας ακόμα και πριν έρθετε σε επαφή με τα δεδομένα.

Στις περισσότερες περιπτώσεις, όταν αρχίζουμε να εργαζόμαστε με ένα σύνολο δεδομένων που δεν έχουμε ξαναδεί, έχουμε πολλές προσδοκίες και παραδοχές σχετικά με τα δεδομένα. Συνήθως υπάρχει ένας λόγος για τον οποίο ενδιαφερόμαστε για το σύνολο δεδομένων που εξετάζουμε. Είναι μια καλή ιδέα να ξεκινήσουμε την τεκμηρίωση γράφοντας τις αρχικές μας σκέψεις. Αυτό μας βοηθά να προσδιορίσουμε τις προκαταλήψεις μας και μειώνει τον κίνδυνο παρερμηνείας των δεδομένων από την πιθανή εύρεση αυτού που είχαμε αρχικά στο μυαλό.

Πραγματικά πιστεύω ότι η τεκμηρίωση είναι το πιο σημαντικό βήμα της διαδικασίας και είναι, επίσης, κάτι το οποίο έχουμε την τάση να παραλείπουμε. Όπως θα δείτε στο παρακάτω παράδειγμα, η διαδικασία που περιγράφεται περιλαμβάνει πολλά διαγράμματα και επεξεργασία δεδομένων. Κοιτάζοντας ένα σύνολο 15 διαγραμμάτων που δημιουργήσατε μπορεί να σας προκαλέσει σύγχιση, ειδικά εαν έχει περάσει κάποιο χρονικό διάστημα. Στην πραγματικότητα, αυτά τα διαγράμματα είναι μόνο πολύτιμα (σε εσάς ή οποιοδήποτε άλλο πρόσωπο που ενδιαφέρεται για τα ευρήματά σας) αν παρουσιάζονται στο πλαίσιο μέσα στο οποίο έχουν δημιουργηθεί.

Ως εκ τούτου θα πρέπει αφιερώσετε χρόνο να πάρετε κάποιες σημειώσεις για πράγματα όπως: * Γιατί έχω δημιουργήσει αυτό το γράφημα; * Πως χρησιμοποιήσα τα δεδομένα τη δημιουργία του; * Τι σημαίνει αυτό το διάγραμμα;

Μεταμορφώστε τα δεδομένα

Mε τις γνώσεις που θα έχετε συγκεντρώσει από την τελευταία απεικόνιση των δεδομένων, μπορείτε να αποκτήσετε ιδέες σχετικά για την επόμενή σας ανάλυση. Μπορεί να έχετε ανακαλύψει κάποια ενδιαφέροντα μοτίβα στο σύνολο δεδομένων που θέλετε τώρα να ελέγξετε λεπτομερώς.

Πιθανοί μετασχηματισμοί είναι:

Ζουμ

Προσέξτε κάποια συγκεκριμένη λεπτομέρεια στην απεικόνιση

Συγκέντρωση

Συνδιάστε πολλά σημεία δεδομένων σε μία ομάδα

Φιλτράρισμα

Προσωρινά να αποσύρετε τα δεδομένα-σημεία που δεν αποτελούν το επίκεντρο σας

Απομάκρυνση ακραίων τιμών

Απαλλαγείτε από συγκεκριμένα σημεία που δεν είναι αντιπροσωπευτικά για το 99% του συνόλου των δεδομένων.

Ας θεωρήσουμε ότι έχετε απεικονίσει ένα γράφημακαι το αποτέλεσμα ήταν ένα χάος κόμβων που συνδέονται με εκατοντάδες από ακμές (ένα πολύ κοινό αποτέλεσμα όταν οπτικοποιείτε ένα πυκνά συνδεδεμένων δικτύων). Ένας μετασχηματισμος θα ήταν το φιλτράρισμα κάποιων ακμών. Αν, για παράδειγμα, οι ακμές αντιπροσωπεύουν ροές χρήματος από τις δωρήτριες χώρες στις δικαιούχες χώρες, τότε θα μπορούσε να αφαιρέσει όλες τις ροές κάτω από ένα ορισμένο ποσό.

Ποια εργαλεία μπορείτε να χρησιμοποιήσετε

Η αναζήτηση των εργαλείων δεν είναι εύκολη. Κάθε εργαλείο απεικόνισης είναι καλό σε κάποια στοιχεία. Η απεικόνιση και η επεξεργασία των δεδομένων θα πρέπει να είναι εύκολη και φθηνή. Εάν χωρίσετε τις διάφορες εργασίες σε διαφορετικά εργαλεία τότε θα πρέπει να εισάγετε και να εξάγετε δεδομένα πολύ συχνά. Εάν η αλλαγή των παραμέτρων για να απεικονίσετε τς δεδομένα σας παίρνει χρόνο, τότε δεν θα πειραματιστείτε αρκετά. Αυτό δεν σημαίνει απαραίτητα ότι δεν χρειάζεται να μάθετε πώς να χρησιμοποιείτε το εργαλείο. Αλλά από τη στιγμή που το μάθετε, θα πρέπει να είναι πραγματικά αποτελεσματικό.

Είναι χρήσιμο να επιλέξετε ένα εργαλείο που καλύπτει τόσο την επεξεργασία των δεδομένων καθώς και την απεικόνισή τους. Ο διαχωρισμός των εργασιών στα διάφορα εργαλεία σημαίνει θα πρέπει να εισάγετε και να εξάγετε δεδομένα πολύ συχνά. Παραθέτω μια σύντομη λίστα με μερικά εργαλεία απεικόνισης και επεξεργασίας των δεδομένων.

  • Υπολογιστικά φύλλα όπως LibreOffice, το Excel ή το Google Docs

  • Στατιστικά προγράμματα, όπως η R (r-project.org) ή το Pandas (pandas.pydata.org)

  • Γεωγραφικά Συστήματα Πληροφοριών (GIS), όπως το Quantum GIS, το ArcGIS, ή το GRASS

  • Βιβλιοθήκες απεικόνισης, όπως τ d3.js (mbostock.github.com/d3), το Prefuse (prefuse. org), ή το Flare (flare.prefuse.org)

  • Εργαλεία επεξεργασίας δεδομένων όπως το Google Refine ή το Datawrangler

  • Λογισμικό απεικόνισης, όπως το ManyEyes ή Tableau Public (tableausoftware.com/products/public)

Οι απεικονίσεις στην επόμενη ενότητα δημιουργήθηκαν χρησιμοποιώντας R, η οποία είναι ένα είδος Ελβετικό σουγιά (επιστημονικής) απεικόνισης των δεδομένων.

Ένα παράδειγμα: Κατανοώντας ΗΠΑ Data Συμβολή των εκλογών

Ας ρίξουμε μια ματιά στην βάση δεδομένων για την αμερικανική προεδρική εκστρατεία οικονομικών, το οποίο περιέχει περίπου 450.000 συνεισφορές στις προεδρικές υποψηφιότητες των ΗΠΑ. Το αρχείο CSV είναι 60 megabytes και πάρα πολύ μεγάλο για να το χειριστεί κάποιος εύκολα σε ένα πρόγραμμα όπως το Excel.

Ως πρώτο βήμα θα γράψω ρητά τις αρχικές υποθέσεις μου για τα δεδομένα των συνεισφορών:

  • Ο Obama παίρνει τις περισσότερες εισφορές (εφόσον είναι ο πρόεδρος και έχει τη μεγαλύτερη δημοτικότητα).

  • Ο αριθμός των δωρεών αυξάνεται καθώς ο χρόνος κινείται πιο κοντά στην ημερομηνία των εκλογών.

  • Ο Obama παίρνει πιο μικρές δωρεές από ότι οι Ρεπουμπλικανοί υποψήφιοι.

Για να δοθεί απάντηση στο πρώτο ερώτημα, πρέπει να μετατρέψουμε τα δεδομένα. Αντί για κάθε μεμονωμένη συνεισφορά, θα πρέπει να συνοψίσουμε ως προς τα συνολικά ποσά που δώθηκαν σε κάθε υποψήφιο. Μετά την απεικόνιση των αποτελεσμάτων σε ταξινομημένο πίνακα, μπορούμε να επιβεβαιώνουν την υπόθεσή μας ότι στον Ομπάμααντιστοιχούν τα περισσότερα χρήματα:

Candidate Amount ($)

Obama, Barack

72,453,620.39

Romney, Mitt

50,372,334.87

Perry, Rick

18,529,490.47

Paul, Ron

11,844,361.96

Cain, Herman

7,010,445.99

Gingrich, Newt

6,311,193.03

Pawlenty, Timothy

4,202,769.03

Huntsman, Jon

2,955,726.98

Bachmann, Michelle

2,607,916.06

Santorum, Rick

1,413,552.45

Johnson, Gary Earl

413,276.89

Roemer, Charles E. Buddy III

291,218.80

McCotter, Thaddeus G

37,030.00

Ακόμα κι αν αυτός ο πίνακας δείχνει τα ελάχιστα και μέγιστα ποσά και την σειρά τους, δεν παρέχει πολλές πληροφορίες για πιθανά πρότυπα στην κατάταξη των υποψηφίων. Η εικόνα 5-7 αποτελεί μια άλλη απεικόνιση των στοιχείων, είναι ένας τύπος γραφήματος που ονομάζεται «dot chart», στo οποίo μπορούμε να δούμε ό,τι εμφανίζεται στον πίνακα και επιπλέον τα μοτίβα εντός του πεδίου. Για παράδειγμα, το dot chart μας επιτρέπει να συγκρίνουμε άμεσα την απόσταση μεταξύ Obama και Romney, και μεταξύ Romney και Perry, χωρίς να χρειάζεται να αφαιρέσετε τις τιμές. (Σημείωση: το dot chart δημιουργήθηκε χρησιμοποιώντας R. Μπορείτε να βρείτε συνδέσμους για τον πηγαίο κώδικα στο τέλος αυτού του κεφαλαίου).

Figure 7. Visualizations to spot underlying patterns (Gregor Aisch)

Τώρα, ας προχωρήσουμε με μια μεγαλύτερη εικόνα του συνόλου δεδομένων. Ως πρώτο βήμα, απεικόνησα όλα τα συνεισφερόμενα ποσά κατά την πάροδο του χρόνου σε ένα απλό γράφημα. Μπορούμε να δούμε ότι σχεδόν όλες οι δωρεές είναι πολύ μικρές σε σύγκριση με τρεις ακραίες τιμές. Περαιτέρω έρευνα αποκαλύπτει ότι οι τεράστιες εισφορές που προέρχονται από την “χρηματοδότηση της νίκης του Obama 2012” (επίσης γνωστή και ως Super PAC) και πραγματοποιήθηκαν στις 29 Ιουλίου ($450k), στις 29 Σεπτεμβρίου ($1.5mio) και στις 30 Δεκεμβρίου ($1.9mio).

Figure 8. Three clear outliers (Gregor Aisch)

Ενώ οι εισφορές μόνο από το Super PAC είναι αναμφίβολα οι μεγαλύτερες στην ιστορία των δεδομένων, θα ήταν επίσης ενδιαφέρον να δούμε πέρα από αυτό. Το θέμα τώρα είναι ότι οι μεγάλες συνεισφορές αλλοιώνουν την άποψή μας για τις μικρότερες εισφορές που προέρχονται από ιδιώτες, έτσι θα τις αφαιρέσουμε από τα δεδομένα. Αυτός ο μετασχηματισμός είναι κοινώς γνωστό ως αφαίρεση ακραίων τιμών. Μετά την απεικόνιση των δεδομένων, μπορούμε να δούμε ότι οι περισσότερες κειμένονται στο φάσμα των $ 10k και - $ 5K.

Figure 9. Removing the outliers (Gregor Aisch)

Σύμφωνα με τα όρια συμβολής που τοποθετούνται από τον FECA, οι ιδιώτες δεν επιτρέπεται να δωρίσουν περισσότερα από $ 2.500 σε κάθε υποψήφιο. Όπως βλέπουμε στο γράφημα, υπάρχουν πολλές δωρεές που γίνονται πάνω από το όριο. Ειδικότερα, δύο μεγάλες εισφορές μπορούν να προσελκύσουν την προσοχή μας. Φαίνεται ότι καθρεφτίζονται στα αρνητικά ποσά (επιστροφές) τον Ιούνιο και τον Ιούλιο. Η περαιτέρω έρευνα στα δεδομένα αποκαλύπτει τις ακόλουθες συναλλαγές:

  • Στις 10 Μαΐου, ο Stephen James Davis στο Σαν Φρανσίσκο, που απασχολούνταν στο σε Banneker Partners (δικηγόρικό γραφείο), είχε δωρίσει 25.800 δολαρίων για τον Ομπάμα.

  • Στις 25 Μαΐου, η Cynthia Murphy στο Little Rock, που απασχολούνται στον Όμιλο Murphy (δημόσιες σχέσεις), είχει δωρίσει 33.300 δολάρια για τον Ομπάμα.

  • Στις 15 Ιουνίου, το ποσό των $ 30,800 επεστράφει στην Cynthia Murphy και μείωσε το ποσό που δώρισε στα $ 2500.

  • Στις 8 Ιουλίου, το ποσό των $ 25.800 επεστραφηκε στον Stephen James Davis, το οποίο μείωσε το ποσό στα $ 0.

Ποιο είναι το ενδιαφέρον σχετικά με αυτούς τους αριθμούς; Τα 30.800 δολαρία που επιστρέφονται στην Cynthia Murphy ισούται με το μέγιστο ποσό που μπορούν οι ιδιώτες να δώσουν στις εθνικές επιτροπές των κομμάτων ανά έτος. Ίσως ήθελε να συνδυάσει σε μία συναλλαγή και τις δωρεές, η οποία τελικά απορρίπτεται. Το $ 25.800 που επιστρέφονται στον Stephen James Davis ισούται με, ενδεχομένως, τα $ 30,800 μείον τα $ 5.000 (το όριο συμμετοχής σε οποιαδήποτε άλλη πολιτική επιτροπή).

Ένα άλλο ενδιαφέρον εύρημα στο τελευταίο γράφημα είναι η οριζόντια γραμμή μοτίβο για τις εισφορές των Ρεπουμπλικάνων υποψηφίων στα $ 5000 και - $2.500. Για να το παρατηρήσετε με περισσότερες λεπτομέρειες, απεικόνησα μόνο τις Ρεπουμπλικανικές δωρεές. Το γράφημα που πραράγεται είναι ένα εξαιρετικό παράδειγμα μοτίβων στα δεδομένα που θα είναι αόρατα χωρίς την απεικόμιση των δεδομένων.

Figure 10. Removing outliers 2 (Gregor Aisch)

Αυτό που μπορούμε να δούμε είναι ότι υπάρχουν πολλές δωρεές των $ 5.000 σε Ρεπουμπλικανούς υποψηφίους. Πράγματι, μια ματιά στα στοιχεία αποκαλύπτει ότι πρόκειται για 1243 δωρεές, οι οποίες αποτελούν μόλις το 0,3% του συνολικού αριθμού των δωρεών, αλλά δεδομένου ότι οι δωρεές είναι ομοιόμορφα κατανεμημένες σε όλο τον χρονικό άξονα, έχει ως αποτέλεσμα την γραμμή που εμφανίζεται. Το ενδιαφέρον στοιχείο σχετικά με την γραμμή είναι ότι οι δωρεές από ιδιώτες περιορίστηκαν στα $ 2500. Κατά συνέπεια, κάθε δολάριο πάνω από το όριο επεστράφηκε στους δωρητές, που έχει ως αποτέλεσμα στην δεύτερη γραμμή μοτίβο στα- $ 2.500. Σε αντίθεση, οι συνεισφορές προς τον Μπαράκ Ομπάμα δεν δείχνουν παρόμοια τάση.

Figure 11. Removing outliers 3 (Gregor Aisch)

Έτσι, θα ήταν ενδιαφέρον να μάθουμε γιατί χιλιάδες των Ρεπουμπλικανών δωρητών δεν πρόσεξαν το όριο δωρεάς για τους ιδιώτες. Για να αναλύσει περαιτέρω αυτό το θέμα, μπορούμε να εξετάσουμε τον συνολικό αριθμό των $ 5K δωρεών ανά υποψήφιο.

Figure 12. Donations per candidate (Gregor Aisch)

Φυσικά, αυτό είναι μια μάλλον διαστρεβλωμένη άποψη, δεδομένου ότι δεν λαμβάνει υπόψη τα συνολικά ποσά των δωρεών για κάθε υποψήφιο. Το επόμενο διάγραμμα δείχνει το ποσοστό των $ 5K δωρεών ανά υποψήφιο.

Figure 13. Where does the senator’s money come from?: donations per candidate (Gregor Aisch)

Τι μαθαίνουμε από αυτό

Συχνά, μια τέτοια οπτική ανάλυση ενός νέου συνόλου δεδομένων μοιάζει με ένα συναρπαστικό ταξίδι σε μια άγνωστη χώρα. Ξεκινάτε ως ένας ξένος μόνο με τα δεδομένα και τις υποθέσεις σας, αλλάμε κάθε σας βήμα, με κάθε γράφημα που δημιουργείτε, αποκτάτε επιπλέον γνώση σχετικά με το θέμα. Με βάση αυτήν την γνώση, παίρνετε αποφάσεις για τα επόμενα βήματα σας και επιλέγετε τα θέματα που αξίζει να ερευνήσετε περαιτέρω. Όπως ίσως έχετε διαπιστώσει σε αυτό το κεφάλαιο, η διαδικασία της απεικόνισης, την ανάλυσης και τη μετατροπής των δεδομένων θα μπορούσε να επαναλαμβάνεται συνέχεια.

Ο πηγαίος κώδικα

Όλα τα διαγράμματα που εμφανίζονται σε αυτό το κεφάλαιο δημιουργήθηκαν χρησιμοποιώντας το εξαιρετικό και ισχυρό λογισμικό «R». Η R δημιουργήθηκε κυρίως ως επιστημονικό εργαλείο απεικόνισης, σχεδόν οποιαδήποτε απεικόνιση ή επεξεργασία δεδομένων είναι ήδη ενσωματωμένη σε αυτήν. Για όσους ενδιαφέρονται για την απεικόνιση και την επεξεργασία των δεδομένων χρησιμοποιώντας την R, παρατίθεται ο πηγαίος κώδικας με τον οποίο δημιουργήθηκαν τα διαγράμματα σε αυτό το κεφάλαιο:

Υπάρχει επίσης μια μεγάλη ποικιλία από βιβλία και tutorials διαθέσιμα.

Gregor Aisch, Open Knowledge Foundation