Διαδικτυακή εφαρμογή του Datalab του Αριστοτελείου Πανεπιστημίου Θεσσαλονίκης αναλύει τον διεθνή διάλογο για τον πόλεμο στην Ουκρανία στο Twitter.
Τη διαδικτυακή εφαρμογή υπό τον τίτλο The Ukraine Data Observatory, η οποία στοχεύει στην ενημέρωση σχετικά με τον διεθνή διάλογο που αναπτύσσεται στο Twitter για τον πόλεμο στην Ουκρανία, υλοποίησε και συντηρεί το Data & Web Science Lab (Datalab), το ερευνητικό εργαστήριο του Τμήματος Πληροφορικής στο Αριστοτέλειο Πανεπιστήμιο της Θεσσαλονίκης, υπό τη διεύθυνση της Καθηγήτριας Αθηνάς Βακάλη.
Η συλλογή των δεδομένων και τα ερευνητικά φίλτρα
Όσο στη Ρωσία η πρόσβαση στο Twitter και στις «ναυαρχίδες» της Meta, Facebook και Instagram, παραμένει μπλοκαρισμένη, διεθνώς οι χρήστες εξακολουθούν να (ανα)δημοσιεύουν δεκάδες ή και εκατοντάδες χιλιάδες tweet ανά ώρα, από την έναρξη του πολέμου και εφεξής. «Ωστόσο, είναι τόσο εύκολο για τον καθένα, μέσα από το Twitter, να ακολουθήσει τις εξελίξεις μόνος του;», ρωτάει ρητορικά ο Παύλος Σερμπέζης, μεταδιδακτορικός ερευνητής και μέλος του Datalab, πριν να μας μιλήσει για την πρωτοβουλία του εργαστηρίου να δημιουργήσει το Ukraine Data Observatory, το οποίο είναι σε λειτουργία από τις 2 Μαρτίου 2022: «Εμείς, που ξεκινήσαμε να μαζεύουμε tweets ουσιαστικά μία εβδομάδα αργότερα από την έναρξη του πολέμου, έχουμε μαζέψει πάνω από 120 εκατομμύρια tweets όσον αφορά στον πόλεμο στην Ουκρανία −και τα tweets που μπορεί να γίνονται πραγματικά μπορεί να είναι 10 ή 100 φορές περισσότερα. Οπότε, καταλαβαίνουμε ότι ο όγκος των δεδομένων είναι τεράστιος: ένας άνθρωπος από μόνος του, ένας δημοσιογράφος, για παράδειγμα, όσο και αν ψάξει, δεν μπορεί να βρει όλα αυτά τα tweets, να βρει ποια είναι πιο δημοφιλή και για τι συζητούν όλοι αυτοί οι άνθρωποι στο Twitter. Αυτός είναι ο λόγος που σκεφτήκαμε να κάνουμε το Ukraine Data Observatory. Πρόκειται για ένα πρόγραμμα το οποίο μαζεύει όλα αυτά τα tweets που παρέχονται από το Twitter σχετικά με τον πόλεμο στην Ουκρανία, κάνει μια ανάλυση και βρίσκει ποια είναι τα trends (τα θέματα που απασχολούν πιο πολύ τους χρήστες), ποια hashtag χρησιμοποιούν οι χρήστες, τι λένε, ποιες λέξεις χρησιμοποιούν, ποια είναι τα πιο δημοφιλή tweets ή αυτά που γίνονται πιο πολλές φορές retweet, ποια άρθρα μοιράζονται οι χρήστες περισσότερο, ποιοι είναι οι πιο ενεργοί χρήστες στο Twitter γύρω από αυτό το θέμα, καθώς και ποιοι είναι οι πιο επιδραστικοί χρήστες −ποιους ακούει πιο πολύ ο κόσμος. Όλα αυτά είναι δεδομένα που τα παρέχουμε εμείς στο Ukraine Data Observatory, μια εφαρμογή στο Διαδίκτυο η οποία είναι ελεύθερη για όλους».
Tα μέλη της ερευνητικής ομάδας συλλέγουν τα tweets ενδιαφέροντος μέσω του Twitter API (Application Programming Interface), δηλαδή την προγραμματιστική διεπαφή που διαθέτει το Twitter και η οποία δίνει τη δυνατότητα σε οποιονδήποτε έχει γνώσεις προγραμματισμού να κάνει προγραμματιστικές κλήσεις («requests») στο Twitter, ζητώντας στοιχεία από τις βάσεις δεδομένων του. «Το Twitter έχει το θετικό ότι είναι το μόνο κοινωνικό δίκτυο το οποίο παρέχει αυτή τη δυνατότητα δωρεάν και ελεύθερα. Μας επιτρέπει, χρησιμοποιώντας ένα συγκεκριμένο κομμάτι του API το οποίο ονομάζεται “streaming API” (σ.σ.: περισσότερες πληροφορίες, εδώ), να μαζεύουμε τα δεδομένα, τα tweets που δημοσιεύονται, σε πραγματικό χρόνο», λέει ο Ηλίας Δημητριάδης, υποψήφιος διδάκτωρ και ερευνητής, μέλος του Datalab, εξηγώντας ότι η συλλογή των δεδομένων είναι διαδικασία ταυτόχρονη με την ανάλυσή τους που γίνεται επίσης σε πραγματικό χρόνο −με εύλογους περιορισμούς και βάσει μεθοδολογικών επιλογών.
Έχουμε μαζέψει πάνω από 120 εκατομμύρια tweets όσον αφορά στον πόλεμο στην Ουκρανία –και τα πραγματικά tweets που γίνονται μπορεί να είναι 10 ή 100 φορές περισσότερα.
Η ομάδα διαρκώς συγκεντρώνει tweets τα οποία φέρουν οποιαδήποτε από 16 συγκεκριμένα hashtag που οι ίδιοι οι ερευνητές έχουν επιλέξει (π.χ. #Ukraine, #Russia, #UkraineRussiaWar, #RussiaUkraineWar, #Zelensky, #Putin −αναλυτικά η λίστα διατίθεται στη σελίδα «About» του Παρατηρητηρίου). «Εφόσον ένα ή πολλά tweet περιέχουν (σ.σ.: τουλάχιστον) έναν από αυτούς τους όρους, τότε εμείς τα συλλέγουμε και μετέπειτα τα αναλύουμε», σημειώνει ο Ηλίας Δημητριάδης και συμπληρώνει: «Φυσικά, το Twitter δεν μας παρέχει το σύνολο όλων των (σ.σ.:εν λόγω) tweets που δημοσιεύονται αλλά ένα μικρό ποσοστό αυτών, για το οποίο, όμως, έρευνες έχουν δείξει ότι στατιστικά “στέκει” και αποδίδει». Ο ίδιος συνεχίζει διευκρινίζοντας, αφενός, ότι το Twitter επιστρέφει στον χρήστη που κάνει τα προγραμματιστικά «requests» για δεδομένα, σχετικά με οποιοδήποτε θέμα ενδιαφέροντος, το 1% έως 3% του περιεχομένου που κυκλοφορεί στο μέσο κοινωνικής δικτύωσης την ώρα της κλήσης (συγκεκριμένα, εντός χρονικών διαστήματος δύο ωρών) και, αφετέρου, ότι αυτό συμβαίνει βάσει τυχαίας δειγματοληψίας, χωρίς η πλατφόρμα να επιλέγει συγκεκριμένο περιεχόμενο που θα παράσχει, σύμφωνα με όσα περιγράφονται στο documentation του Twitter API. «Γι’ αυτό και στατιστικά “στέκει” η ανάλυση η οποία γίνεται, γιατί το Twitter δεν επιλέγει, από συγκεκριμένη χώρα ή από συγκεκριμένο χρήστη ή από συγκεκριμένη χρονική περίοδο, ποια δεδομένα θα σου βγάλει», λέει ο Ηλίας Δημητριάδης. Επίσης, εξηγεί ότι, αφού η ομάδα συλλέγει, με αυτόν τον τρόπο, τα δεδομένα βάσει των προεπιλεγμένων hashtag αναφοράς, τότε προχωρά στις αναλύσεις του φερόμενου ως αγγλόφωνου περιεχομένου.
Οι πιο ενεργοί χρήστες, οι «influencers» και τα bots
Από τις πιο ενδιαφέρουσες αναλύσεις που παρουσιάζονται στην εφαρμογή είναι η λίστα με τους δέκα πιο ενεργούς χρήστες και εκείνη με τους δέκα πιο επιδραστικούς χρήστες σε οποιοδήποτε χρονικό διάστημα μελέτης κανείς επιλέξει. Οι περισσότερο ενεργοί χρήστες αντιστοιχούν σε εκείνους που δημοσιεύουν περισσότερο για ζητήματα σχετικά με τον πόλεμο στην Ουκρανία (έχουν κάνει τα περισσότερα tweet ή/και retweet). Από την άλλη, οι περισσότερο επιδραστικοί χρήστες προκύπτουν με τη χρήση αλγορίθμων οι οποίοι βασίζονται στην ανάλυση γράφων και λαμβάνουν υπόψη τους τα retweets, τα mentions και τα replies, που καταγράφονται μεταξύ των χρηστών.
«Μπορεί κάποιος να “ανεβάζει” 100 tweets την ημέρα, αλλά αν δεν έχει μεγάλο δίκτυο στο Twitter ή αν δεν ενδιαφέρουν πολύ τον κόσμο αυτά που ανεβάζει, μπορεί να μην είναι επιδραστικά. Ωστόσο, μπορεί ένας χρήστης να ανεβάζει λιγότερα tweets, αλλά να τα βλέπουν περισσότεροι και να τα κάνουν retweet περισσότεροι. Από κάποια αποτελέσματα που είδαμε, στους πιο επιδραστικούς χρήστες βλέπουμε μεγάλες ειδησεογραφικές ιστοσελίδες. Για παράδειγμα, στους πρώτους [πιο επιδραστικούς χρήστες] για πολλές ημέρες είναι το Kiyv Independent, ενώ δεν εμφανίζεται στους πιο ενεργούς χρήστες. Σε αντίθεση, είδαμε ότι στους πιο ενεργούς υπάρχουν λογαριασμοί που “ανεβάζουν” (ή κάνουν retweet) 500 ή έως και 900 tweets την ημέρα, το οποίο στην αρχή μας ξένισε», εξηγεί ο Παύλος Σερμπέζης.
Είδαμε ότι στους πιο ενεργούς, υπάρχουν λογαριασμοί που ανεβάζουν (ή κάνουν retweet) 500 ή έως και 900 tweets την ημέρα.
Αυτή ήταν η αρχή, ώστε η ερευνητική ομάδα να κάνει χρήση της τεχνογνωσίας που διαθέτει από την ανάπτυξη του Bot Detective, του διαδικτυακού εργαλείου που αποτελεί επίσης έργο του Datalab και το οποίο εκτιμά κατά πόσο κάποιος λογαριασμός ενδιαφέροντος στο Twitter αντιστοιχεί σε φυσικό πρόσωπο, bot ή cyborg. Ως προς την τελευταία κατηγορία, πρόκειται για λογαριασμούς που μπορεί να μην αντιστοιχούν σε ένα φυσικό πρόσωπο αλλά σε μια ομάδα ανθρώπων, σε έναν φορέα, σε έναν οργανισμό, σε ένα ειδησεογραφικό μέσο κ.ο.κ. και οι οποίοι μπορεί να δημοσιεύουν περιεχόμενο βάσει διαδικασίας, η οποία ξεκινά από άνθρωπο αλλά είναι (ημι)αυτοματοποιημένη.
Για τους σκοπούς του Ukraine Data Observatory, η ομάδα συλλέγει τους 200 περισσότερο ενεργούς και τους 200 περισσότερο επιδραστικούς χρήστες ημερησίως και δημοσιεύει στην εφαρμογή τους κορυφαίους δέκα ανά κατηγορία. Με αυτά τα δεδομένα και στο πλαίσιο της έρευνας, η ομάδα προχώρησε σε ανάλυση των δέκα κορυφαίων ανά κατηγορία για όλο το διάστημα μελέτης: Δεδομένου ότι υπάρχουν επικαλύψεις από μέρα σε μέρα (κάποιος που εμφανίζεται ανάμεσα στους κορυφαίους δέκα χρήστες τη μία ημέρα δεν σταματά τη δραστηριότητά του την επομένη), «σε σύνολο 157 χρηστών οι οποίοι ήταν μέσα στους κορυφαίους δέκα όλο αυτό το διάστημα, οι 33 έχουν πλέον διαγραφεί από το Twitter», σημειώνει ο Ηλίας Δημητριάδης, υποδεικνύοντας ότι περισσότεροι από το 1/5 των εν λόγω χρηστών ουσιαστικά κρίθηκαν, σε επόμενο χρόνο, ως bot από το ίδιο το Twitter (ή ως χρήστες που παραβιάζουν τους κανόνες χρήσης). Από τους λοιπούς κορυφαίους χρήστες μελέτης, «μόνο τους 41 έβγαλε το εργαλείο μας ως άνθρωπο (human)», λέει ο Ηλίας Δημητριάδης και συμπληρώνει ότι, σύμφωνα με την ανάλυση που έκανε η ερευνητική ομάδα με το Bot Detective, οι υπόλοιποι είναι άλλου είδους bot: λογαριασμοί που κάνουν διαρκώς ίδιου περιεχομένου δημοσιεύσεις (spam bot), πολιτικά bot (political bot) που διακρίνονται για συγκεκριμένη συμπεριφορά και γραπτό λόγο που χαρακτηρίζεται από κεφαλαία γράμματα, πολλά θαυμαστικά και λοιπά στοιχεία έντονης γραφής, «μποτάκια» που προσπαθούν να μιμηθούν την ανθρώπινη συμπεριφορά (social bot) και bot τα οποία δηλώνουν ότι είναι bot (self-declared bot).
Σε σύνολο 157 χρηστών οι οποίοι ήταν μέσα στους κορυφαίους δέκα όλο αυτό το διάστημα, οι 33 έχουν πλέον διαγραφεί από το Twitter. Από τους λοιπούς, μόνο τους 41 έβγαλε το Bot Detective ως άνθρωπο (human). Οι υπόλοιποι είναι άλλου είδους bot.
Τα εν λόγω ευρήματα αποτελούν αποτέλεσμα ad hoc ανάλυσης που έκανε η ομάδα εργασίας. Στα άμεσα σχέδια της είναι, όμως, η «διασύνδεση» της τεχνογνωσίας πίσω από το Bot Detective με το Ukraine Data Observatory, ώστε οι επισκέπτες του Παρατηρητηρίου σύντομα να μπορούν να βλέπουν δίπλα από κάθε λογαριασμό στις λίστες των κορυφαίων χρηστών τις εκτιμήσεις για την «ταυτότητά» του −εάν θεωρείται φυσικό πρόσωπο, cyborg ή κάποιου είδους bot.
Προς ώρας, η εφαρμογή και η εν λόγω δουλειά της ερευνητικής ομάδας συνολικά αναδεικνύουν, μεταξύ άλλων, δύο πάγια ανοιχτά ερωτήματα σχετικά με τα ποιοτικά χαρακτηριστικά του δημόσιου διαλόγου στα μέσα κοινωνικής δικτύωσης, ιδίως σε περιόδους κρίσης.
Το ένα αφορά, φυσικά, τον ρόλο των bot και την επιρροή της δημόσιας συζήτησης: «Στις λίστες των κορυφαίων δέκα πιο ενεργών και των κορυφαίων δέκα πιο επιδραστικών χρηστών δεν υπάρχει επικάλυψη», λέει ο Παύλος Σερμπέζης, αναφερόμενος στην πρώτη ενδεικτική «άσκηση» ανάλυσης που έκανε η ερευνητική ομάδα. «Δεν θα βιαζόμουν να βγάλω το συμπέρασμα ότι δεν επηρεάζεται ο διάλογος», προσθέτει ο ίδιος και αναφέρει ότι, σύμφωνα με πρόσφατες έρευνες, σε γενικές γραμμές «το 10%-15% του Twitter είναι bot και το 25% του περιεχομένου που μοιράζεται είναι από bots, επειδή τα bots τουιτάρουν πολύ πιο συχνά από τους ανθρώπους. Σε κάποια θέματα, πιο καίρια ή που έχουν πολύ μεγαλύτερο ενδιαφέρον, όπως για παράδειγμα για την COVID, το 50% του περιεχομένου ερχόταν από bots». Στο ίδιο μήκος κύματος, ο Ηλίας Δημητριάδης συμπληρώνει, για την περίπτωση του διαλόγου για την Ουκρανία, ότι «δεν έχουμε ελέγξει αν, για παράδειγμα, ανάμεσα στους κορυφαίους 100 (σ.σ. πιο επιδραστικούς και πιο ενεργούς χρήστες αντίστοιχα) υπάρχει επικάλυψη. Δηλαδή, μπορεί μέσα στους 100 πιο επιδραστικούς χρήστες, για παράδειγμα, να υπάρχει bot».
Το δεύτερο ζήτημα, που και μέσω του συγκεκριμένου ερευνητικού έργου επανέρχεται στη συζήτηση για τη διακίνηση της πληροφορίας στα social media, είναι κατά πόσο τα μέσα κοινωνικής δικτύωσης έχουν απωλέσει την αρχική −και προ δεκαετίας πολλά υποσχόμενη− δυναμική της πληροφορίας που αναδεικνύεται «από τα κάτω» και του μηνύματος που διαδίδεται ελεύθερα από πολλούς προς πολλούς, χωρίς εστίες κεντρικού ελέγχου. «Σχετικά με τους πιο επιδραστικούς χρήστες, παρατηρούμε κάτι άλλο επίσης πάρα πολύ σημαντικό: ότι, μέσα σε αυτόν τον μήνα, το σύνολο των χρηστών που έχουν μπει (σ.σ.: οποιαδήποτε στιγμή στην ημερήσια) λίστα με τους κορυφαίους δέκα είναι 41. Αναλύσαμε και αυτούς. Από αυτούς, μόνο έξι βγήκαν «human» (σ.σ. από το Bot Detective), οι υπόλοιποι βγήκαν cyborg», σημειώνει ο Ηλίας Δημητριάδης −αναδεικνύοντας εκ νέου τη σημερινή θέση υπεροχής ειδησεογραφικών πρακτορείων, εγκαθιδρυμένων μέσων ενημέρωσης, άλλων οργανισμών και φορέων στα μέσα κοινωνικής δικτύωσης τα οποία κάποτε εμφανίστηκαν ως η ριζοσπαστική δύναμη της αλλαγής παραδείγματος στη μαζική επικοινωνία.