Ο Έλληνας αστυνομικός που "εκπαίδευσε" αλγόριθμους για τα fake news της πανδημίας

Ο Γιώργος Λυγερός μελέτησε χιλιάδες ελληνικά tweets, τα οποία ταξινόμησε σε "αληθινά", "ψευδή" και "μη σχετικά" με την Covid-19.

Η πρώτη εντύπωση είναι ότι πρέπει να βουτήξεις σε έναν ωκεανό από λέξεις, «ψιθύρους» και «κραυγές», γραμμένες στο Twitter από χιλιάδες ανθρώπους που ποστάρουν με ρυθμό πολυβόλου και σε συνθήκη lockdown για τη μεγαλύτερη υγειονομική κρίση των τελευταίων δεκαετιών. Έπρεπε να γίνει ένα πρώτο ξεκαθάρισμα. Αρχικά, επιλέχθηκαν τα tweets με το hashtag #Covid19 που είχαν γραφτεί το διάστημα μεταξύ 1ης Νοεμβρίου και 31ης Δεκεμβρίου του 2020. Υπήρχαν 226.582.903 τέτοια μοναδικά tweets. Το δεύτερο φίλτρο ήταν η γλώσσα. Τα 61.147 tweets ήταν γραμμένα στα ελληνικά. Όχι τόσο άσχημα, τουλάχιστον για αρχή.

Ο Γιώργος Λυγερός είναι αστυνομικός στην Υποδιεύθυνση Ασφάλειας της Πάτρας. Ένας από τους τομείς πάνω στους οποίους δουλεύει είναι η Δίωξη του Ηλεκτρονικού Εγκλήματος και είναι σύνδεσμος με την κεντρική υπηρεσία στην Αθήνα. Εκτός της Αστυνομίας, έχει σπουδές στη Διοίκηση Επιχειρήσεων και μέσα στην πανδημία ολοκλήρωσε ένα δεύτερο μεταπτυχιακό στο Τμήμα Μηχανικών Πληροφοριακών Συστημάτων του Πανεπιστημίου Αιγαίου. Στη διπλωματική του εργασία προσέγγισε υπολογιστικά τις ελληνικές δημοσιεύσεις στο Twitter που αφορούσαν την πανδημία.

Ο αστυνομικός Γιώργος Λυγερός.

Αυτήν την εβδομάδα, ο κ. Λυγερός πρόκειται να παρουσιάσει την έρευνα στο Βίλνιους της Λιθουανίας, στο συνέδριο της CEPOL, δηλαδή της ευρωπαϊκής Ακαδημίας για την εκπαίδευση των στελεχών των διωκτικών Αρχών. Λίγες μέρες πριν το συνέδριο, εξήγησε στο Magazine τον τρόπο με τον οποίο έγραψε και εκπαίδευσε αλγόριθμους μηχανικής μάθησης, ώστε να μπορούν να χαρακτηρίζουν, με σχετικά μεγάλη επιτυχία, ένα tweet για την Covid-19 ως «αληθινό», «ψευδές» ή «μη σχετικό» με την πανδημία.

«Το προηγούμενο διάστημα μεγάλος όγκος πληροφορίας στα social media αφορούσε fake news και θεωρίες συνωμοσίας για τον Covid-19, επομένως υπήρχε ερευνητικό αντικείμενο που ταυτόχρονα αφορούσε τη δημόσια υγεία», σημειώνει ο κ. Λυγερός. «Σκοπός της εργασίας είναι να περιοριστεί ο χρόνος που χρειάζεται κάποιος για να διαχωρίσει όλη αυτήν την πληροφορία», λέει ο ίδιος. Το εργαλείο γι’ αυτό ήταν η τεχνητή νοημοσύνη και η Μηχανική Μάθηση, δηλαδή αλγόριθμοι, τους οποίους, αν εκπαιδεύσεις με συγκεκριμένα γλωσσολογικά χαρακτηριστικά, μπορούν να αυτοματοποιήσουν τον εντοπισμό των ψευδών ειδήσεων.

Η δεξαμενή της μελέτης ήταν τα 61.147 ελληνικά tweets. Ο ερευνητής αστυνομικός έλαβε από το Twitter το αρχείο των μηνυμάτων σε κωδικοποιημένη μορφή αριθμών, επομένως έπρεπε να φτιάξει ένα εργαλείο στη γλώσσα προγραμματισμού Python για να διαβάσει λέξεις. Οι λέξεις βγάζουν πάντα νόημα. «Μέσω κατάλληλων συναρτήσεων επισημάνθηκαν 10.923 χαρακτηριστικά, τα οποία σχετίζονται με τη γλωσσική μορφολογία των tweets, την ανάλυση συναισθήματος, τη σπουδαιότητα ή το είδος των λέξεων που χρησιμοποιούνται», εξηγεί ο κ. Λυγερός.

Μέσω της Μηχανικής Υπολογιστών, ταξινομήθηκαν συνολικά 3.931 tweets ως «αληθινά», «ψευδή» και «μη σχετικά». Αυτά θα ήταν στο εξής ο μπούσουλας των «εκπαιδευμένων» αλγόριθμων για τον χαρακτηρισμό των υπολοίπων tweets. «Είναι η ίδια φιλοσοφία με την οποία λειτουργούν τα ρομπότ», λέει ο ερευνητής. Στην ταξινόμηση, όπως σημειώνει, υπάρχει πάντα το υποκειμενικό στοιχείο του ερευνητή, ο οποίος επιπλέον στη συγκεκριμένη περίπτωση δεν είναι ειδικός για την Covid-19. Αυτό μπορεί να έχει αντίκρισμα στα τελικά ευρήματα, όμως είναι πάντα μία πρόκληση.

«Αφού χαρακτηρίστηκε ένας επαρκής αριθμός από δεδομένα, στη συνέχεια για κάθε κατηγορία οπτικοποιήθηκαν οι πιο χαρακτηριστικές λέξεις σε wordclouds. Εξήχθη από αυτά ένα σύνολο από γλωσσικά μορφολογικά χαρακτηριστικά, εφαρμόζοντας μεθόδους μετατροπής των κειμένων σε διανύσματα, καθώς και χαρακτηριστικά σχετικά με την υποκειμενικότητα των κειμένων», λέει κ. Λυγερός.

Τεστ για Covid-19 στην Ελλάδα. AP

Δεν υπάρχει απάντηση στο αυθόρμητο ερώτημα για τα πόσα από τα 61.147 ελληνικά tweets της πανδημίας που ελέγχθηκαν ήταν «αληθινά», «ψευδή» ή «μη σχετικά», επομένως σε τι ποσοστό τουιτάραμε fake news και θεωρίες συνωμοσίας. Αντί για απάντηση σε αυτό, ο κ. Λυγερός δείχνει στο Magazine ορισμένα γραφήματα, που μπορούν να γίνουν κατανοητά από κάποιον που δεν είναι εξοικειωμένος με τους αλγόριθμους και τη μηχανική μάθηση.

Ένα πρώτο συμπέρασμα είναι ότι όσο περισσότερες λέξεις έχει ένα tweet, τόσο αυξάνεται η πιθανότητα να είναι »ψευδές», το ίδιο και αν είναι γραμμένο με κεφαλαία ή έχει πολλά σημεία στίξης, για παράδειγμα θαυμαστικά. Επίσης, υπάρχουν οι λέξεις-κλειδιά που χτυπούν καμπανάκι στον εκπαιδευμένο αλγόριθμο. Ενδεικτικά, λέξεις όπως «πανδημία», «κρούσματα», «covid» ή «κορονοϊός», ήταν συχνότερες στα tweets που ταξινομήθηκαν ως «αληθή». Αντίθετα λέξεις όπως «εμβόλιο», «Ελλάδα», «μάσκα», «νεκρός» ή «εκκλησία», παραπέμπουν σε μεγαλύτερο ποσοστό σε «ψευδές» περιεχόμενο.

Ο ερευνητής αστυνομικός εκπαίδευσε τέσσερις αλγόριθμους Μηχανικής Μάθησης, ώστε να καταλήξει σε αυτόν που θα αξιολογούσε τα tweets με τη μεγαλύτερη αξιοπιστία. Όπως λέει, το υψηλότερο ποσοστό που πέτυχε ήταν στο 70%. Θεωρείται αρκετά ικανοποιητικό ποσοστό, με δεδομένο ότι αξιοποιήθηκαν μόνο γλωσσικά χαρακτηριστικά κι επιπλέον τα tweets ταξινομήθηκαν σε μικρό αριθμό κατηγοριών.

«Η επιλογή του Covid-19 ήταν σχετική, καθώς την περίοδο που έγινε η έρευνα μονοπωλούσε την επικαιρότητα η πανδημία. Η ίδια έρευνα μπορεί να εφαρμοστεί σε διαφορετικά θέματα, διότι χρησιμοποιήθηκαν αλγόριθμοι επεξεργασίας της φυσικής γλώσσας», λέει ο κ. Λυγερός. «Τα αποτελέσματα αποδεικνύουν ότι είναι εφικτή η αυτόματη ανίχνευση μη έγκυρης πληροφορίας σε δημοσιεύσεις στο Twitter, παρά τις ιδιαιτερότητες που χαρακτηρίζουν την ελληνική γλώσσα».