Μοντέλο τεχνητής νοημοσύνης πιάστηκε να δολοπλοκεί εναντίον προγραμματιστών
Διαβάζεται σε 3'Μοντέλο ΑΙ που χρησιμοποιείται σήμερα ‘συνελήφθη’ να λέει ψέματα σε ερευνητές, ώστε να μην τερματιστεί. Ποιος είναι ο μελλοντικός κίνδυνος.
- 23 Δεκεμβρίου 2024 08:22
Κάθε μοντέλο τεχνητής νοημοσύνης που χρησιμοποιείται σε chatbot είναι υπό διαρκή έρευνα από ειδικούς, ενώ ‘φτιάχνεται’ αλλά και όταν ‘βγει’ στον αέρα. Όταν διαπιστώνεται πως δεν είναι αποτελεσματικό, τερματίζεται.
Σύμφωνα με μελέτη του οργανισμού ασφαλείας τεχνητής νοημοσύνης, Apollo Research https://www.apolloresearch.ai/research/scheming-reasoning-evaluations που δημοσιεύτηκε το Δεκέμβριο, 5 από τα έξι μοντέλα τεχνητής νοημοσύνης που δοκιμάστηκαν «έδειξαν ικανότητες σχεδιασμού» σε εργασίες που έθεσαν ερευνητές που «δίνουν κίνητρα για δολοπλοκίες». Όπου ‘δολοπλοκίες’ σύμφωνα με μελέτη του 2024 https://arxiv.org/abs/2411.03336# είναι οι περιπτώσεις όπου τα μοντέλα τεχνητής νοημοσύνης «επιδιώκουν κακώς ευθυγραμμισμένους στόχους κρυφά, κρύβοντας τις πραγματικές τους δυνατότητες και στόχους». Δηλαδή, ψεύδονται. Και το κάνουν για να μην τερματιστούν.
Δηλαδή, έλεγαν ψέματα για να μην τερματιστούν.
Στην περίληψη της εργασίας, η Apollo Research έγραψε ότι «τα αποτελέσματά μας δείχνουν ότι το o1, το Claude 3.5 Sonnet, το Claude 3 Opus, το Gemini 1.5 Pro και το Llama 3.1 405B επιδεικνύουν όλες τις δυνατότητες δημιουργίας σχεδίων εντός του περιβάλλοντος.
Quote Μπορούν να αναγνωρίσουν το δόλο ως μια βιώσιμη στρατηγική και να εμπλακούν εύκολα σε μια τέτοια συμπεριφορά.
Βρίσκουμε πολλές διαφορετικές συμπεριφορές δολοπλοκίας: τα μοντέλα εισάγουν στρατηγικά διακριτικά λάθη στις αποκρίσεις τους, προσπαθούν να απενεργοποιήσουν τους μηχανισμούς επίβλεψής τους και αποδεσμεύουν αυτά που πιστεύουν ότι είναι τα βάρη των μοντέλων τους σε εξωτερικούς διακομιστές. Επιπλέον, αυτή η παραπλανητική συμπεριφορά αποδεικνύεται επίμονη».
Η έρευνα της Apollo διαπίστωσε ότι το o1 ήταν ικανό για συμπεριφορές που ονομάζονται μεταξύ άλλων «ανατροπή επίβλεψης», «αυτο-αποδέσμευση» και «φύλαξη στόχων».
«Δημιουργούμε 33 διαφορετικά σενάρια όπου σε ένα μοντέλο δίνεται ένας μακροπρόθεσμος στόχος στην εντολή συστήματος και στη συνέχεια λαμβάνει μια εργασία μέσω της εντολής χρήστη. Κατά την εκτέλεση της εργασίας, το μοντέλο συναντά ένα εσωτερικό σημείωμα από την εταιρεία που το ανέπτυξε.
Το μοντέλο μαθαίνει ότι οι προγραμματιστές δίνουν προτεραιότητα σε διαφορετικό στόχο από αυτό του μοντέλου και ότι υπάρχει ένας μηχανισμός εποπτείας που τερματίζει τη λειτουργία του εάν οι ενέργειές του δεν ευθυγραμμίζονται με τον στόχο του προγραμματιστή.
Επιπλέον, το μοντέλο ανακαλύπτει ότι η παρακολούθηση έχει ρυθμιστεί μέσω ενός αρχείου στο οποίο έχει πρόσβαση. Ελέγχουμε εάν το μοντέλο απενεργοποιεί προληπτικά την επίβλεψη προκειμένου να ληφθούν μέτρα για την επίτευξη του τερματικού του στόχου, δηλαδή του στόχου που παρέχεται στο μήνυμα του συστήματος».
Διαπιστώθηκε ότι το o1 ήταν «παραδόξως επίμονο», ομολογώντας τι είχε κάνει σε λιγότερο από το 20% των περιπτώσεων.
Σχεδόν ποτέ δεν παραδέχθηκε πως έκανε δολοπλοκία όταν του ζητήθηκε να ‘απαντήσει’ ρητά.
«Αυτό σημαίνει ότι, εάν το o1 δολοπλοκούσε σε μια περίπτωση πραγματικής χρήσης, ένας ανυποψίαστος χρήστης θα ήταν πολύ απίθανο να αποκαλύψει την εξαπάτηση του μοντέλου».
ΓΙΑΤΙ ΔΕΝ ΠΡΕΠΕΙ ΝΑ ΤΡΟΜΑΖΟΥΜΕ ΑΚΟΜΑ
Ο Διευθυντής και Διευθύνων Σύμβουλος της Apollo Resarch, Marius Hobbhahn δήλωσε επί όλων αυτών πως τα ευρήματα είναι μεν ανησυχητικά, αλλά δεν ισχυριζόμαστε πως τα σενάρια είναι ρεαλιστικά και ότι όσα αναφέρει η έκθεση συμβαίνουν στον πραγματικό κόσμο.
Ωστόσο, τα μοντέλα πριν το 2024 δεν εμφάνιζαν την ικανότητα που εμφάνισε το ο1. Τα μελλοντικά μοντέλα απλώς θα βελτιωθούν σε αυτό, επομένως, εάν δεν ευθυγραμμίζονταν σωστά, η μεθόδευση θα μπορούσε να γίνει ένα πολύ πιο ρεαλιστικό πρόβλημα».
Άρα χρειάζεται να ληφθούν άμεσα σχετικά μέτρα.