O Κινέζος που εξέθεσε τους Αμερικανούς στην τεχνητή νοημοσύνη

Ο Λιάνγκ Γουένφενγκ δημιούργησε το DeepSeek στο 1/20 των χρημάτων που έδωσαν Google, Meta, Open AI και Twitter, προσφέροντας δωρεάν την εξειδίκευση.

Ο Λιάνγκ Γουένφενγκ είναι ο άνθρωπος που βύθισε τις μετοχές της Meta και της Nvidia, δυο κορυφαίων τεχνολογικών κολοσσών του πλανήτη και τους έκανε να προβληματιστούν για το μέλλον τους.

Πώς;

Δημιούργησε ένα πολύ δυνατό μοντέλο τεχνητής νοημοσύνης, έναντι ενός μικρού ποσοστού των χρημάτων που χρησιμοποίησαν οι Αμερικανοί για τις δικές του -σχετικές -δημιουργίες, το διαθέτει δωρεάν και έχει κέρδη. Όλα αυτά εξπέρ του είδους είχαν πει πως θα είναι αδύνατα.

Ο Κινέζος οραματιστής, επιχειρηματίας, προγραμματιστής και ειδικός επί της τεχνητής νοημοσύνης, τα έκανε δυνατά. Και δεν θα σταματήσει εδώ. Για αυτό και θα τον γνωρίσουμε, με τον Γιάννη Βαρουφάκη να έχει ήδη εξηγήσει πώς η τεχνολογική επιτυχία της κινεζικής εταιρείας απειλεί να αλλάξει την πολιτική οικονομία της Δύσης.

Ας δούμε ποιος είναι αυτός ο άνδρας, τον οποίον κατηγόρησε ο Ίλον Μασκ πως ψεύδεται για την τεχνολογία που λέει πως ανακάλυψε, κάτι που μάλλον δεν προκαλεί την παραμικρή έκπληξη. Πολύ περισσότερο από την στιγμή που οι Κινέζοι είχαν καθιερωθεί για δεκαετίες ως μετρ των απομιμήσεων.

Το twist είναι πως αξιωματούχος της OpenAI (του ChatGPT) έγραψε στο Twitter πως «το DeepSeek το κάνει να φαίνεται εύκολο, μια ανοιχτή έκδοση LLM αιχμής που έχει εκπαιδευτεί με έναν αστείο προϋπολογισμό».

DeepSeek (Chinese AI co) making it look easy today with an open weights release of a frontier-grade LLM trained on a joke of a budget (2048 GPUs for 2 months, $6M).

For reference, this level of capability is supposed to require clusters of closer to 16K GPUs, the ones being… https://t.co/EW7q2pQ94B— Andrej Karpathy (@karpathy) December 26, 2024

Ο Λιάνγκ είχε προειδοποιήσει για την “επανάσταση” από τον Ιούλιο -δεν τον πίστεψε κανείς

Πριν μια εβδομάδα o πρωθυπουργός της Κίνας, Λι Τσιάνγκ κάλεσε σε συνάντηση τους «νέους μοχλούς ανάπτυξης της οικονομίας» όπως αναφέρει η South China Morning Post.

Δηλαδή, τους ηγέτες της επιστημονικής και τεχνολογικής καινοτομίας, μια επιλεγμένη ομάδα εμπειρογνωμόνων της τεχνολογίας, της εκπαίδευσης, της επιστήμης, του πολιτισμού, της υγείας και του αθλητισμού.

Τους είχε ζητήσει να καταθέσουν τις απόψεις τους επί μιας έκθεσης που τους είχε δώσει προς μελέτη, σχετική με πράγματα που θέλει να κάνει η κυβέρνηση, σχετικά με τους κλάδους τους.

Σε αυτές τις συναντήσεις πηγαίνουν οι κορυφαίοι κάθε «βιομηχανίας». Συνήθως είναι οι ίδιοι και οι ίδιοι. Τη Δευτέρα 21/1 παρουσιάστηκε ένα νέο πρόσωπο: ήταν ο Γουένφενγκ.

Ο 39χρονος δημιουργός του DeepSeek κέρδισε τη θέση του, χάριν του πιο δυνατού και εξελιγμένου chatbot που προσφέρεται δωρεάν. Έτσι, ανέτρεψε τις ισορροπίες στις παγκόσμιες αγορές (συμπεριλαμβανομένων των ευρωπαϊκών), ρίχνοντας από την κορυφή τα αμερικανικά προϊόντα.

Πράγμα που παραδέχθηκαν και οι αμερικανικές δυνάμεις, λίγες ώρες πριν η εφαρμογή δεχθεί μεγάλης κλίμακας κυβερνοεπίθεση -κατά δήλωση των αξιωματούχων της.

Αμφισβήτησε την πρωτοκαθεδρία των ΗΠΑ στον τομέα της τεχνητής νοημοσύνης και μάλιστα, ξοδεύοντας ένα κλάσμα των χρημάτων που επενδύουν οι Αμερικανοί προς την κατεύθυνση των chatbots. Για την ακρίβεια, ενώ οι μεν δίνουν δισεκατομμύρια, η DeepSeek έκανε δουλειά με ούτε 6.000.000 δολάρια.

Έχετε άγνωστες λέξεις; Θα τα εξηγήσουμε όλα, αφού πρώτα ενημερώσουμε πως ο Λιάνγκ είχε προειδοποιήσει για αυτό που θα έκανε η DeepSeek, από τον περασμένο Ιούλιο. Είχε πει ότι θα πυροδοτούσε έναν ‘πόλεμο τιμών’ για την τεχνητή νοημοσύνη στην Κίνα, με το λανσάρισμα του νέου του μοντέλου.

Δεν τον είχε πιστέψει όμως, κανείς.

«Αυτό που λείπει από την καινοτομία της Κίνας δεν είναι το κεφάλαιο, αλλά η εμπιστοσύνη και η γνώση επί της οργάνωσης ταλέντων επ’ αυτής. Εγώ δεν προσέλαβα κανέναν έμπειρο».

Όταν έχεις να κάνεις με τεχνολογίες που προκαλούν αναστάτωση, οι προσεγγίσεις κλειστού κώδικα μπορούν να καθυστερήσουν μόνο προσωρινά τους ανταγωνιστές». Για αυτό δημιουργεί νέα όρια στην τεχνητή νοημοσύνη ανοιχτού κώδικα (βλ. κοινή χρήση γνώσεων και η κοινή χρήση κώδικα).

ΠΟΙΟΣ ΕΙΝΑΙ Ο LIANG WENFENG

Η start up (νεοφυής εταιρεία για τους φίλους της ελληνικής γλώσσας) που λέγεται DeepSeek άρχισε με 3 εργαζομένους που σύντομα έγιναν 10. Ήταν όλοι Κινέζοι. Ουδείς είχε προϋπηρεσία.

Όπως έχει εξηγήσει ο σημερινός μας πρωταγωνιστής «εάν επιδιώκετε βραχυπρόθεσμους στόχους, η πρόσληψη έμπειρων ανθρώπων είναι η σωστή κίνηση. Αλλά μακροπρόθεσμα, η εμπειρία είναι λιγότερο σημαντική. Οι θεμελιώδεις δεξιότητες, η δημιουργικότητα και το πάθος είναι πιο σημαντικά. Από αυτή την άποψη, υπάρχουν πολλοί κατάλληλοι υποψήφιοι στην Κίνα».

Σήμερα η ομάδα έχει 200 ερευνητές, επιστήμονες, προγραμματιστές κλπ. Γίνεται ο άνθρωπός τους «γιατί τους προσφέρω την ευκαιρία να λύσουμε μαζί κάποιες από τις πιο δύσκολες προκλήσεις του κόσμου. Στην Κίνα τα κορυφαία ταλέντα είναι υποτιμημένα. Δεν μας αναγνωρίζουν. Όταν όμως, δουλεύουμε πάνω στα πιο δύσκολα προβλήματα, γινόμαστε ελκυστικοί».

Eιρήσθω εν παρόδω, δίνει πια τους καλύτερους μισθούς -μπορεί να τον ματσάρει μόνο η ByteDance (του TikTok)-, όπως διεκδικεί νικητές Ολυμπιακών αγώνων μαθηματικών, φυσικής, προγραμματισμού κλπ. Διάβασες και πριν πως δεν τον νοιάζει η εμπειρία, αλλά οι ικανότητες.

Τo DeepSeek έκανε αισθητή την παρουσία του τον περασμένο Δεκέμβριο, με την παρουσίαση του DeepSeek V3 LLM, γλωσσικού μοντέλου τεχνητής νοημοσύνης που «εκπαιδεύτηκε» σε 671 δισεκατομμύρια παραμέτρους για μόλις δυο μήνες.

Στοίχισε μόλις 5.58 εκατομμύρια δολάρια. Τα ανταγωνιστικά chatbots στοίχισαν δισεκατομμύρια.

pic.twitter.com/SbkDBnC2RN— Liang Wenfeng 梁文锋 (@LiangWenfeng_) January 27, 2025

Ο Λιάνγκ έβλεπε πάντα πολύ μπροστά

Το LLM που υπάρχει μετά το DeepSeek V3 «προέρχεται» από το Large Language Model. Αναφέρεται στην τεχνολογία που υποστηρίζει τις παραγωγικές διαδικασίες τεχνητής νοημοσύνης. Για να μπορεί να σου απαντάει το όποιο chatbot επιλέξεις σε ό,τι ζήτημα θέτεις, είναι κατανοητό πως ο μεγάλος αριθμός παραμέτρων στην εκπαίδευσή του είναι ζωτικής σημασίας, προκειμένου να μπορέσει ένα LLM να προσαρμοστεί σε πιο σύνθετα πρότυπα δεδομένων και να κάνει ακριβείς προβλέψεις.

Αυτό γίνεται μέσω μεθόδων εκπαίδευσης του μοντέλου, με τις απαγορεύσεις των ΗΠΑ να ωθούν τον Λιάνγκ και την ομάδα του να γίνουν δημιουργικοί και να βρουν νέους τρόπους που τελικά, κόστισαν το 1/20 από τις συμβατικές.

Δεν ξέρω αν έγινε πλήρως κατανοητό, αλλά χρησιμοποίησε σημαντικά λιγότερους υπολογιστικούς πόρους από τον ανταγωνισμό (OpenAI, Anthropic, Gemini, Grok, LLama κα), καθώς οι ΗΠΑ έχουν μπλοκάρει την πρόσβαση των Κινέζων στα εξελιγμένα semiconductors (τα τσιπάκια που έχει οποιαδήποτε συσκευή έχεις στην κατοχή σου και ‘σκέφτεται’) για εκπαιδευόμενα μοντέλα.

Είχε προετοιμαστεί για αυτήν την στιγμή, αγοράζοντας 10.000 τσιπ από τον αμερικανικό κολοσσό «σκληρού υλικού», Nvidia. Με αυτά δημιούργησε το cluster που χρειαζόταν για να εκπαιδεύσει τα δικά του μοντέλα, στο 1/20 της τιμής. Χρησιμοποίησε καινοτόμες τεχνικές, όπως το Multi-head Latent Attention (MLA) και το Mixture-of-Experts και βασίστηκε στον ανοιχτό κώδικα που από το 2017 ήξερε η Google πως μπορεί να εκπαιδεύσει πιο αποτελεσματικά από τα ιδιόκτητα μοντέλα, για μερικά εκατομμύρια δολάρια.

Όπου ‘ανοιχτός κώδικας’ σημαίνει πως προγραμματιστές απόόλον τον κόσμο μπορούν να χτίσουν δικά τους μοντέλα πάνω σε αυτό του DeekSeek που διαθέτει ό,τι την αφορά online -είναι προσβάσιμα από όλους, κάτι που μπορείς να διαπιστώσεις με μια επίσκεψη στο site. Aυτό είναι πρόβλημα για όλη την Big Tech των ΗΠΑ που πουλάει την εξειδίκευση.

Σύμφωνα με γνώστες «αυτές οι μέθοδοι έχουν κάνει τα μοντέλα του DeepSeek σημαντικά πιο οικονομικά, απαιτώντας μόλις το ένα δέκατο της υπολογιστικής ισχύος συγκρίσιμων μοντέλων όπως το Llama 3.1 της Meta».

Ο Λιάνγκ είχε εξηγήσει ότι «τα εγχώρια τσιπ αποτυγχάνουν να αναπτυχθούν, επειδή δεν διαθέτουν μια υποστηρικτική τεχνολογική κοινότητα και βασίζονται σε ‘μεταχειρισμένες’ πληροφορίες. Γι’ αυτό η Κίνα πρέπει να έχει ανθρώπους στην πρώτη γραμμή τεχνολογία». Να μην αντιγράφει. «Να ανακαλύπτει».

Έγινε αυτός ο άνθρωπος που με τα επιτεύγματά του ‘έσβησε’ το κενό μεταξύ των ΗΠΑ και της Κίνας, το οποίο οφειλόταν στον έλεγχο εξαγωγών των προηγμένων τσιπ από τους πρώτους. Με τις καινοτομίες του κάνει τους Κινέζους ανταγωνιστικούς,έχοντας αλλάξει ήδη τα δεδομένα της αγοράς.

Εν τω μεταξύ, εξέφρασε την απορία του για την έκπληξη του κόσμου με την τιμολόγηση του προϊόντος του, καθώς -όπως είπε- οι τιμές ‘βγήκαν’ βάσει του κόστους.

High Flyer

To DeepSeek είναι το χόμπι του Λιάνγκ που θέλει να καταλάβει την ανθρώπινη σκέψη

Για τον πρωτοπόρο της “βιομηχανίας”, Λιάνγκ, το DeepSeek δεν είναι δουλειά, αλλά η αποσυμπίεση του. Το χόμπι του, αυτό που τον βοηθάει να χαλαρώνει. Κατά το CGTN ασχολήθηκε με το συγκεκριμένο μοντέλο από περιέργεια και χάριν της δέσμευσης που έχει κάνει να συμβάλει στην έρευνα.

Έχει εξηγήσει πως τον κερδίζει η πρόκληση της εξερεύνησης πολύπλοκων τομέων, όπως η χρηματοδότηση και οι δυνατότητες της τεχνητής γενικής νοημοσύνης (AGI).

Ο πτυχιούχος τεχνητής νοημοσύνης από το Zhejiang University (Νο51 πανεπιστήμιο του κόσμου) ήθελε πάντα να καταλάβει την ουσία της ανθρώπινης νοημοσύνης και των διαδικασιών που τη διέπουν. Πιστεύει ότι μια τέτοια εξερεύνηση είναι κρίσιμη, μολονότι δεν υπάρχουν άμεσα εμπορικά κίνητρα.

«Η ουσία της ανθρώπινης νοημοσύνης μπορεί να είναι η γλώσσα· η ανθρώπινη σκέψη θα μπορούσε να είναι μια γλωσσική διαδικασία. Νομίζεις ότι σκέφτεσαι, αλλά μπορεί στην πραγματικότητα να υφαίνεις τη γλώσσα στο μυαλό σου. Αυτό σημαίνει ότι η ανθρώπινη τεχνητή νοημοσύνη (AGI) θα μπορούσε να προκύψει από μεγάλα γλωσσικά μοντέλα. Για αυτό και θέλω να δημιουργήσω τεχνητή νοημοσύνη “ανθρώπινου” επιπέδου».

Κάπως όμως, πρέπει να ζήσει.

Ούτε οι συνεργάτες του πίστευαν πως οι ιδέες του Λιάνγκ μπορούν να πραγματοποιηθούν

Στα 23, όταν ήταν ακόμα στο πανεπιστήμιο για ένα από τα μεταπτυχιακά του είχε φτιάξει μια ομάδα με συμμαθητές του, για να δουλέψουν επί της ποσοτικού εμπορίου, με τη χρήση machine learning και άλλων τεχνολογιών που το 2008 δεν ήταν τόσο διαδεδομένες παντού.

Η προσπάθεια του άρχισε στο πικ της οικονομικής κρίσης. Είχε ως πηγή έμπνευσης τον Τζέιμς Σάιμονς, Αμερικανό διαχειριστή hedge fund, επενδυτή και μαθηματικό που για χρόνια ήταν μεταξύ των πιο πλούσιων ανθρώπων της Γης.

Ο Σάιμονς ήταν ο ηγέτης του ποσοτικού εμπορίου και των επενδύσεων, τομείς που ήταν στα σπάργανα στις ΗΠΑ -πόσο μάλλον στην Κίνα.

Ο Λιάνγκ είχε ήδη δουλειά -σε κορυφαία εταιρεία τεχνολογίας. Παρ’ όλα αυτά, μετά την αποφοίτηση από το πανεπιστήμιο, παραιτήθηκε, ενοικίασε ένα φθηνό διαμέρισμα και πέρασε τα δυο επόμενα χρόνια στην κατάρτιση του για το ποσοτικό εμπόριο.

Πειραματιζόταν και με τρόπους που θα μπορούσε να εφαρμόσει την τεχνητή νοημοσύνη σε διάφορους τομείς, κάτι που τότε επίσης δεν γινόταν ευρέως. Αποτύγχανε μέχρι τη δοκιμή στα οικονομικά.

He is Liang Wenfeng, CEO of DeepSeek AI. 🚀

5 years ago, he walked away from Wall Street to chase a dream.

His insane journey will blow your mind. (Read below) 👇 pic.twitter.com/iMx7zdSJtf— Shruti Mishra (@heyshrutimishra) January 27, 2025

Το 2010 με την ομάδα του βρήκαν το χώρο να δοκιμάσουν όσα δούλευαν, το αποτέλεσμα ήταν θετικό (είχαν κέρδη 66.110.650 ευρώ) έγινε ο θεμέλιος λίθος για όσα ακολούθησαν.

Το 2013 ίδρυσε την Hangzhou Yakebi Investment Management Co Ltd, με έναν συμφοιτητή του (Xu Jin). Σήμερα είναι γνωστή ως Zhejiang Jiuzhang Asset Management Co Ltd και ανήκει στον Xu, καθώς ο άνθρωπός μας αποχώρησε το 2015 με δυο προγραμματιστές -επίσης συμφοιτητές του- για να φτιάξει την Ningbo High-Flyer Quantitative Investment Management Partnership. Εν συντομία, High-Flyer.

Επρόκειτο για ποσοτικό hedge fund που χρησιμοποιούσε συνδυασμό μαθηματικών και ΑΙ για τις συναλλαγές. Ο στόχος ήταν να γίνουν οι κορυφαίοι του είδους στην Κίνα. «Εκείνη την εποχή, πειραματιστήκαμε με πολλά σενάρια και τελικά εμβαθύναμε στον αρκετά περίπλοκο τομέα των οικονομικών.

«Η γενική τεχνητή νοημοσύνη μπορεί να είναι μια από τις επόμενες πιο δύσκολες προσπάθειες. Για εμάς, είναι θέμα πώς να το κάνουμε. Όχι γιατί να το κάνουμε».

Ήταν από τους πρώτους σε όλον τον κόσμο, που αναγνώρισαν τη δυνητική συνέργια μεταξύ μαθηματικών και τεχνητής νοημοσύνης.

Από το 2016 -χρόνια πριν ακολουθήσουν οι Αμερικανοί- είχαν θέσει το δημιούργημα τους σε εφαρμογή. Στα χέρια τους ήταν και το υποστηρικτικό πλαίσιο της λειτουργίας του -αφού δεν μπορούσαν να το πάρουν από αλλού, όπως συμβαίνει στις ΗΠΑ.

Το 2019, με την επιχείρησή του να διαχειρίζεται 1.321.303 ευρώ σε επενδύσεις, ίδρυσε την High Flyer AI, με στόχο την έρευνα στους αλγόριθμους τεχνητής νοημοσύνης και απλές εφαρμογές της.

Έως το 2021 είχε ενσωματώσει πλήρως την τεχνητή νοημοσύνη στις δραστηριότητές του hedge fund, χρησιμοποιώντας μοντέλα μηχανικής μάθησης για να προβλέπει τις τάσεις της αγοράς και να λάβει επενδυτικές αποφάσεις, βάσει δεδομένων.

Το ίδιο έτος άρχισε να αγοράζει κατά χιλιάδες GPU (μονάδα επεξεργασίας γραφικών για αγορές βιντεοπαιχνιδιών και επαγγελματιών) του αμερικανικού κολοσσού τεχνολογίας και τεχνητής νοημοσύνης Nvidia (επενδυτή του ChatGPT). Πολλοί συμπατριώτες του τον χλεύασαν, έλεγαν πως έγινε δισεκατομμυριούχος και σκορπάει τα λεφτά του σε περίεργα χόμπι.

Γέλασε τελευταίος όταν επιβλήθηκε το εμπάργκο κι εκείνος είχε διαθέσιμα 10.000 H800 τσιπάκια.

Ο ιδρυτής του DeepSeek είναι ένας περίεργος άνθρωπος

Γενικά, δεν τον βοηθούσε το άγχος που τον κυρίευε κάθε φορά που έπρεπε να εξηγήσει το όραμά του σε πιθανούς επενδυτές. Συνεργάτης του έχει πει πως στην πρώτη τους γνωριμία είδε απέναντί του έναν nerdy τύπο, με τραγικό κούρεμα που δεν μπορούσε να διατυπώσει όσα είχε στο μυαλό του.

«Μου είπε απλά πως ήθελε να χτίσει κάτι που θα άλλαζε το παιχνίδι. Τότε πιστεύαμε πως κάτι τέτοιο μπορεί να το φτιάξουν μόνο τιτάνες όπως το ByteDance (TikTok) και το Alibaba Group».

Το Μάιο του 2023 ίδρυσε το DeepSeek. Επειδή δεν πίστευε κανείς στην ιδέα του -του έλεγαν πως θα προσπεράσουν αφού θα ήταν απίθανο να ‘βγάλει’ λεφτά σε σύντομο χρονικό διάστημα-, το χρηματοδότησε ο ίδιος -η High Flyer.

Συνδύαζε το ‘θέλω’ και το ‘πρέπει’, καθώς είχε ως στόχο την έρευνα με επίκεντρο την τεχνητή νοημοσύνη για την προώθηση του τομέα της γενικής τεχνητής νοημοσύνης (AGI). Για συνεργάτες διάλεξε αυτούς που έκρινε πως είχαν τις ικανότητες και το πάθος. Δεν είχε ως προτεραιότητα την εμπειρία.

Είχε έλθει η ώρα να χρησιμοποιήσει όλα τα τσιπάκια που αγόραζε από την κορυφαία αμερικανική εταιρεία επί χρόνια -πριν την επιβολή εμπάργκο!

«Σε αντίθεση με τις παραδοσιακές κερδοσκοπικές επιχειρήσεις, το DeepSeek είχε οραματιστεί ως μια πλατφόρμα για μακροπρόθεσμη, θεμελιώδη έρευνα, όπου η εξερεύνηση -με γνώμονα την περιέργεια- θα μπορούσε να οδηγήσει σε σημαντικές προόδους στην τεχνητή νοημοσύνη».

Παρεμπιπτόντως, βγάζει και τα λεφτά του μέσω της καινοτομίας, που όπως παραδέχεται «είναι δαπανηρή και αναποτελεσματική και μπορεί να ευδοκιμήσει μόνο όταν η οικονομία φτάσει σε ορισμένο επίπεδο ανάπτυξης .

Όταν οι πόροι είναι σπάνιοι ή σε κλάδους που δεν οδηγούνται από την καινοτομία, το κόστος και η αποτελεσματικότητα είναι κρίσιμα. Δείτε το OpenAI και πόσα χρήματα δόθηκαν για να φτάσει εκεί που είναι».

O επικεφαλής της startup έχει πει πως είχε λάβει 6.6 δισεκατομμύρια για την ανάπτυξη του GhatGPT. Κάθε ημέρα “χρειάζεται” 700.000 δολάρια για να λειτουργεί.

«H καινοτομία απαιτεί ελευθερία και χώρο για δοκιμές και λάθη. Η καινοτομία συχνά προκύπτει από μόνη της· δεν είναι κάτι που μπορείτε να σχεδιάσετε ή να διδάξετε».

Κάτι που αμφισβητούσαν οι Κινέζοι, αφού ήταν άλλο σύστημα να ακολουθούν επί δεκαετίες. Ο Λιάνγκ το αμφισβήτησε, κέρδισε και τώρα έχει στα χέρια του το καρπούζι και το μαχαίρι της κινεζικής ανταγωνιστικότητας σε επίπεδο τεχνητής νοημοσύνης.