Οι μεγάλες προοπτικές της Δημιουργικής Τεχνητής Νοημοσύνης

Η δημιουργική πλευρά της τεχνητής νοημοσύνης έχει εξαιρετικό μέλλον για τον απλούστατο λόγο ότι το κοινό αντιλαμβάνεται τις δυνατότητές της.

«Η δημιουργικότητα των ανθρώπων πάσχει από δυσκοιλιότητα και εμείς θα τη βοηθήσουμε να χέσει ουράνια τόξα»…

Δεν είναι μια κουβέντα που περιμένεις να ακούσεις από μικροφώνου σε μια γιορτή.

Ειδικά όταν η γιορτή γίνεται με την αφορμή της συγκέντρωσης 101 εκατ. δολαρίων και με μερικούς από τους πιο διάσημους δισεκατομμυριούχους τεχνολόγους και επενδυτές του πλανήτη στο ακροατήριο.

Όχι πως θα κοκκίνιζαν από ντροπή.

Ίσως όμως να ένιωθαν κάποιον φόβο πως αυτή τη φορά κάποιος έρχεται να αμφισβητήσει με αξιώσεις το status quo.

Αλλά ένα πράγμα τη φορά…

Στη διάρκεια του 2022, η σκληρή πραγματικότητα πληθωρισμών και επιτοκίων εξελίσσεται σε ισχυρό τεστ αντοχής για το NFT και τα κρυπτονομίσματα. Το Metaverse της Meta απολαμβάνει ίσως δυσανάλογα μερίδια στην ειδησεογραφία επειδή τα avatars των χρηστών απέκτησαν πόδια και μπορούν να χρησιμοποιούν λογιστικά φύλλα στον εικονικό κόσμο, σαν να μην έφτανε η γερά εγκατεστημένη τυραννία του συγκεκριμένου λογισμικού στον κλασικό ψηφιακό κόσμο. Σε αυτό το περιβάλλον, η τεχνητή νοημοσύνη της δημιουργίας και της παραγωγικότητας –Generative AI για τους φίλους- γίνεται δεκτή με ενθουσιασμό από δημιουργούς, γίνεται αντικείμενο μεγάλων επενδυτικών στοιχημάτων και, αυτό ίσως είναι το πιο ενδιαφέρον, γίνεται κτήμα όλων μας.

H Open AI ταράζει τα νερά…

Τους τελευταίους μήνες ίσως έχετε παρατηρήσει πως στις σελίδες σας στα κοινωνικά δίκτυα παρελαύνουν δημιουργίες από εργαλεία όπως το DALL-E 2. Η ιδέα είναι να περιγράψεις μία εικόνα και το σύστημα τεχνητής νοημοσύνης να το μετατρέψει σε εικόνα. Η συγκεκριμένη πλατφόρμα ανήκει στην Open AI, στην οποία το 2019 η Microsoft επένδυσε ένα δισ. δολάρια. Σήμερα, η εταιρεία των Windows, του Azure και του X-Box μελετά σοβαρά το ενδεχόμενο να ενισχύσει περαιτέρω την επένδυσή της, με στόχο να ενσωματώσει τις δυνατότητες της τεχνητής νοημοσύνης στα προϊόντα της. Το πώς ίσως να μην το γνωρίζει ούτε η ίδια, όμως ήδη 1,5 εκατ. άνθρωποι χρησιμοποιούν την πλατφόρμα της Open AI για να φτιάξουν πράγματα όπως, για παράδειγμα, ένα ρομπότ που διαβάζει εφημερίδα στο καφέ ενός αεροδρομίου.

Ρομπότ διαβάζει εφημερίδα σε καφέ αεροδρομίου – DALL-E-2

Βεβαίως υπάρχει και η δυνατότητα της πιο αφηρημένης διατύπωσης. Χρησιμοποιώντας για παράδειγμα έναν στίχο των Doors…

Break on through to the other side – DALL-E-2

H Open AI και το DALL-E δεν απολαμβάνουν τη μοναξιά τους. Το Midjourney.com είναι αποτέλεσμα ενός ανεξάρτητου εργαστηρίου που αλληλεπιδρά με τους χρήστες μέσω ενός Discord server. Η περιγραφή δίνεται σε μια γραμμή που υποχρεωτικά ξεκινά με την εντολή “/imagine”, ενώ ο κάθε χρήστης μπορεί να δημιουργήσει συγκεκριμένο αριθμό εικόνων πριν «οδηγηθεί» προς το συνδρομητικό μοντέλο. Εδώ, το Midjourney παρουσιάζει τη Βενετία (ή μία πόλη που θα μπορούσε να είναι η Βενετία) από την οπτική γωνία ενός γλάρου που πετά ψηλά.

… και η Stability AI φέρνει φουρτούνα

Στην ερώτηση αν το Generative AI μπορεί να γίνει κτήμα των πολλών η απάντηση φαίνεται πως είναι, παραδόξως, καταφατική. Βεβαίως δεν μπορεί ο καθένας να εγκαταστήσει συστοιχίες χιλιάδων επεξεργαστών που θα «εκπαιδευτούν» σε μοντέλα εικόνας και σε χρήση φυσικής γλώσσας αλλά για αυτό υπάρχει η κοινότητα του ελεύθερου λογισμικού.

Η Stability AI είναι, λοιπόν, η εταιρεία που «σήκωσε» 101 εκατ. δολάρια και το γιόρτασε με ένα πάρτι στο οποίο παρευρέθηκε πλήθος κόσμου όπως θα έλεγαν ίσως οι κοσμικές στήλες αθηναϊκών εφημερίδων. Σε αυτό το πλήθος οι δημοσιογράφοι των New York Times ξεχώρισαν τον συνιδρυτή της Google Sergey Brin, τον ιδρυτή της Angelist Naval Ravikant και τον επενδυτή Ron Conway, που άκουσαν τον επικεφαλής της Stability AI, τον Emad Mostaque, να διατυπώνει αυτή την τόσο γλαφυρή πρόταση που σύνδεσε τη δυσκοιλιότητα με τα ουράνια τόξα.

Λίγες ημέρες αργότερα και μιλώντας σε ένα podcast της αμερικανικής εφημερίδας ο Mostaque παρατήρησε πως η τεχνολογία που παραμένει σήμερα «κλειδωμένη» στις πλατφόρμες των κοινωνικών δικτύων και των άλλων υπηρεσιών που χαρακτηρίζουν την καθημερινότητά μας, καλλιεργούν μια κουλτούρα κατανάλωσης και όχι δημιουργίας. Στις επανειλημμένες ερωτήσεις που δέχθηκε σχετικά με το πώς διασφαλίζεται η μη χρήση του Generative AI για σκοπούς όπως η πορνογραφία ή ο εγκωμιασμός της βίας, ανέφερε πως η απάντηση θα μπορούσε να είναι ίδια με εκείνη που θα έδιναν οι δημιουργοί του Photoshop. Για να το πούμε αλλιώς, κανείς δεν σκέφτηκε να επιβάλει κάποιου είδους ρύθμιση στις κάμερες παρ’ όλο που οι κάμερες χρησιμοποιούνται στην πορνογραφία ή στην απαθανάτιση βίαιων πράξεων.

H Stability AI, που μετά τη χρηματοδότηση των 101 εκατ. δολαρίων φτάνει σε αποτίμηση το ένα δισ. δολάρια, μιλάει για μια τεχνητή νοημοσύνη από ανθρώπους για ανθρώπους και έχει διαθέσει τη «μηχανή» της, τη Stability Diffusion ως ελεύθερο λογισμικό που μπορεί ο καθένας να κατεβάσει, να «πειράξει» και να επαναδιανείμει.

Στο κλασικό ερώτημα «πώς θα βγάλετε λεφτά» δεν χρειάζονται και πολλές θεωρίες αν δει κανείς την αγορά που έχουν δημιουργήσει open source έργα όπως το Linux ή το WordPress. Τα στούντιο που συνεργάζονται με την Stability AI και χρησιμοποιούν την Stability Diffusion για τις δημιουργίες τους συνάπτουν, βεβαίως, συμφωνίες που προβλέπουν, επίσης βεβαίως, κάποιο οικονομικό αντάλλαγμα.

Άρα δεν υπάρχει ανησυχία στο αν υπάρχουν λεφτά. Λεφτά, σε αυτή την περίπτωση, υπάρχουν, όπως και ιδέες.

Στο Stable Diffusion βασίζονται αρκετές πλατφόρμες που δημιουργούν εικόνες λαμβάνοντας οδηγίες σε μορφή κειμένου. Ένα από αυτά, το Nightcafe, έχει μια ξενύχτικη διάθεση, σύμφωνα τουλάχιστον με όσα μαρτυρά το όνομά του. να τι παράγει αν του ζητήσεις μια «Αθήνα μετά την Αποκάλυψη».

Σε μια ίσως περισσότερο αισιόδοξη και απλούστερη εφαρμογή, ζητήσαμε από το Nightcafe να βασιστεί σε μια υφιστάμενη εικόνα και να δημιουργήσει μια εικόνα «πειραγμένη» με το στιλ του Πικάσο. Χωρίς να το γνωρίζει (σ.σ. κανένα κατοικίδιο δεν υπέστη οποιαδήποτε κακομεταχείριση για τις ανάγκες αυτού του δημοσιεύματος), ρόλο μοντέλου, έπαιξε ο σκύλος Μπότι. Βεβαίως οι έμπειροι χρήστες του Instagram, του Snapseed και των δεκάδων άλλων εφαρμογών με φίλτρα μπορεί να προσπεράσετε αδιάφορα. Αλλά το σκεπτικό μας ήταν να δούμε το εύρος των δυνατοτήτων.

Η εύκολη πρόσβαση σε τέτοιες τεχνολογίες λύνει τα χέρια σε πολλούς. Όπως έλεγε ο Mostaque, από όσους φτιάχνουν (ή είναι αναγκασμένοι να φτιάχνουν) παρουσιάσεις σε Powerpoint, μόλις το 10% έχει καλές δημιουργικές ικανότητες, ένα 30% το παλεύει ή νομίζει πως έχει κάποιες σχετικές δεξιότητες και ένα 60% πελαγοδρομεί μεταξύ κειμένων, επικεφαλίδων και χρωμάτων. To Stable Diffusion (προφανώς και οι άλλες τεχνολογίες που κινούνται στον ίδιο χώρο) μπορεί να βοηθήσει τους απελπισμένους επαγγελματίες και να τους βοηθήσει στην… παραγωγή ουράνιων τόξων που λέγαμε πιο πριν.

Με όλα αυτά κατά νου, στραφήκαμε στον Κώστα Περήφανο, ο οποίος ασχολείται με τις τεχνολογίες του machine learning και της τεχνητής νοημοσύνης προτού αυτές φτάσουν στα πρωτοσέλιδα εφημερίδων και sites και σήμερα εργάζεται στη βρετανική Codec.ai. «Η Open AI είναι η κινητήριος δύναμη, μιας και όλα τα μοντέλα που βλέπουμε βασίζονται στην open source εκδοχή του CLIP που έχει αναπτύξει η ίδια» λέει και προσθέτει, σχολιάζοντας την επικαιρότητα και τις εξελίξεις με αφορμή την Stability AI αλλά και το ενδιαφέρον του κοινού. «Είναι πολύ ενδιαφέρον, καθώς αυτή τη στιγμή βλέπουμε πολλούς “παίκτες” να ανοίγουν μοντέλα. Βλέπουμε φερ’ ειπείν το AlphaFold, γίνεται μεγάλη πρόοδος στο Protein Discovery, το Facebook κάνει πρόοδο με το No Language Left Behind για μετάφραση από οποιαδήποτε γλώσσα σε οποιαδήποτε γλώσσα δίνοντας βάρος και σε γλώσσες που δεν έχουν μεγάλο “βάθος” σε πηγές και πόρους, το Google Brain κ.τ.λ. Αυτό λοιπόν σημαίνει πως υπάρχουν δυνάμεις που ωθούν συγκεκριμένες τεχνολογίες να γίνονται ανοικτές και προσβάσιμες. Νομίζω λοιπόν πως το πιο κλειστό μοντέλο της Open AI με την Microsoft θα αναθεωρηθεί».

Από τη σελίδα του Κ. Περήφανου στο Facebook

Δεν παραβλέπει πως αν «το έχεις» με τους υπολογιστές έχεις κάποια πλεονεκτήματα. «Αυτή τη στιγμή, το Generative AI έχει δώσει… ωραίους τίτλους αλλά και εργαλεία όπως το Craiyon. Αν ασχοληθείς λίγο περισσότερο και έχεις μια βασική ιδέα από Python μπορείς να δημιουργήσεις ωραία πράγματα.

Είμαστε βέβαια στην αρχή. Αλλά αν έλεγες το 2012 πως θα είχαμε μηχανές που μπορούν να δημιουργήσουν τόσο καλή τέχνη θα σου έλεγα πως υπερβάλεις».

Αλλά υπάρχουν ακόμα πράγματα που χρήζουν αντιμετώπισης. «Υπάρχουν ακόμα θέματα που πρέπει να λυθούν και που δεν είναι από αυτά που θα έλεγε κανείς πως είναι εύκολα με όρους τεχνητής νοημοσύνης. Για παράδειγμα, υπάρχει το θέμα της χωροθέτησης, τα μοντέλα μπερδεύουν οδηγίες που έχουν σχέση με τον τρισδιάστατο χώρο, τι είναι πάνω, τι είναι κάτω, τι είναι μπροστά, και ίσως το πιο σημαντικό από όλα, τους φυσικούς νόμους που είναι μάλλον αδύνατο μια μηχανή να τους μάθει από κείμενα και φωτογραφίες… Tο να μπορείς όμως να δημιουργήσεις πρωτότυπα έργα σε 60 δευτερόλεπτα ή και λιγότερο είναι τουλάχιστον εντυπωσιακό και ένα τεράστιο εργαλείο για τους digital artists», προσθέτει.

Φαίνεται πως η δημιουργική πλευρά της τεχνητής νοημοσύνης έχει εξαιρετικό μέλλον για τον απλούστατο λόγο ότι το κοινό αντιλαμβάνεται τις δυνατότητές της. Αυτό τουλάχιστον δείχνει ο μεγάλος αριθμός ανθρώπων που δοκιμάζουν τις δυνατότητες του DALL-E, του Stable Diffusion, του Midjourney και των άλλων συστημάτων που, εξοπλισμένα με τη δύναμη χιλιάδων επεξεργαστών, υπόσχονται να μας βοηθήσουν να… φτιάξουμε τα δικά μας ουράνια τόξα…