Les Proverbes Flamands Neuronaux & NFTs


Sommaire

Réseaux de neurones
Wombo Art
Réflexions
Imaginer
Les NFT

Parce qu’il y a un vertige, une inquiétude, quelque chose de nouveau, dans tout ça. Peut-être parce que, aussi, je sais (à peu près) comment ça fonctionne [1], et je suis d’autant plus étonné que ça puisse marcher déjà aussi bien.


Les Réseaux de Neurones

Sachant qu’un réseau de neurones utilise des vecteurs [2].

Sachant qu’un réseau de neurones "apprend" à reconnaître du texte ou des images en formant dans sa "mémoire" des regroupements, des rapprochements en plusieurs dimensions, à l’aide de vecteurs. Dans le schéma ci-dessous [3], il est question d’associer des mots à des nombres (les vecteurs sont finalement des nombres, coordonnées abcisses/ordonnées dans le plan).

Sachant que je mets des guillemets à certains mots, car "apprendre" signifie ici, en réalité, associer un mot à des coordonnées dans un espace à n dimensions, et "mémoire", le fait que ces nombres soient stockés quelque part comme n’importe quels vulgaires 0 et 1 binaires en octets sur un disque dur. Quant à "décider", il s’agit de choisir la probabilité de sens la plus haute.

Sachant qu’entre ces mots, des distances à parcourir, plus ou moins longues, permettent de changer de sens, de compréhension. Entre chaque mot sur le schéma ci-dessus, il y a des vecteurs (pas tracés, on n’y verrait rien), mathématiquement, l’angle entre les vecteurs peut avoir un sens. Par exemple ci-dessous l’angle "man-woman" est à peu près le même que l’angle "king-queen". Le mot "man" est au mot "king" ce que "woman" est à "reine", et inversement. Le sens des mots est devenu géométrique. [4]

Sachant que dans un texte, des sens plus généraux vont venir s’associer dans d’autres dimensions : des vecteurs sortant de ce plan pour aboutir à un contexte de sens différent, par exemple si la zone bleu clair de la salle de bains est utilisée en association avec un prénom, ou si le mot "lumière" est utilisé comme métaphore, associé à quelque chose de positif, ou si le mot "roi" est associé à "France" puis à "décapiter", par exemple, ou plutôt à football et Zidane dans un article sur un "roi français du football", chaque sens ajoute une dimension, déplie, donne du volume à ces mots et à leurs relations [5].

Sachant que ces schémas vectoriels sont le fruit de l’analyse du réseau de neurones, qui n’a été préparé qu’à les placer dans un espace, et a été préparé à utiliser des relations géométriques pour que nous puissions y voir des relations de sens. Ce qui est pensé d’avance, c’est comment le programme va pouvoir lire les textes, stocker les mots, ces formes. La façon dont les mots apparaissent est le seul produit des textes fournis : les vecteurs sont créés par apprentissage. C’est pourquoi le système, à quelques adaptations près, disons, peut fonctionner aussi bien dans plusieurs langues. Les centaines de milliers de textes fournis au programme vont lui permettre de déduire les proximités géométriques de sens. Il n’y a pas de forme grammaticale enregistrée [6]. Le programme parvient à comprendre un sens, sans qu’on lui ait appris les règles de grammaire ni des principes linguistiques, comme un enfant de trois ans parle parfaitement au passé composé sans le savoir. Le programme parvient aussi à compléter des phrases, parce qu’il utilise des vecteurs proches de ceux qu’il a appris : il écrit comme ce qu’il a appris, et complète les phrases à trous comme en CP.

Sachant que, de la même manière, pour "comprendre" une image, un réseau de neurones va repérer les segments, courbes, couleurs, contours, puis (à l’aide d’humains, puis de programmes) à reconnaître des morceaux d’images, puis des zones plus grandes et des images complètes. Pour une voiture, ce qu’est un rétroviseur, sous plusieurs angles, le tas de pixels dans toutes ses configurations possibles venues d’une base d’images automobiles, va être systématiquement associé au label "rétroviseur". Puis la roue, puis les phares, puis comment tous ces éléments sont plus ou moins proches. Il finira, avec ce nuage de vecteurs, par identifier une "voiture" (l’ensemble des "nombres" associé au label "voiture", il ne "sait" pas ce qu’est une voiture).

Sachant qu’un réseau de neurones peut servir à créer un programme inverse, retourné comme un gant, qui à partir de labels va fabriquer les zones d’images correspondantes, puis les segments, les pixels. On peut alors demander : fabrique-moi un visage qui n’existe pas, ou un chat qui n’existe pas, comme dans un rêve.

Ces plages n’existent pas :

Le texte peut aussi se "retourner", ou se compléter comme le propose le labo ALMAnaCH de l’Inria [7], avec PAGnol, ou la société privée Cédille, en déterminant le style et le sens d’une phrase ou d’un paragraphe pour vous proposer une suite [8].

Longtemps, je me suis couché de bonne heure. Parfois, à peine ma bougie éteinte, je n’avais pas le temps de me préparer un café, mais ça ne faisait rien : j’avais envie de m’endormir. Il y avait longtemps que je n’avais pas passé une nuit aussi agitée. La lune était pleine et brillait bien haut dans le ciel. Un instant plus tôt, j’avais cru apercevoir un gros oiseau noir qui m’avait traversé, comme une feuille de papier volant.

Parfois, j’avais l’impression que le lit ne tenait pas tout entier debout. Il semblait toujours creux. Il m’arrivait de me réveiller en sursaut, à cause du bruit du plancher qui craquait. Je croyais entendre les ombres de mes parents courir dans la forêt. J’avais l’impression de les voir tomber juste devant ma fenêtre. C’était comme si leurs corps étaient tombés du lit. Et, tandis que je me reculais pour leur échapper, je voyais le lit trembler et vaciller.

J’étais seul à la maison.

^sommaire


Wombo Art

Sachant tout cela, on découvre que Wombo art est un système nourri à la fois de textes et d’images, qui utilise le "rêve" des réseaux de neurones pour générer des œuvres dans différents styles graphiques, à partir d’un texte saisi.

Des résultats suprenants, fascinants. J’ai ainsi pu créer une série sur Marilyn Monroe à la manière d’un Andy Warhol algorithmique [9].

Ou lui demander de me dessiner un Super Mario Bros de nuit.

Ou une banane géante qui s’écrase sur la Terre.

Saisir une phrase sur la corruption et la politique.

Un trou noir dans du jus d’orange trop dense.

Ecrire le début de La Recherche.

Ou jouer sur le côté littéral de la machine, qui va prendre au pied la lettre "pisser dans un violon".

Et penser alors à Pieter Brueghel l’Ancien et à ses Proverbes Flamands.

Et demander à Wombo art de peindre ces expressions du 16e siècle.

Porter l’eau d’une main et le feu de l’autre.

Se cogner la tête contre le mur

Combler le puits quand le veau s’est déjà noyé

Jeter des roses aux cochons

Il tient le monde sur son pouce

Jeter des plumes au vent

Frire tout le hareng pour consommer les œufs

Cela dépend de la manière dont tombent les cartes

Être armé jusqu’aux dents

^sommaire


Réflexions

Je vous laisse vous amuser à en faire peindre d’autres [10].

*

Il y a quelque chose de fascinant dans ces rêves, ces fabrications. De voir l’image se fabriquer, la progression, par couches successives de plus en plus fines, aide à la fascination. On a l’impression de voir cette "intelligence" à l’œuvre. Il y a quelque chose de nouveau aussi. Des réseaux de neurones qui proposent de fabriquer des images, celui-ci est le premier à ma connaissance qui n’impose pas un thème particulier (paysage, par exemple, ou sneaker), soit aussi complet et associe si bien un texte libre à l’image produite. C’est inédit, de pouvoir ainsi dire quelque chose, et voir en quelques secondes une "œuvre" se fabriquer, sans travail préparatoire de recherche, de sélection, de découpage... On peut redemander un tableau, et voir la version obtenue. Etc.

Je dis "nouveau" parce que j’ai découvert d’abord cette application commerciale, avant de savoir qu’il existait des précurseurs. On n’arrive pas à ce résultat seul sans rien avant. Le domaine est riche de recherches depuis plusieurs années, et cet été c’était CLIP+VQ-GAN qui en était l’aboutissement, et perçait hors des laboratoires, avec un temps de calcul plus long, un usage plus technique et fastidieux, et du code ouvert [11]. Sur Twitter, on peut envoyer une phrase au compte @images_ai qui la transforme en image avec cet outil.

C’est aussi un jeu, bien sûr. Et peut-être ne faudrait-il le prendre qu’ainsi ? En tout cas, je découvre en "jouant" ainsi que l’on peut faire entrer ces "réseaux génératifs" dans l’histoire de la peinture en leur faisant faire ces tableaux, ces citations. Il est aussi possible, dans la zone de saisie, de citer un peintre, et l’outil utilse le style de ce peintre, à la manière d’un filtre dans Photoshop — je ne sais pas si c’est programmé spécifiquement comme ça, ou si c’est un miracle du réseau de neurones qui combine les "vecteurs" et produit "naturellement", dans le style demandé.

^sommaire


Imaginer...

Si ce qu’on voit la plupart du temps sous le nom "Intelligence artificielle" n’est qu’un algorithme avancé, voire même si la plupart du temps "Réseau de neurones" fait référence à un calcul statistique [12], dans le cas présent, celui de la génération d’image, s’il ne faut pas parler "d’intelligence", en tout cas quelque chose se passe, il me semble de nouveau, malgré la technique identique, dans le rendu, qu’il est difficile de bien définir.

Il y a une toute-puissance qui se laisse toucher du doigt, on devine qu’il est possible de faire encore plus et encore mieux. Une version film, évidemment, donner le scénario et recevoir le film, un film pour soi. "Film de casse dans le style nouvelle-vague avec Marilyn Monroe et Jean-Paul Belmondo contre Elon Musk en banquier véreux." Écrire les grandes lignes, le pitch, et attendre la génération de sa vidéo. Plus ou moins détaillé. "Un type qui veut aller dans l’espace mais n’a pas les bons gènes achète le sang d’un sportif blessé pour pointer au taf et passer les épreuves de tests pour le voyage. C’est chaud parce qu’il a un problème cardiaque. D’une manière ou d’une autre il se fait repérer, une femme dont il tombe amoureux découvre la vérité. Pour empêcher qu’il se fasse griller le sportif se carbonise dans la cheminée pendant que le vaisseau décolle vers Gattaca". Peut-être qu’un film généré par quelqu’un pour son propre plaisir, puis partagé, pourrait devenir célèbre. Mais ce ne serait plus nécessaire.

(J’essaie d’épuiser le sujet. C’est inépuisable. En ce moment, par exemple (15/12/2021), Youtube célèbre les mille milliards de vue pour du contenu Minecraft. Chaque jour, il y a une vie humaine mise en ligne sur la plateforme. Inépuisable.)

Cette proximité avec notre façon de nous souvenir, ou de rêver, peut être inquiétante, troublante. Si je vous demande d’imaginer le Parthénon sur sa colline. Vous voyez une "masse-colline", un bâtiment en ruine avec des colonnes, mais jusqu’où pouvez-vous précisez le dessin ? Compter les colonnes ? Impossible. Ce sont de grossiers traits de peinture. Pour éviter de rêver, je peux demander à Wombo de rêver à ma place. Quelle différence ? Je ressens peut-être ce qu’ont ressenti les premiers témoins des miracles de l’ordinateur, comme celui qui jouait au jeu de Nim, en 1940 à la Foire Internationale de New-York, ou Bernie The Brain qui jouait au Morpion en 1950. Il y a une bascule, lente, mais qui semble de plus en plus certaine (c’est aussi ça le vertige, l’accélération) vers une intelligence non-humaine qui pourrait devenir un jour vraiment intelligente, extra-terrestre, presque, en tout cas post-humaine, comme je l’ai imaginé dans L’Homme heureux avec la Maison des Programmes [13] qui cherche à poursuivre, via des algorithmes et après la disparition imminente des humains, leurs sciences et leurs arts.

^sommaire


Pour en finir

Ce qui gâche tout c’est le modèle économique de Wombo Art. Cette façon de générer des images est typique de ce que l’on trouve sur les plateformes de vente de NFT [14]. Des milliers d’images générées par des utilisateurs, posées sur un site toutes plus laides, banales, vides les unes que les autres [15], et chères. Ici, une recherche d’œuvres entre 1000$ et 20000$ triées à partir de la plus chère (8 crypto ETH, font environ 22000 €).

Ce qui compte n’est pas l’image, mais le fait qu’elle ait un prix. Dans Cosmopolis, de Don Delillo, le personnage ultra-riche le dit bien, il n’a pas voulu acheter l’appartement à 100 millions de dollars pour y habiter, ni pour le louer, ni pour le vendre. Il l’a acheté parce que l’appartement valait 100 millions de dollars : il a acheté le fait qu’il peut dépenser 100 millions de dollars, il acheté 100 millions de dollars, non : il a acheté ce nombre, sous forme d’un appartement. Les NFT ne sont que des jetons, indépendamment de l’image, qui ont une valeur et peuvent être revendus, éventuellement. C’est un jeu boursier, rien de plus. Wombo pense qu’avec des images plus originales, toutes plus "uniques" les unes que les autres, il y a plus de profit à tirer. C’est un meilleur produit, voilà tout. Et de proposer gratuitement d’en générer comme je l’ai fait, si on lit bien les conditions d’utilisation du site, le contrat passé en l’utilisant, permet de créer des jetons et toutes les images appartiennent à Wombo. C’est pourquoi l’adresse de chaque œuvre générée existe, de manière unique [16], afin de partager mais pas seulement, afin d’identifier l’œuvre comme NFT [17], la fabrique d’une plateforme d’NFT crowdsourcés pour ainsi dire. Wombo a simplement lancé le site, et maintenant sans doute des centaines de milliers d’images, des millions peut-être, sont disponibles, prêtes à être mises aux enchères, et rien que cette masse, même si chaque vente ne rapporte à la plateforme que quelques centimes en commission sera probablement rentable, avec la masse. Et si c’est le nombre qu’on achète, alors ce n’est pas l’image avec sa composition de pixels, mais cette suite de chiffres hexadécimaux : ae15274b-f9eb-4cf3-b825-721cc80fc54c. Cependant, disons-le aussi : il existe de "véritables" œuvres, au cœur de ce marché, quelques-unes, "véritables œuvres numériques" au sens où elles ont été fabriquées entièrement par quelqu’un — mais cela est-il si différent que de faire générer par un programme ?— certaines se vendent chèrement comme (voir ci-dessous), d’autres ne se vendent pas du tout (pas encore). Mais est-ce que NFT, et son format coûteux en énergie, est le seul moyen de vendre de l’art numérique ?

Quelques chiffres pour terminer. En 2021 :
à®  26.9 milliards de dollars de transactions [18]
à®  Un montage de photographies numériques au format JPEG, 319 Mo, vendu 69.3 millions de dollars, aux enchères. "A 39 ans, Mike Winkelmann entre ainsi dans l’Histoire et rejoint le trio des artistes vivants ayant vendu leur art le plus chèrement." Il s’agit d’une image de 319 Mo pour 21 079 x 21 069 pixels, Everydays : the First 5000 Days, d’un montage de 5000 photographies. [19]
à®  Cependant qu’un "cryptopunk" [20] s’est vu auto-acheter par son/sa propriétaire anonyme, pour 532 millions de dollars [21], c’est vraiment pour montrer le fait de pouvoir acheter la somme. Mais est-ce que ça compte comme artiste vivant ayant vendu le plus cher s’iel ne l’a pas vraiment vendu ?
à®  Cependant qu’un nouveau record a été établi pendant l’écriture de cet article ! L’œuvre The Merge, de l’artiste Pak, 91.8 millions de dollars ; mais elle consiste de "266445 unités numériques dont la fusion totale ne formerait qu’une seule œuvre" ; est-ce finalement l’artiste le plus cher de son vivant avec ce fichier qui est composé de plusieurs fichiers et plusieurs acheteurs ? Compliqué, mais oui, pourquoi pas. [22] En tout cas, cette création est plus intéressante que le montage photographique, car elle utilise le mécanisme NFT dans son processus de création et de distribution/vente : "Le mécanisme permet à la masse [23] disponible sur le marché secondaire de se consolider, réduisant le nombre total de NFT uniques au fil du temps tandis que le nombre total d’unités de masse reste constant. Cette approche pionnière met en évidence la nature sociale de la collection d’art et la rareté du marché, tout en utilisant la technologie NFT de manière innovante." Dans cet article qui mentionne les efforts de la plateforme de vente pour réduire les émission de gaz à effet de serre malgré la technologie utilisée.
à®  Le site Statista nous apprend qu’en août 2021 il y avait environ 280000 acheteurs de NFT en tout dans le monde.
à®  La vente d’un NFT nécessiterait "340 kWh, soit la consommation d’électricité mensuelle d’un citoyen européen [24]"

J’ai commencé par parler d’art, et je termine par parler de marché de l’art, rien de plus normal, n’est-ce pas ?

^sommaire

7 janvier 2022
T T+

[1Déjà présenté et utilisé ici.

[2Un vecteur est une flèche qui va d’un point à un autre dans le plan.

[3Extrait de cet article.

[4Si l’on peut dessiner un parallèlogramme entre 4 mots, alors leurs relations de sens sont les mêmes quand on en compare 2 aux 2 autres. Il devient possible, géométriquement de "trouver" le sens d’un mot par rapport à un autre. On peut extrapoler pour la traduction, en allant un peu vite, que les mots traduits sont situés géométriquement comme les mots à traduire.

[5Voir la vidéo de David Louapre sur le sujet d’où est aussi tirée l’illustration et l’exemple homme-femme & roi-reine.

[6Ecouter cette émission de Xavier de la Porte avec Thierry Poibeau, directeur de recherche au CNRS, directeur adjoint d’un laboratoire consacré au traitement informatique des langues, chercheur affilié au département de linguistique de Cambridge.

[7Reportage dans l’émission diffusée alors que cet article se terminait.

[8Donc, ce texte, avec, à l’époque, une interface pour l’anglais.

[9Parce qu’elle est partout.

[10Attention cependant, je pense que Wombo utilise un traducteur automatique pour passer une saisie en français à l’anglais.

[11Lire également ici :
"VQGAN+CLIP est une architecture de réseau neuronal qui s’appuie sur l’architecture révolutionnaire CLIP publiée par OpenAI en janvier 2021.
VQGAN+CLIP Il s’agit d’un modèle texte-image qui génère des images de taille variable en fonction d’un ensemble d’invites de texte (et d’autres paramètres).
Il y a eu d’autres modèles texte-à-image auparavant (par exemple AttentionGAN), mais l’architecture VQGAN+CLIP l’amène à un tout nouveau niveau."

[12car c’est réellement ça, au fond, dans le cas de la détection, de la devinette, "qu’est-ce que c’est ?", réponse "c’est à 98.6 % un chat, à 56.3 % un chien, à 11% une poule, à 3% un grille-pain", d’où la blague "Le loup est 2% un processeur pour l’homme".

[13Voir ce tweet pour en savoir plus.

[14Non Fongible Token, Jeton Non Fongible. Une pièce de monnaie est "fongible" car peu importe l’objet-pièce unique en votre possession, elle peut être remplacée par une autre instance de pièce de même valeur. Mon téléphone est non-fongible parce que c’est mon téléphone, unique, en quelque sorte. Une œuvre d’art est non-fongible, il n’y a qu’une Mona Lisa. Un NFT sert à "représenter un objet numérique" WP. Tout un système similaire à celui utilisé pour les bitcoins ("blockchain") est mis en place pour assurer unicité, traçabilité, valeur, propriétaire(s), dans une base de données répartie sur les ordinateurs de tous les participants, permettant de sécuriser les transactions par le calcul de tous contre d’éventuels pirates, passons.

[15Générées par des modèles ultra-simples de combinaison de formes posées les unes sur les autres.

[16Sous la forme app.wombo.art/card/ suivi d’un code comme b5e0a93f-fe72-46cb-931c-6027ecd17b7b

[17La mise en place de ce service, intégré à Wombo est d’ailleurs en cours

[18Voir ici.

[19Lire ici.

[20Image pixelisée et générée par une plateforme, représentant un personnage, un visage.

[21Voir dans ce récap.

[22L’article.

[23une unité vendue séparément de l’oeuvre globale

[24Voir ici.