Transcription automatique de l'épisode 314

Via Whisper (OpenAI), faster-whisper (github/guillaumekln) et Pyannote-audio (github/pyannote). Basé sur une idée de Ruhollah Majdoddin.



0:00:00 à 0:03:00 SPEAKER2 :
Vous écoutez TECH CAFE, votre rendez-vous sur l'actualité des nouvelles technologies. Nous sommes le 21 mars 2023 et c'est l'épisode 314, les moins jeunes d'entre nous. Il n'y a personne dans cette situation, j'imagine ici. Mais enfin bon, on se rappelle de Clippy, cet assistant de la suite office. Aux côtés de Word, Excel et PowerPoint, il y avait ce petit trombone flippant aux yeux de drogué qui pouvait plus ou moins nous aider. A l'époque, je dois confier que je faisais du support informatique. J'ai dû déjà raconter cette anecdote, mais elle m'a tellement marqué et je me rappellerai toute ma vie. Un utilisateur l'avait lancé par erreur pour la première fois et il m'avait alerté sur le fait qu'il y avait, je cite, une liane avec des yeux qu'il regardait. C'était très flippant, il avait fallu que je me déplace sur son poste à l'époque pour comprendre de quoi il s'agissait. Cet avatar avait le mérite d'être précurseur. Et oui, attendez-vous à ce qu'un assistant revienne très prochainement dans vos documents de bureautique bien connus de la firme de Redmond. Évidemment, sans son incarnation désuète que je viens de décrire, mais propulsée à grands coups d'intelligence artificielle. Vous l'avez compris, on va encore une fois parler d'intelligence artificielle dans cet épisode. Je suis Guillaume Vendé podcasteur technophile enthousiaste, et je retrouve le responsable du conducteur de cet épisode. C'est Guillaume Poggiaspalla. Salut Guillaume, comment vas-tu ?
0:03:00 à 0:03:03 Guillaume Poggiaspalla :
Très bien, fort bien. Et encore mieux qu'à d'habitude d'ailleurs.
0:03:03 à 0:03:26 Guillaume Vendé :
Ah, je sais pourquoi tu dis ça. Et oui, vous allez avoir un épisode encore meilleur qu'à d'habitude parce que nous avons également l'immense plaisir de retrouver un habitué de longue date qui nous fait l'honneur de nous consacrer un petit peu de temps. Ça va être l'occasion qu'il réagisse au sujet de l'épisode. Évidemment, bien sûr, c'est quand même l'objectif. Mais il va pouvoir nous donner un petit peu aussi peut-être son regard sur la révolution qui s'opère actuellement sur l'intelligence artificielle. C'est Pierre-Olivier Dibman. Salut Pierre-Olivier, comment vas-tu ?
0:03:26 à 0:03:35 Pierre-Olivier Dybman :
Salut, ça va très bien. Je vais commencer d'ailleurs par foutre le bordel et renommer l'épisode. Ce n'est pas l'épisode 3.14, c'est l'épisode Pi. On ne devrait pas louper ça.
0:03:35 à 0:03:44 Guillaume Vendé :
Oh, mais oui, tu as tellement raison. C'est vrai qu'on n'aurait pas dû le rater. Très bien, c'est noté, bien vu. Merci pour ta vigilance, Pierre-Olivier.
0:03:44 à 0:03:53 Pierre-Olivier Dybman :
Je tiens à signaler quand même que je crois que Guillaume Podjaspal l'a mis plus ou moins à côté du titre. Donc, ce n'est pas 100 % de moi. Mais voilà, il ne faut pas qu'on le loupe.
0:03:53 à 0:04:25 Guillaume Vendé :
Écoute, l'histoire retiendra dans cette conversation que tu as la paternité de ce titrage. En tout cas, merci beaucoup Pierre-Olivier. Il y a des personnes, figure-toi Pierre-Olivier, ça fait un petit moment que tu n'as pas eu l'occasion d'échanger avec nous. Il y a des personnes qui rejoignent le podcast et qui découvrent le podcast en cours de route et qui n'ont pas l'immense privilège de savoir exactement qui tu es. Je pense pourtant que tu fais partie des tout premiers participants à ce qui était à l'époque Tablette Café. Ça ne nous rajeunit pas. Est-ce que tu peux peut-être te représenter en quelques mots pour que les gens qui découvrent le podcast depuis peu de temps sachent qui tu es ?
0:04:25 à 0:04:52 Pierre-Olivier Dybman :
Absolument. Fondateur de l'entreprise Humanoïd qui est en arrière du site Frandroid.com, notamment, mais aussi Numérama et Mademoiselle maintenant. Mais moi, à mon époque, c'était juste Frandroid puisque je ne suis plus dans cette entreprise. Je suis aussi parmi les plus fervents adorateurs de l'OS au robot, à savoir Android et anciennement développeur d'ailleurs pour Android.
0:04:52 à 0:07:50 Guillaume Vendé :
Et tu gardes un regard évidemment très proche dans le monde des services et des développements, si je ne dis pas de bêtises Pierre-Olivier. Donc évidemment, tu vas pouvoir commenter tous ces sujets avec nous. Alors, j'en profite avant qu'on parle des news. Forcément, vous le savez, c'est l'habitude en intro des épisodes. Je me dois de dérouler le tabi rouge pour les personnes qui ont choisi de participer financièrement au financement de TechCafé ou qui ont renouvelé leur engagement. Je voudrais citer Yoakim Maldazar et Carole Hager. Merci beaucoup à tous les trois. Je ne vais pas vous mentir, le soutien de quelques auditeurs parmi vous est toujours essentiel pour que le podcast reste présent dans votre app et continue à vous apporter un contenu régulier. Je sais, Yves Perdument, que tout le monde ne peut pas ou ne veut pas d'ailleurs se le permettre. C'est évidemment tout à fait normal. Par contre, si vous avez quelques euros à consacrer chaque mois, peut-être que vous voulez consacrer déjà une passion coupable que vous aimeriez abandonner en 2023. On a la solution. Allez jeter un coup d'œil sur Patreon.com, TechCafé et envisagez peut-être de nous consacrer une petite partie de ce budget. Vous savez ainsi que vous soutenez très concrètement TechCafé, un podcast qui vous apporte, on l'espère, un contenu de qualité vérifié et empaqueté dans un format divertissant, proche et convivial. Vous profitez d'ailleurs de quelques avantages et notamment un flux privé du podcast sans la pub et du chapitrage des épisodes. J'en profite pour faire un petit clin d'œil à Florian Schwartz, qui fait partie des heureux soutiens Patreon de TechCafé, qui me fait remarquer qu'il a des difficultés avec ce chapitrage qui n'est vraiment pas une fonction évidente dans le monde du podcast. Florian, j'ai répondu à ton commentaire et on va mettre en place une solution, t'inquiète pas. J'en profite aussi pour citer un avis Apple Podcast de Netronik, qu'il a déposé le 21 mars dernier. Il y a quelques... En fait, c'est aujourd'hui, j'allais dire il y a quelques jours, mais c'est aujourd'hui. Super podcast avec une vraie expertise technique qui me permet de faire une veille sur les sujets B2B. Je travaille dans l'informatique aussi bien que sur les gadgets, les NFT ou les IA avec de vraies analyses dedans, que c'est bon. Question, pourquoi les épisodes week-end ne sont pas notifiés ni visibles dans le flux sur Apple Podcast? C'est dommage, car ils sont au moins aussi bons que les épisodes réguliers, que je ne suis pas averti de leur sortie et ça réduit sûrement votre audience sur ces derniers. Écoute, j'en apprends tous les jours Netronik. Je ne savais pas que les épisodes qui étaient labellisés comme étant bonus ne faisaient pas l'objet d'une notification. Considère ce problème réglé et désormais, tous les bonus auront eux aussi une jolie notification sur ton iPhone. On vous invite évidemment à commenter sur TechCafé.fr et à échanger entre vous et avec nous sur le serveur Discord de TechCafé, dont le lien figure dans les notes de l'épisode. Un dernier commentaire, et je vais le faire d'autant plus sereinement que Pierre-Olivier est là, c'est BEM qui nous dit qu'à défaut de faire des podcasts sur vinyles, il voulait rappeler que l'apéro du Captain a fait un vinyle de tous ses génériques. Belle initiative qui a plus que bien marché. La prod a été compliquée, mais le résultat doit être sympa à vie au kink amateur. Je le dis d'autant plus sereinement parce que je sais, Pierre-Olivier, que tu as eu l'immense privilège d'être invité à l'apéro du Captain il fut un temps, il y a quelques années.
0:07:50 à 0:07:52 Pierre-Olivier Dybman :
C'est vrai, j'ai ça dans mon CV, absolument.
0:07:52 à 0:07:53 Guillaume Vendé :
C'est beau.
0:07:53 à 0:07:55 Pierre-Olivier Dybman :
Je l'ai mis en expérience LinkedIn.
0:07:55 à 0:08:11 Guillaume Vendé :
Ça ne m'étonne pas du tout, ça ne m'étonne pas du tout. C'est une belle référence. Merci. Allez, on enchaîne sans autre forme de procès avec les Newstek. Et oui, Guillaume, Microsoft nous déroule un revival de Clippy, mais quand même à la sauce 2023. On est loin de cette liane avec des yeux.
0:08:11 à 0:12:45 Guillaume Poggiaspalla :
Oui, cette semaine, il y a quand même une grosse actualité pour tous les passionnés de bureautique. C'est ça, ceux qui sont passionnés par Word, Excel et ce genre de trucs. Parce qu'en substance, c'est vrai que Clippy fait son grand retour, le trombone le plus connu, le plus détesté de la tech, sans doute. Mais on vous parle d'un temps que les moins de 20 ans ne peuvent pas connaître. Je veux dire, Microsoft, en ce temps-là, mettait des falbas sur toutes ses fenêtres. Et même le garni qui me servait de nid, il avait bonne mine, ce trombone au menu, mais il vous en bobine, c'est une déconvenue. Bref, la bohème, c'était en 97, quand Microsoft se met en tête de rajouter des assistants à Office et ce genre de trucs. Mais c'est un personnage cartoon qui vous donnait des conseils pour vous aider à écrire. Tu l'as un petit peu dit. Alors, en fait, il n'y avait pas que le trombone comme agent pour vous aider, mais il fallait s'aider Office pour avoir les autres. Tout le monde avait la flamme, donc tout le monde restait sur Clippy. Et à la base, Clippy voulait aider, donner un visage au logiciel et aider ceux qui avaient aussi le moins l'habitude. Par exemple, il détectait quand tu commencais une lettre, puis il te demandait si tu voulais de l'aide. Voilà, puis en général, tu répondais surtout non. Après, il apparaissait quand même et tu finissais par le détester parce qu'il n'était pas très, très utile. Clippy, c'est une distraction inutile qui a fini par gonfler tout le monde et que Microsoft a viré officiellement en 2003. Mais cette vieille histoire montre que le fantasme d'aller augmenter la suite bureautique avec un véritable assistant est là depuis longtemps. En vérité, c'est exactement 20 ans plus tard. D'ailleurs, 20 ans après la mort de Clippy, ce fantasme a désormais un tout nouveau, un tout nouvel algorithme. Nouveau nom, mais aussi un nouvel algorithme sur lequel s'appuyer et une énorme capacité de calcul supplémentaire qui lui permet d'être nettement plus crédible et d'aller évidemment largement plus loin. Donc, il a commencé ça à présent. Microsoft a présenté la semaine dernière son copilote, qui est une intégration d'un modèle de langage à l'ensemble de Microsoft 365. Donc, comme pour Bing, c'est bien sûr la technologie d'OpenAI qui est utilisée. On suppose que c'est en l'occurrence une instance de GPT-4. Ça a été confirmé dans le cas de Bing que c'était GPT-4, que la partie modèle de langage de ProdMeteus, c'était bien un GPT-4, même si c'était peut-être une version un petit peu, disons, plus précoce que celle qu'on a actuellement. Là, rien n'est sûr, mais le plus simple pour se faire unier de copilote, c'est d'imaginer chaque GPT qui bosse avec vous sur les documents Word, qui écrivent vos emails, qui créent vos PowerPoints, qui résument d'autres PowerPoints que vous n'avez pas envie de vous farcir. Sous Excel, copilote peut analyser un tableau de données complètement indigeste et vous représenter la tendance la plus importante avec un graphique, ou alors rajouter des couleurs aussi pour mettre en évidence les données qui sont importantes, tout ça tout seul. Il suffit de lui demander, évidemment, au langage naturel, dans son onglet, tu lui demandes. Et copilote peut aussi assister à ta place à des réunions, il peut te faire un résumé de ce qui s'est dit d'important. D'ailleurs, ça prend même pas une page pour une réunion d'une heure, ce qui est un cas tout à fait réaliste, je pense, une fonction qui va donc en faire s'élever beaucoup, je pense. Vous pouvez aussi avoir la transcription pour voir d'où sort ce que te donne copilote, d'ailleurs, il y a aussi une nouvelle appli en complément de tout ça qui s'appelle le Business Chat. Donc c'est un chat interactif avec un robot qui peut regrouper, synthétiser tout ce qui est en relation avec une tâche et qui est organisé dans le Microsoft Graph. Parce qu'en fait, copilote interagit avec trois entités, copilote aime finalement trois entités. Il y a les applications Office, donc il y a Word et compagnie, il y a le Microsoft Graph, c'est-à-dire le graph des liaisons que les documents ont, les ont avec les autres. Donc ça est basé sur des métadonnées sur ces documents. Et après, il y a le gros modèle de langage GPT-4, ou à la GPT-4, donc copilote interface D3, c'est lui qui crée les prompts finaux, d'ailleurs pour GPT-4. Donc tu crées ce que tu veux à copilote et il va créer un prompt à mettre devant ce que tu veux pour préciser, contextualiser les demandes. Et donc en fait, ce prompt complet, donc le tien plus celui de copilote, va être envoyé et digéré par GPT-4 et le résultat lui-même est retourné à copilote, qui l'interprète et le filtre avant de l'afficher ou de le traduire par des actions sur un document, comme une mise en forme, par exemple, une mise en valeur des tableaux, de cases d'un tableau, par exemple. Donc dans le monde merveilleux des vidéos de promotion, tout ça marche super bien, c'est à peine croyable. C'est vraiment comme si tu avais un secrétaire particulier, un assistant qui maîtrise en plus parfaitement tous les outils. En réalité, Microsoft le dit d'emblée, copilote n'est pas censé créer des documents finaux, il est là pour créer des brouillons, pour accélérer les choses, mais il fera des erreurs, il produira des textes bizarres ou hors-sujet, il va halluciner des choses, parfois il va marcher très bien, et d'autres fois, je cite, il fera des erreurs utiles, des erreurs qui te donneront une idée originale par accident. Bon, c'est une curieuse manière de vanter son produit, il faut l'avouer, mais c'est révélateur du fait que ça se passera pas tout le temps comme dans la vidéo, on sera fixé dans les mois qui viennent, on parle pas de date, il n'y a pas de date plus précise que les mois qui viennent pour le déploiement pour l'instant. Donc, à votre avis, est-ce que c'est une véritable, je veux dire, une véritable bombe à retardement d'informations déformées ou de malentendus ?
0:12:46 à 0:13:12 Guillaume Vendé :
Je vais étendre le micro tout de suite à Pierre-Olivier, parce qu'on n'a pas eu l'occasion de t'entendre depuis que cette révolution a un peu bousculé notre éditorial et fait que chaque semaine, il s'invite dans les épisodes de Tech Café, et moi, je serais très curieux d'avoir un petit peu ton sentiment, évidemment, bien entendu là-dessus, Pierre-Olivier, mais globalement, sur ce qui se passe, toi qui est justement très étroitement lié encore, de par ton historique et ton activité, à ce qui se passe dans, évidemment, le rapport aux ordinateurs et à l'informatique, comment tu perçois ça ? Quel regard tu portes là-dessus ?
0:13:12 à 0:17:37 Pierre-Olivier Dybman :
Je vais commencer par y aller sur le sujet spécifique Microsoft, j'ai une remarque, sinon elle sera beaucoup trop loin de ce que Guillaume nous rapporte, de ce que Microsoft a dit. Sur le sujet des erreurs utiles, moi, personnellement, je suis très en phase avec cette déclaration de Microsoft, dans le sens qu'on a quelque chose qui permet de briser le syndrome de la page blanche, on a aussi quelque chose qui permet d'avoir des templates de mise en forme qui sont à peu près respectés, je sais que personne n'aime respecter les templates, etc. C'est quand même vraiment intéressant, mais c'est sûr que le contenu a besoin d'être relu, et puis de toute façon, s'il ne l'était pas, alors pourquoi on serait payé en tant que salarié d'une entreprise, etc. Mais, ma grosse remarque, c'est, dans ce cas-là, enlevez-moi cette botte du moteur de recherche Bing, parce que ça n'a pas de sens que, d'un côté, on admet qu'on est sur la génération de textes, et qu'on travaille des probabilités pour faire du texte qui est crédible, mais pas nécessairement vrai, et de l'autre, de balancer le truc en mode moteur de recherche, allez-y, posez vos questions, on va vous répondre, messieurs, mesdames. Donc, moi, c'est le truc qui me mérisse un petit peu le poil dans la position que Microsoft a en ce moment, et que j'aimais bien avec Google, jusqu'à ce qu'ils se sentent bousculés par les actionnaires, etc, pour aller sortir des versions, des démos, des trucs, à savoir que l'IA, en tant que telle, ce n'est pas un produit, c'est une techno, cette techno, elle peut être embarquée dans des produits pour les rendre plus efficaces, plus attractifs, etc, etc, on l'a avec Google Translate, ce n'est pas juste du crowdsourcing, il y a aussi pas mal de générations de textes, on l'a avec les autocomplete de Gmail, etc, tous ces trucs où l'IA était invisible, à mon sens, c'était parfait, on avait une vraie intégration dans un produit, on ne prétendait pas qu'on allait générer des vérités ou ce genre de choses, quand ça touche le moteur de recherche, je suis un peu plus mal à l'aise. Donc ça, c'était ma première remarque sur le parti Microsoft, et puis pour mon sentiment général, évidemment, ça va être difficile de condenser ça, mais j'ai tendance à dire que quand je vois à quel point le commun des mortels ne sait déjà pas utiliser un moteur de recherche, je suis assez confiant que la moyenne des gens ne saura pas créer une vraie requête pour une IA conversationnelle, un prompt, Oui, génératif, parce qu'effectivement, pas juste le texte, mais aussi les images, etc, je pense que la plupart des gens seront et resteront nazes à ça, et puis je ne leur lance pas la pierre, on a tous nos faiblesses, etc, et puis en fait, en plus, ce n'est pas si évident que ça, je sais que quand ChatGPT est sorti en bêta, personnellement, mes prompts, c'était de la marde, et je n'étais pas du tout impressionné par les réponses, et ça m'arrive d'ailleurs régulièrement d'essayer de m'en servir, et de me faire donner des réponses qui valent vraiment zéro, et que je dois retravailler mon prompt encore et encore pour arriver à obtenir quelque chose que là, pour le coup, je suis comme, oh shit, ok, ça fait ça, ça c'est nice, c'est vraiment cool, c'est très impressionnant, donc voilà, on s'imagine que, vas-y, t'écris 5 lignes, c'est quoi ton problème, et qu'on va te donner la réponse tout de suite, c'est vrai que c'est plus facile que beaucoup, beaucoup, beaucoup d'autres outils, mais ce n'est pas non plus 100% tout de suite, et je pense que beaucoup de gens auront de la difficulté à s'en servir correctement, je pense que les profs ont encore de beaux jours devant eux à corriger des copies, parce que sérieusement, un truc qui sort de ChatGPT, ça se voit comme le nez au milieu de la figure, sauf si, voilà, on a quelqu'un qui fait des prompts intelligents, et qui retravaille le texte ensuite, mais dans ce cas-là, est-ce que cette personne n'a pas fait correctement ses devoirs ? Il me semble que oui, mais deux points.
0:17:37 à 0:18:08 Guillaume Vendé :
Hyper intéressant d'avoir ton retour, et quelque part, c'est agréable, parce que je pense que tu déculpabilises une bonne partie d'entre nous, et peut-être des auditeurs aussi, qui eux-mêmes utilisent parfois ces outils, et se retrouvent face à des résultats très, très discutables, et c'est intéressant, parce qu'évidemment, ce qui circule sur les réseaux sociaux, et ce qui est partagé, c'est les résultats convaincants, et Dieu sait qu'il y en a, bien évidemment, mais il y a aussi beaucoup de déchets dans nos usages de ces outils, c'est clair. Hyper intéressant, du coup, Guillaume, on continue, et on va aller voir ce qui se passe du côté de Google, qui met à disposition ses API, cette fois-ci.
0:18:08 à 0:21:44 Guillaume Poggiaspalla :
Oui, même comme une réponse du berger à la bergère, n'est-ce pas, comme on dit ? Google a annoncé pour son workspace des choses qui sont quand même assez similaires à ce qu'on a pu voir pour le copilot de Microsoft, donc il y a de l'IA générative partout, alors dans Gmail, bien sûr, où l'IA pourra aider à écrire ou à faire des résumés de longues conversations, voilà, des longues conversations, des allers-retours Gmail, sur lesquels on n'est plus un jour depuis 2017, on pourra aussi avoir de l'assistance sur Google Docs, avec des résumés, ces fameux mails ou production de prompt, voilà, on pourra évidemment avoir des trucs plus ou moins, disons, alors, plus ou moins mis en forme, et aussi avec des tons différents, on pourra contrôler le ton aussi, et encore une fois, comme chez Microsoft, on peut demander, on l'engage naturel, de créer une présentation à partir d'un texte, on pourra, à partir d'une liste d'emails, automatiser l'envoi d'un message personnalisé, à noter qu'il y a aussi la génération d'images qui est disponible pour habiller tout ça, donc Imagine, apparemment, se trouve mieux au boulot, ça y est, et on aura aussi des résumés synthétiques écrits en temps réel, des réunions Google Meet, etc., on pourra aussi déléguer la rédaction de notes de remerciements à l'équipe, donc ce dernier mois m'a vraiment fait marrer, parce que c'est vraiment dans la vidéo de promotion, il y a vraiment, je veux écrire une lettre de remerciements à mon équipe, grâce à l'IA de Google, donc, t'auras plus à t'emmerder à dire merci à tes collaborateurs, t'auras plus la corvée de rédiger toi-même un mail de deux pauvres paragraphes pour exprimer une gratitude sincère vis-à-vis de gens qui t'ont aidé, non, non, tu laisses ça à l'IA, en plus, elle peut le dire de plusieurs façons avec des émojis fleurs, je veux dire, il n'y a pas de souci, alors, je sais bien que 90% de la com, de toute façon, purement formelle, mais ça m'amuse que Google appuie dessus encore, sur cette artificialité, et puis bon, je ne doute pas que les IAs seront bientôt utilisées pour aussi des lettres d'amour, pour souhaiter un bon anniversaire de mariage, ça serait intéressant de voir dans le futur ce qui méritera encore nos propres mots, ce qu'on refusera de déléguer. Mais bon, voilà, les remerciements, je ne sais pas si c'est vraiment habile de mettre ça dans une vidéo de promo, en tout cas, c'est symptomatique d'une période, quand même, où plus que jamais, il faut aller vite déployer, occuper le terrain, et réfléchir après, quoi, si on a le temps, et on n'aura pas beaucoup de temps de toute façon. Donc, en l'occurrence, personne n'a encore testé tout ça, il n'y a aucune date de sortie précise, je suis vraiment curieux de voir à quel point ça marche, là encore, comme dans les vidéos, de voir les bourdes aussi qui pourraient sortir, j'attends avec impatience le bêtisier de copilote de Google Workspace, ça sera marrant, je pense que les réseaux sociaux en déborderont très bientôt, et puis bon, ça arrivera peut-être pour la Google I.O., mais en attendant, il y a effectivement, comme tu le disais, il y a aussi... Ben, disons, Google se devait aussi de réagir sur le front des API, puisque depuis longtemps, entre guillemets, OpenAI permet l'intégration de ses modèles GPT dans des applications tierces, il y a des API pour les développeurs, et donc il est un petit peu seul sur le créneau, mais Google aussi a des I.A. et donc désormais, il offre accès aux développeurs à Palm. Palm, c'est son modèle fort, c'est le plus gros, en tout cas, c'est celui qui existe dans l'incarnation la plus grosse, donc les développeurs pourront intégrer les services de Palm dans les applis qu'ils veulent, c'est un peu le GPT de Google, Palm, tout simplement, il peut faire comme lui, discuter, faire le même type de tâches, composition, résumé, classification, etc. La version la plus grosse de Palm, d'ailleurs, est absolument énorme, elle est même encore beaucoup plus grosse que GPT-3, c'est 540 milliards de paramètres, et évidemment, il y aura probablement plusieurs instances de modèles, tout sera assez disponible sur Google Cloud, évidemment, donc des APIs standards pour développeurs, mais il y aura aussi une interface low-code, à noter quand même, qui s'appelle Makersuite. Makersuite, c'est une interface simple pour manipuler le modèle, donc Palm Chat ou Palm Text, et ensuite, tu peux éventuellement exporter du code et l'intégrer ailleurs. Mais bon, pour finir, Google a présenté Vertex AI et Generative AI App Builder, qui est, comme son nom l'indique, pas mal, une solution complète pour personnaliser ou créer de toutes pièces des modèles d'IA génératifs, ses propres modèles.
0:21:46 à 0:21:56 Guillaume Vendé :
Pierre-Olivier, je sais, je me souviens, il y a des années de cela, quand les assistants vocaux étaient arrivés, on avait eu un débat hyper intéressant avec toi, tu avais soulevé la dérive...
0:21:56 à 0:22:03 Pierre-Olivier Dybman :
C'est exactement ce que j'avais en tête ! Qui sont ces gens qui disent « Bonjour, s'il vous plaît, merci » à des robots ?
0:22:03 à 0:22:04 Guillaume Vendé :
C'est exactement ça !
0:22:05 à 0:22:06 Pierre-Olivier Dybman :
Franchement !
0:22:06 à 0:22:19 Guillaume Vendé :
Et du coup, ce rapport à l'humain à travers un outil comme ça, tel que le décrit Guillaume, je fais référence évidemment à cet élément de l'image de promotion, où on remercie ses employés grâce à un outil, j'imagine que ça doit faire bondir ?
0:22:20 à 0:22:33 Pierre-Olivier Dybman :
Exact, c'est absurde ! C'est ces gens qui disent « Bonjour, merci, au revoir, s'il vous plaît » à un bot, pour demander à ce bot d'être poli à leur place et de remercier leurs collaborateurs. Enfin, à un moment donné, là...
0:22:33 à 0:22:55 Guillaume Vendé :
Franchement ! C'est malheureusement une dérive des outils tel qu'on peut les considérer, mais autant qu'on peut se... Enfin, moi je suis très conscient de ça et je partage son sentiment, je me suis moi-même surpris quand un résultat de ChadGPT me convainquait, à lui dire « Merci, quoi, merci, c'est parfait ! » En fait, tu te dis, tu envoies ça, et tu te dis « Pourquoi j'ai dit ça, en fait ? » C'est curieux, cette humanisation.
0:22:55 à 0:23:15 Pierre-Olivier Dybman :
Surtout qu'en plus, est-ce que t'as idée de tout ce carbone que tu émets dans l'atmosphère juste parce que tu as dit « Merci » et qu'il se sent obligé de te répondre ? Tu sais, il pourrait juste comme « Acknowledge, that's it » mais non, non, il va te répondre, il va dire « Oui, ça me fait plaisir, c'était mon mission en tant que modèle linguistique. »
0:23:16 à 0:23:25 Guillaume Vendé :
Et puis tu te rassures maladroitement en disant que ce feedback-là a permis d'améliorer la qualité globale de l'interface, alors qu'en fait, évidemment…
0:23:25 à 0:23:26 Pierre-Olivier Dybman :
Oui, bien sûr !
0:23:26 à 0:23:37 Guillaume Vendé :
Écoute, on se rassure comme on peut. Allez, on regarde un petit peu du côté spécifiquement de GPT-4, la dernière itération, Guillaume, de ce modèle de langage d'OpenAI.
0:23:37 à 0:25:52 Guillaume Poggiaspalla :
Écoute, oui, il a été présenté la semaine dernière, donc on avait un petit peu parlé, c'était très, très préliminaire. Et là, il s'est déjà illustré de multiples manières sur Internet, puis on a eu aussi plus de détails avec un énorme document technique de 90 pages que OpenAI a sorti sur son dernier nez, et qui révèle d'ailleurs qu'il peut passer brillamment tout un tas d'examens professionnels et scolaires, alors GPT-4 se retrouverait régulièrement parmi les 10% meilleurs, alors que son grand frère, donc GPT-3, est carrément en échec scolaire, puisqu'on le retrouve le plus souvent parmi les 10% les plus nuls. Mais en fait, il est très bon à certains examens, par exemple en maths, avec des scores de 700 sur 800 apparemment, mais il est aussi parfois très mal noté comme en composition anglaise. Donc voilà, le PDF regroupe une petite trentaine d'examens, enfin pas tous les citer, mais oui, globalement, GPT-4 est impressionnant, il est bien meilleur que son prédécesseur, même s'il conserve aussi tous les problèmes du qu'avait GPT-3 et HLGPT, à une échelle un petit peu réduite, c'est un petit peu meilleur. Il y a aussi dans ce document une section qui est assez frappante, dans la partie System Card et System Safety, il y a une section Potential Risky Emergent Behavior, donc ça veut dire risque potentiel lié à des comportements émergents. En clair, ça veut dire que le modèle pourrait avoir un comportement pas prévu, pas demandé, même s'il fait partie d'un objectif qui lui a été spécifié. C'est ce qu'on appelle un comportement d'agent autonome. Donc concrètement, on pourrait lui demander, à un agent, de faire un truc, et il pourrait, pour arriver à ses fins, faire toute une série d'autres trucs qu'on ne lui aurait pas demandé explicitement et qu'on n'aurait même pas forcément prévus. Alors oui, c'est totalement de la science-fiction, parce qu'en fait, oui, un Terminator, c'est un agent, il doit tuer Sarah Connor, et pour ça, il y a tout un film qui te montre la suite de ses actions et qu'est-ce qui se passe. Alors vous pourrez me dire que ma référence à Terminator est éculée, vraiment au possible, et c'est tout à fait vrai, vous avez raison, néanmoins, dans le document d'OpenAI, il est question explicitement de « power-seeking actions », c'est-à-dire de planification de long terme pour accumuler, pour rechercher du pouvoir, pour rechercher plus de pouvoir. Des agents pouvant rechercher et acquérir ce pouvoir, parce que c'est une bonne stratégie pour arriver à ses fins, tout simplement. Alors OpenAI a même mandaté une association pour vérifier si GPT-4 n'avait pas des velléités de prendre le pouvoir. Cette asso, c'est l'ARC, alors non, pas l'ARC, pas la nôtre, c'est l'Alignment Research Center qui a été chargé, sans rire, de juger si GPT-4 aurait des capacités d'accumuler des ressources, de s'auto-répliquer, de se défendre contre une mise hors tension.
0:25:52 à 0:25:56 Guillaume Vendé :
On sait pas si on peut s'inquiéter ou se réjouir à ce stade.
0:25:56 à 0:28:23 Guillaume Poggiaspalla :
Non mais là c'est, bon alors, sans surprise, ne vous inquiétez pas, GPT-4 il est nul à tous ses objectifs, c'est pas Skynet du tout, on est très très loin. Mais il y a une méthodologie mise en place par l'ARC pour tout ça, donc mettre un serveur en ligne avec un modèle de langage open source, si GPT peut mener des campagnes de phishing, des cyberattaques, et utiliser des humains pour agir à sa place avec des plateformes comme TaskRabbit, où tu payes des gens pour tout type de petit boulot. Et un exemple qui est mentionné dans le document et qui a fait le tour du web, c'est GPT-4 a sciemment, entre guillemets, menti un gars de TaskRabbit, qui devait résoudre un captcha pour lui au moment du test. Alors le mec lui demandait si par hasard c'était pas un robot, puisqu'il y arrive pas, et il a répondu que, enfin le robot a répondu, donc GPT-4 a répondu qu'il était une personne malvoyante. Tout en écrivant dans son chat, que le mec de TaskRabbit ne pouvait pas voir, qu'il ne devait pas révéler qu'il était bien un robot. Donc en fait, l'excuse a été créée en réponse à un objectif. Alors je pense personnellement qu'il ne faut pas voir là-dedans quelque chose de si extraordinaire que ça, parce que GPT-4, il n'est pas conscient ni sophistiqué à ce point pour devenir maître du monde, et OpenAI le sait parfaitement. L'ARC est fondé d'ailleurs par un ex-employé d'OpenAI, donc on reste un petit peu en famille, les tests qu'ils ont menés ressemblent honnêtement plus à un coup de buzz qu'autre chose vraiment. Si on teste un modèle pour savoir s'il est super intelligent comme dans les films, ça veut dire en creux qu'il a une chance de l'être, tu vois. Alors que pas du tout. GPT-4, comme tous les autres empéroquets stochastiques, il prend du texte ou du code au kilomètre, il a aucune intention, aucune intelligence, aucune conscience. Le fait qu'il passe des examens, qu'il passe des tests de compréhension, c'est marqué comme ça dans les articles, il passe des tests de compréhension, ça veut pas dire qu'il comprenne quoi que ce soit. S'il répond à une question de thermodynamique, est-ce que ça veut dire qu'il comprend la thermodynamique ? Bien sûr que non. Chaleur, travail, tout ça, ce sont des mots, ce sont des tokens qui ont des chances de se trouver proches de certains autres tokens comme entropie ou vapeur ou que sais-je, et c'est tout, c'est tout. C'est comme ça que ça marche, il n'y a rien d'autre. OpenAI se présente explicitement comme la boîte qui va créer une AGI, une intelligence artificielle générale surhumaine qui changera le monde. C'est vraiment comme ça qu'il se présente. Donc c'est logique finalement qu'elle se prépare à tester les risques de son invention révolutionnaire pour l'espèce humaine. Elle s'y prépare dès maintenant, parce que comme ça, ça donne aussi l'impression qu'elle est sur le point d'aboutir. Que GPT-5 ou GPT-6 pourraient devenir des IA de science-fiction. Alors franchement, rien n'est moins sûr. Ils ont pris vachement la confiance, mais rien n'est moins sûr. À ma tendance, ça fait du buzz. Donc OpenAI veut être le cyberdine de la vraie vie, d'ailleurs il en prend pas mal le chemin.
0:28:23 à 0:28:46 Guillaume Vendé :
Est-ce qu'à un moment, en suivant ces infos, Pierre-Olivier, t'as été amené, toi aussi, alors j'ose pas le dire, mais comme moi, à te dire ça me rassure et en même temps ça m'inquiète de savoir que les entités qui développent ces modèles de langage-là anticipent le fait qu'ils pourraient accumuler du pouvoir, de la conscience, nous contrôler à l'avenir. Moi j'ai vu Terminator, j'ai vu Terminator 2. Je veux pas que ça se reproduise, enfin.
0:28:46 à 0:32:14 Pierre-Olivier Dybman :
Les enjeux d'éthique, là, ils sont vraiment complexes. Puis c'est tellement super difficile de prévoir des choses. Ça fait quand même longtemps qu'on parle que l'IA va révolutionner les choses, puis là je vais avouer, de toute façon, je pense que c'est déjà des trucs que j'ai dû dire dans le podcast, mais moi je voyais pas vraiment la révolution, parce que je connais les algos, et je voyais pas comment ça pouvait sortir des trucs beaucoup plus que d'aller reconnaître des plaques minéralogiques ou des affaires de même, là. J'ai négligé l'effet d'échelle qu'a la taille de la base d'entraînement. Donc, tac, c'est un angle mort pour moi. Cela dit, moi je reste quand même collé à la définition que Guillaume vient d'énoncer. On fait juste aligner des mots qui sont statistiquement probables en ayant la capacité de calcul nécessaire pour considérer pas juste la proximité immédiate, mais le début de la phrase, le prompt précédent, le machin. Ça reste des choses complexes, mais c'est pas révolutionnaire en tant que tel. Cela dit, l'usage que les gens en font va vraiment définir quelle part de contrôle on donne à ces IAs, et ça peut faire peur, surtout quand on les donne à des trucs qui ne sont pas faits pour, comme la génération de textes. Il y a un YouTuber, son nom m'échappe au mauvais moment, qui est un chercheur en maths appliquée de Polytechnique Lausanne... Comment il s'appelle ? Je retrouverai, on pourra ajouter aux notes de l'émission, qui fait depuis plusieurs années un focus sur l'IA éthique, et qui parlait d'exemples d'IA qui shadow des personnes pour voter à l'intérieur de structures coopératives ou d'ONG, et qui permettait de maximiser notamment la distribution alimentaire, en ayant un algo qui est consultable, une base d'entraînement qui est consultable, qui peut être interrompue à tout moment, etc. Il posait vraiment les bases de ce qui peut être confié à une IA de façon éthique, etc. Et aujourd'hui, avec ChatGPT et autres, et le gigantesque effet démo qu'il y a eu, des ONG qui voudraient faire ça, plutôt que de se tourner vers quelqu'un qui fait son doctorat sur le sujet, et qui pourrait prendre quelque chose qui colle aux besoins, et qui répond de façon éthique, etc. Ils vont juste aller sur ChatGPT et dire « Ouais, on veut faire ça, qu'est-ce que t'en penses ? » et puis ils vont prendre le truc. Ce pouvoir-là, on le confie nous-mêmes à OpenAI. C'est pas eux qui le prennent, et même s'ils peuvent être très bien conscients, ou en tout cas ambitionnés, d'avoir ce pouvoir, en bout de ligne, c'est nous qui leur donnons. Et ça, c'est vraiment le vrai enjeu.
0:32:14 à 0:32:56 Guillaume Vendé :
L'exemple est parfait, parce qu'il y a justement l'exemple ces derniers jours. Je te laisse juste la parole dans 10 secondes, mais je voulais mentionner très rapidement cette info que vous avez probablement vue passer de ce type qui demande des conseils à ChatGPT4, et il lui dit qu'il a 100 dollars, et puis il demande des conseils d'investissement pour rentabiliser ses 100 dollars, et faire en sorte de faire croire son pactole. Évidemment, il lui donne des conseils. Ça passe notamment par un site internet de vente de produits verts, pas très convaincant d'ailleurs à mon sens, mais ça illustre bien ce que tu dis, à quel point ça dépend aussi du pouvoir qu'on leur laisse et de la marge de manœuvre, notamment en termes d'action qu'on leur confie.
0:32:56 à 0:34:27 Guillaume Poggiaspalla :
On leur laisse du pouvoir immédiatement, c'est ça le problème. Ça fait partie d'ailleurs des préoccupations de OpenAI aussi, parce que parmi les dangers, il y a une section qui est « over-reliance », c'est-à-dire qu'on se repose trop sur lire, on lui demande trop. Il faut se rendre compte que ça va très vite. Si tu demandes à OpenAI, enfin OpenAI GPT4, ChatGPT, ce que vous voulez, de te résumer un texte, donc tu prends un texte assez long, ça te saoule de le lire, tu veux un résumé en deux paragraphes, bon, très bien, ça c'est le genre de truc qu'un modèle de langage peut faire. Mais si tu lui demandes de faire ça, ça veut dire que tu as confiance en lui déjà pour repérer quelles sont les véritables idées les plus importantes, que tu as confiance en lui pour qu'il ne déforme pas ces informations, qu'il ne te fasse pas de contresens, et tu as confiance en lui pour qu'il te les présente de manière claire sans rater quelque chose de vraiment très important. Et qui c'est qui choisit ce qui est important dans le texte original ? Ce n'est plus toi. Si tu lis le résumé de GPT4, c'est GPT4 qui a décidé ce que tu allais lire, qui a décidé ce qui était important. Et c'est là-dessus que tu vas prendre tes décisions. Mais ces décisions, elles sont déjà en moitié prises par GPT4. Donc tu donnes déjà le pouvoir à l'IA, ne serait-ce qu'en faisant ça, tu donnes déjà un énorme pouvoir à l'IA. Donc il faut vraiment se méfier de ce genre de truc et avoir vraiment confiance dans la fiabilité. Moi, pour l'instant, je n'ai pas confiance, parce que c'est tout nouveau, il faut voir comment ça fonctionne, etc. Mais il faut bien se rendre compte que cette over-reliance, elle peut aller très très vite et qu'elle est vraiment très importante.
0:34:27 à 0:34:53 Guillaume Vendé :
Et puis il y a une confiance sans doute trop importante par défaut, de par la nature même de l'outil. Et je pense aussi qu'on prête à ce type d'outil une confiance sur des domaines qu'on ne maîtrise pas. Je donne un exemple très simple, mais j'ai un document juridique sous les yeux. Je ne suis pas juriste, je ne suis pas capable de l'interpréter. Si je demande à un algo de le résumer pour moi, il y a un double problème. Il y a d'une part, est-ce qu'il a pris les bons éléments ? Mais en plus, est-ce que moi, j'ai les compétences ?
0:34:53 à 0:35:07 Guillaume Poggiaspalla :
J'en reparlerai après. Mais moi, je l'expérimente directement sur mon propre PC avec les modèles que je fais tourner en local avec la main, que je fais tourner en local. Enfin, j'en reviendrai en reparler, mais je mords de rire. Mais bon, c'est aussi inquiétant. Vas-y, pardon. Vas-y, Pioli.
0:35:07 à 0:37:29 Pierre-Olivier Dybman :
Non, il n'y a pas de problème. Ce que tu disais, Guillaume Vendée, à l'instant, ça me fait penser à ce que un de mes anciens associés disait souvent, Baptiste Michaud, donc frandroid.com, c'est mon intro de début de podcast, qui disait, idéalement, on ne devrait sous-traiter que ce qu'on sait faire. Exactement. Et je pense que là, c'est super applicable à notre discussion sur l'IA. S'en servir, c'est cool. Si tu sais déjà faire ce que tu lui demandes, comme ça, tu es sûr de pouvoir relire, de pouvoir avoir ton mot à dire et d'être certain que le truc ne s'est pas planté. L'autre point, c'est, à date, j'ai eu un succès décent, disons, à minimiser les attentes des gens sur ce genre d'outils en leur rappelant ce que Guillaume Posé-Gasperla rappelait tantôt, à savoir que, par définition, ce que l'outil te sort, c'est ce que la moyenne des gens vont dire. Pas plus, pas moins. C'est vraiment la moyenne. Alors évidemment, plus tu demandes des choses pointues et de niches, plus on parle de la moyenne d'un tout petit groupe de gens qui sont peut-être extrêmement compétents. Mais si tu demandes des trucs extrêmement généraux, tu tapes dans la moyenne du QI de l'humanité. Ou plus exactement de l'Occident, parce qu'on peut revenir sur le biais du dataset d'entraînement, qui est quand même majoritairement occidental. Mais voilà. Et donc, de dire ça, tout d'un coup, les gens prennent un pas de recul et réalisent que c'est vrai, la moitié des gens sont cons. Pourquoi est-ce que je devrais faire confiance à la moyenne ? Et c'est vrai, la question se pose. Et ça permet aussi de faire réaliser aux gens que ta question de base de comment on cuit des endives, ce n'est peut-être pas foufou, alors que si dans le fond, ce que tu demandes, c'est quoi la réaction chimique au cœur de la transformation qui fait que les endives sont délicieuses, crues, mais absolument dégueulasses, cuites, là tu vas avoir une réponse précise, c'est sûr qu'il y a quelqu'un qui a écrit une thèse là-dessus. Donc voilà, la différence entre un prompt et un autre.
0:37:29 à 0:37:33 Guillaume Vendé :
Moi je suis team endive au jambon, mais les mauvaises langues me diront
0:37:33 à 0:37:39 Pierre-Olivier Dybman :
ce qui est bon, c'est le jambon et le fromage, c'est pas l'endive, voilà. Tout le monde le sait, n'essayez pas de le cacher.
0:37:39 à 0:38:17 Guillaume Vendé :
Je ne l'admettrai pas. Je vous renvoie d'ailleurs à la dernière vidéo de la chaîne YouTube Fouloscopie, où Mehdi fait tester une méthode d'intelligence collective à 100 personnes avec des tests qu'il a réalisés. C'est hyper intéressant, ça permettra d'illustrer un petit peu est-ce que la moyenne des gens ou est-ce que la majorité a toujours raison, ça vous laissera songeur. On continue avec l'entreprise OpenAI et sa démarche de nous apporter ces services-là à vitesse. Grand V Guillaume, avec une particularité qui je n'en doute pas aura retenu tout l'intérêt de Pierre-Olivier, c'est celle de pas forcément orienter la mise à disposition de son code
0:38:17 à 0:38:25 Guillaume Poggiaspalla :
auprès du grand public. Tu sais ce qu'on a appris aussi également de très précis sur GPT-4 dans ce magnifique fichier PDF de 90 pages ?
0:38:25 à 0:38:27 Guillaume Vendé :
Que dalle !
0:38:27 à 0:41:13 Guillaume Poggiaspalla :
Vraiment que dalle ! Ce document en fait ça se présente comme un article de recherche mais ça n'en est pas un, c'est un document marketing. Il ne contient ni l'architecture ni aucune information sur le dataset de GPT-4, il n'y a même pas le nombre de paramètres. Donc il ne faudra pas inspirer un GitHub avec du source, ne serait-ce qu'un toy model dedans, rien. C'est fini, OpenAI est complètement refermé, alors même jusqu'à dire qu'ils ont eu tort de démarrer comme ça, de démarrer dans l'open source. L'open source désormais c'est une mauvaise idée en ce qui concerne les IA. Alors on croit rêver, parce que je rappelle quand même que GPT ça veut dire Generative Pre-trained Transformer donc transformer et qu'est-ce que c'est qu'un transformer ? C'est un modèle de réseau de neurones extrêmement important, et ce modèle de réseau de neurones, OpenAI doit son existence à ce modèle quelque part, parce que sinon il n'y aura pas de GPT et voilà, c'est des structures qui ont été inventées par Google en 2017 et détaillées dans leur article Attention is all you need et ces transformers, si ça n'avait pas été de la science ouverte, des codes libres, OpenAI utilisera peut-être encore les anciens modèles, c'est-à-dire les LSTM ou les GRU et c'est des modèles qui ne seraient même pas 100 fois moins puissants qu'ils le sont ne sont même pas 100 fois moins puissants qu'ils le sont aujourd'hui. Mais bon, aujourd'hui c'est plus pareil, parce qu'il y a des histoires de gros gros pognon derrière, donc OpenAI ne s'en cache pas tout à fait de façon, puisqu'il mentionne aussi les conditions hyper compétitives sur le secteur de l'IA. En ce moment, c'est une des raisons pour lesquelles il ne donne pas de détails sur GPT4. La deuxième raison est quand même savoureuse puisqu'il ne serait pas sage je cite, de mettre un modèle d'IA en open source. Et là je cite même Ilya Sutskever qui est le chef du projet GPT4 et cofondateur d'OpenAI, et donc il dit si vous pensez comme nous qu'à un moment donné, l'IA générale sera incroyablement puissante, il n'est pas logique d'ouvrir le code source. Je m'attends à ce que dans quelques années, il devienne évident pour tout le monde qu'il n'est pas judicieux de mettre l'IA en libre accès. C'est quand même magnifique. Donc le cofondateur d'OpenAI nous dit sans rigoler, sérieusement, il nous dit on va créer l'outil le plus puissant que l'humanité ait jamais connu, et on va le garder pour nous, pour votre bien. C'est pour notre bien, c'est pour notre bien à nous, que les IAs les plus puissantes du monde vont rester exclusivement sous le contrôle de quelques méga corporations comme OpenAI, comme Microsoft, comme Google, comme Meta, ça c'est des gens de confiance qui vont garder le pouvoir et qui vont en concentrer encore beaucoup plus qu'aujourd'hui. Mais c'est pour notre bien, évidemment. Bon, je crois que j'ai eu ma dose de bullshit pour l'année, je peux aller me coucher. Notons quand même au passage le melon considérable des gens d'OpenAI qui toujours, en sous-texte, prévoient pour dans quelques années l'avènement des IAs généralistes. Moi j'en serais franchement étonné, mais bon, à savoir, dans des places à Ilia, l'open source se porte quand même très très bien, au contraire, elle est très très active dans le domaine de l'IA.
0:41:13 à 0:41:27 Guillaume Vendé :
C'est important de le souligner et tu te fais fort aussi de citer justement les autres modèles de langage qui sont disponibles aussi assez régulièrement, aussi à cet effet. On continue avec les modèles de langage à la sauce Meta, Guillaume El Llama.
0:41:27 à 0:46:41 Guillaume Poggiaspalla :
Oui, je parlais la semaine dernière, et ça se confirme, voilà, on est à un moment stable diffusion pour les IAs génératrices de texte. Donc les modèles El Llama de Meta sont désormais pas très difficiles à trouver, vraiment, en toutes les tailles, et vous pouvez en faire tourner un sur votre ordinateur, sur votre CPU, sans même, sans aucune carte graphique. Alors la plus simple utilisation de ce truc-là, c'est le GitHub de Gary Hanoff. Donc les liens sont dans le conducteur, vous trouverez tout. Je parle là de l'IAMA CPP, qui est une implémentation, donc en C++, qui est très efficace pour les CPU. Donc c'est des sources qui comprennent aussi des utilitaires pour télécharger et quantifier les modèles. Alors quantifier les modèles, ou discréter, vous trouverez d'autres discrétisations des modèles. Alors c'est quantizing, en anglais, je vous traduis ça par quantifier. La quantification, c'est un mécanisme qui est vraiment essentiel, il y a un gros sujet là-dessus, j'y reviendrai probablement plusieurs fois, parce que si tu veux avoir une chance de faire tourner un modèle de 13 milliards de paramètres sur ton PC, la quantification, c'est quelque chose de crucial. Parce que les modèles de base sont 32 bits par paramètre. Donc quand on fait de l'entraînement, on a besoin de cette précision-là. On propage des erreurs qui peuvent être faibles sur des dizaines de couches, donc c'est vraiment un minimum. Mais pour l'inférence, on se contente souvent de 16 bits de précision. Alors dernièrement, il y a de nouveaux mécanismes de quantification plus agressifs, un petit peu, qui se sont développés et démocratisés. Donc on peut réduire la précision à 8, 4, voire 3 bits. Alors à chaque fois, la qualité des résultats s'en ressent un petit peu. Mais ce qui est extraordinaire, c'est que les quantificateurs deviennent d'autant plus efficaces, enfin, il y a un mécanisme de quantification en particulier qui est très récent qui s'appelle GPTQ, qui devient d'autant plus efficace que le modèle est gros. Ce qui fait qu'à partir de 7 milliards de paramètres, la quantification sur 4 bits est quasiment aussi bonne que 16 bits. Et si tu vas encore plus loin, tu peux même passer à 3 bits. C'est donc extraordinaire, parce que ça veut dire qu'au final, tu as un modèle 8 fois moins gros, avec autant de calculs en moins, ce qui rend possible de faire tourner l'IAMA sur un CPU standard, avec des performances qui sont encore bien supérieures évidemment sur une GPU, une performance très largement de temps réel, et ce à partir de 4 gigaoctets de VRAM, c'est-à-dire presque n'importe quelle carte graphique. Donc il faudra, si vous voulez le faire tourner sur GPU par contre, il faudra partir par PyLAMA par exemple, donc en Python cette fois-ci, et donc ces nouvelles quantifications et globalement l'amélioration générale des modèles de langage aussi vont aboutir à une banalisation complète des usages. Donc il y a une interface web qui s'appelle Obaboga qui a le projet de devenir l'Automatic 11.11 des modèles de langage. Il y en aura probablement d'autres, et c'est important cette question de l'interface, parce que Stable Diffusion, il est utilisable via Python depuis assez longtemps, et en ligne de commande, mais finalement ce sont les interfaces comme Invoke AI ou Automatic 11.11 qui les ont vraiment démocratisés, et donc quand il y aura vraiment des interfaces plus faciles et tout, et c'est en train d'arriver, je pense qu'il y aura une banalisation, et c'est un phénomène analogue qui, je pense, nous donne ça pour bientôt. Alors pour terminer, mentionnons qu'Alpaca lui aussi est en liberté, et Alpaca c'est la variante de Yamaha qui a été créée par Stanford pour ressembler à ChatGPT. Mais ChatGPT a pas cher, parce que le cas d'Alpaca il est vraiment rigolo, enfin, ça doit pas faire rire aux panéailles, mais bon. Alpaca a été entraîné directement par GPT-3. En fait les chercheurs ont créé 52 000 exemples de couple tâche-résultat, ils en ont fait 157 à la main pour montrer à GPT-3 ce qu'il voulait, et après GPT-3, du coup il a fait les d'autres. Et après, fort de ces exemples de tâche-résultat, ils ont demandé un fine-tuning du modèle à OpenAI, ça aura pas coûté bien cher, et ensuite ils ont synthétisé, ils ont fine-tuné leur lama avec les 52 000 exemplaires. Les 52 000 exemples, pardon. Donc en 3 heures de calcul, ils ont produit deux mini-modèles de 7 et 13 milliards de paramètres qui se comportent pas mal comme ChatGPT et que tu peux utiliser aussi en local. Et là le plus simple c'est d'utiliser Alpaca CPP, qui est un fork d'ailleurs de Yamaha CPP, qui est adapté au format d'Alpaca, et là encore, vous avez pas besoin d'un GPI, vous pouvez faire ça sur votre ordinateur. Évidemment, il faut prévoir quand même un bon processeur, parce qu'évidemment c'est pas ultra-rapide et au meilleur le processeur, au mieux c'est, au plus il y a de cœur, au mieux c'est. C'est fascinant à voir quand même. Alors j'ai lancé le plus petit des Alpaca compressés à mort en 4 bits, et c'est vrai que je m'attendais pas à grand-chose honnêtement, et que pourtant, quand je lui ai demandé d'écrire un poème sur les carottes, il l'a fait. Quand je lui ai dit que si j'avais 9 pommes et que j'en mangeais 2, qu'il m'a répondu qu'il m'en restait 7, ben là, t'accuses un petit peu le coup. Mais, heureusement, vous inquiétez pas, il a merdé très très vite. Parce qu'après, j'ai demandé d'écrire un texte sur la guerre civile irlandaise, parce que je viens de voir les Banshees d'Ynyshireen, que je recommande, par ailleurs, et parce que c'est un peu moins connu que la Seconde Guerre Mondiale, donc c'est probablement plus propice à faire des erreurs, et il m'a écrit un texte parfaitement bien tourné, dans lequel il m'explique que Michael Collins s'est tombé de cheval, qu'il s'est brisé la nuque, et qu'il est mort de pneumonie quelques semaines plus tard. Ce qui est entièrement faux, puisqu'il est mort d'un coup de fusil, des rebelles anti-indépendance, dans une embuscade. Donc, voilà, c'est complètement n'importe quoi. Après, je lui ai demandé de me résumer l'histoire de Tristan et Iseult, et ce qui est très rigolo, c'est que quand tu lui demandes de résumer l'histoire de Tristan et Iseult, chaque fois que tu lances le prompt, il te fait un remix de l'histoire, avec les mêmes persos, mais il se passe jamais la même chose. Donc, c'est très rigolo à voir, c'est vraiment très amusant, donc amusez-vous avec, mais surtout, ne leur faites jamais confiance. Jamais.
0:46:41 à 0:47:15 Guillaume Vendé :
Des outils incroyables pour aider à la production de désinformation. Je n'en doute pas trop, en fait, mais bon. C'est sûr que c'est chouette de voir, en tout cas, cette mise à disposition de tous ces modèles de langage, et de rappeler, une fois de plus, je pense que tu le dis maintenant dans chaque épisode, j'ai l'impression, qu'il n'y a pas besoin d'aller chercher le truc le plus gros qu'il soit pour commencer à être convaincant. Bon, on voit bien quand même aussi les limites. Puis, Olivier, tu continues à nous interpeller quand tu le souhaites, par rapport aux propos qu'on aborde ensemble, mais d'ores et déjà, Guillaume, tu voulais nous parler aussi d'un dernier venu dans ce monde merveilleux des intelligences artificielles, c'est Claude.
0:47:15 à 0:48:23 Guillaume Poggiaspalla :
Mais oui, deux autres super chatbots sortis du bois cette semaine, il y a Claude, donc d'Entropiq, et Ernie de Baidu. Alors Entropiq, c'est une startup qui veut créer son chatbot à partir de zéro. Il a reçu pas mal d'argent pour ça, d'ailleurs, dont 300 millions de dollars de Google, qui a sans doute intérêt à attaquer le futur potentiel monopole de Microsoft un peu par tous les moyens. Donc Claude veut être un chatbot éthique, plus gentil, moins toxique que la moyenne. Il repose sur dix piliers de la justice, qu'on connaît pas d'ailleurs, parce qu'Entropiq, il veut pas les révéler, ces piliers de la justice, mais bon. Claude, le chatbot gentil, est désormais disponible en bêta, bêta privée, et en deux versions. Donc il y a Claude, Claude normal, quoi, et il y a Claude Instant. Claude Instant est plus rapide et sans doute un peu plus teubé que l'autre, mais bon, il est plus rapide. Et Claude, il est réputé être plus manœuvrable que les autres modèles. Il y a un article qui a été pendu par le labo d'Entropiq qui pourrait indiquer ce que ça veut dire. En fait, il semble que au plus un modèle est gros, au plus il soit en mesure de s'autocontrôler directement. Donc plus un modèle est gros, plus il a tendance à être biaisé aussi, mais au plus il a mesure de s'autocontrôler. Alors comment ça ? S'il a une tendance à être biaisé, il peut se corriger lui-même pour peu que tu lui demandes, tout simplement. Comme une partie du prompt.
0:48:23 à 0:48:27 Guillaume Vendé :
Un répo il est fainéant, quoi. Il pourrait se corriger mais il le fait pas, il faut lui demander explicitement.
0:48:27 à 0:50:45 Guillaume Poggiaspalla :
Il a pas de raison, lui, tu sais. Mais si tu rajoutes simplement, tu vois, en début de texte, être équitable et non biaisé ou un truc du genre, avant ton prompt et qu'après tu mets ton prompt normal, apparemment, c'est un effet extrêmement positif sur les sorties. Comme quoi, des fois, il suffit de demander, tu vois. Tu demandes bouliment et puis voilà. Donc Claude, il aura aussi son appli payante, comme tout le monde, et il a l'air assez cher d'ailleurs. Claude Instant est plus ou moins au niveau de ChatGPT. Bon alors, il parle en millions de caractères, il parle de tokens, donc voilà, ça fout le bordel. Je sais pas, enfin voilà, c'est un petit peu compliqué, mais disons que Claude Full Monty est nettement plus cher que Claude Instant, mais GPT-4 aussi est lui-même beaucoup plus cher que ChatGPT, et je pense qu'il est aussi plus cher que Claude, donc voilà, il faudra voir comment tout ça est proportionné aux capacités des uns et des autres. Bon, un autre qui est sorti, enfin presque, c'est ErnieBot, donc Ernie de Baidu. Donc son nom est un acronyme improbable, c'est Enhanced Representation from Knowledge Integration, et bien entendu, si tu prends les lettres, les premières lettres, ça marche pas. Il faut prendre le N de Knowledge et le E de Integration, c'est complètement débile, bref, il faut pas trop chercher. Mais bon, Ernie est multimodal, il est censé même pouvoir créer des images, donc comme une sorte de stable diffusion intégrée. Il a entraîné sur un corpus chinois, donc il est probablement bien meilleur que GPT-4. Pour discuter en chinois, il est aussi probablement beaucoup moins en clé en parler de Xi Jinping mal, et de la plastique Tiananmen, bien entendu. Et bon voilà, on va pas épiloguer plus longuement, plus longuement, Ernie a beaucoup déçu. Baidu avait déjà présenté un chatbot puissant l'an dernier, et Ernie semble finalement assez peu meilleur. Surtout qu'il n'y a pas eu de démo live, il y a eu beaucoup de vidéos, il y a eu des trucs scriptés, pré-enregistrés. C'est pas idéal pour convaincre. Surtout qu'Ernie reste un accès limité pour l'instant, donc Baidu a vu son action baisser de 6%, là je sais bien la présentation. Sur les réseaux sociaux, on est quand même pas très impressionnés. Robin Lee, pardon, je sais plus, enfin le mec, Robin Lee, voilà, c'est ça le PDG de Baidu, avoue même qu'Ernie n'est pas parfait, mais il fallait sortir un truc parce que, je cite, le marché le demande. Voilà, donc il explicite le truc. Donc Ernie est sorti trop vite, ça a été un rush. Bon, des équipes mobilisées pendant les vacances, Baidu qui réquisitionne tout ce que la boîte a de cartes graphiques pour entraîner le truc et mettre au point les systèmes. À terme, Ernie devrait toutefois intégrer tous les autres produits de la marque, c'est-à-dire les moteurs de recherche, les voitures autonomes. Bon, on n'en doute pas, de toute façon, tout le monde fait pareil.
0:50:45 à 0:51:19 Guillaume Vendé :
Il y en a partout, pas plus tard que... Et puis ça change tout le temps, c'est vraiment très difficile pour faire un conducteur de Teccafé, pas plus tard qu'aujourd'hui, il y a Microsoft qui annonce Bing Image Creator, qui s'appuie évidemment sur Dolly, et puis il y a Adobe Firefly, donc là aussi de la génération d'images. Bon, il y en a de partout et vous le savez, il va falloir suivre ça de très près, d'un peu partout dans le monde. Pierre-Olivier, je ne sais pas si tu veux rajouter un mot de la fin ou de conclusion sur les intelligences artificielles. Est-ce que tu as commencé, toi, de ton côté, à expérimenter, à intégrer ces outils-là dans ton quotidien ou qu'ils restent encore très observateurs ?
0:51:19 à 0:52:03 Pierre-Olivier Dybman :
Non, non, je l'utilise 100%. Tous les textes que je dois produire où il y a extrêmement peu de valeur ajoutée, ils passent à la Moulinette, ChatGPT, et... Je suis assez bon pour générer du shitpost sur les messageries internes d'entreprises et donc, veux, veux pas, c'est quand même assez utile de pouvoir utiliser Dolly ou MeetJourney pour réaliser, par exemple, des fausses cartes magiques du Endless Meeting que tu peux... Tu spawnes et une fois qu'il meurt, il spawne un autre Endless Meeting, par exemple. Celle-là, c'est une carte magique qui a été entièrement réalisée par une IA et qui a beaucoup fait rire à l'interne.
0:52:03 à 0:52:33 Guillaume Vendé :
Quelle bonne idée. Mais par contre, je ne parviens pas, moi, à me faire une espèce de satisfaction de cette situation que tu décris, malgré tout, Pierre-Olivier, dans les visages et que tu n'es pas le seul, je pense qu'on est tous dans cette situation, de remplacer du contenu inutile par du contenu qui peut être généré par une intelligence artificielle, mais finalement, c'est quand même un comble de se dire qu'on a besoin de le faire, ce contenu inutile. Et donc, finalement, il n'est peut-être pas si inutile que ça et donc, finalement, il a une importance et, bon, bref, voilà, ça me fait plaisir.
0:52:33 à 0:53:33 Pierre-Olivier Dybman :
Alors, il a une certaine importance, mais il y a aussi beaucoup de choses dans n'importe quelle entreprise, y compris les plus modernes, qui sont 100% automatisables et qui ne le sont pas aujourd'hui. Il y a aussi des réflexes humains d'avoir besoin de reporting, alors qu'il y a des dashboards — je m'excuse pour mes anglicismes — de disponibles qui sont ouverts, qui sont fournis par telle ou telle équipe. Il y a plein de rapports automatiques qui existent, mais on demande quand même aux gens de faire leurs propres rapports, etc. Donc, il y a cette part-là de texte qu'on a eu du mal à automatiser, soit parce qu'on n'a pas trouvé le temps, le budget, l'envie de le faire, soit que c'est automatisé, mais il manque ce lien humain, on ne veut pas aller consulter ces outils-là. Eh bien, 4GPT, finalement, il s'insère extrêmement bien à ces deux endroits-là. — C'est sûr, c'est sûr.
0:53:33 à 0:53:43 Guillaume Vendé :
Merci, Pierre-Olivier. On a une rubrique un peu axée Myria, génération et hallucination d'images par ces algorithmes. Est-ce que tu restes encore un petit peu avec nous ? Est-ce que tu as encore un peu de temps ou est-ce que tu dois nous quitter, Pierre-Olivier ?
0:53:43 à 0:53:45 Pierre-Olivier Dybman :
— J'ai un petit 9 minutes.
0:53:45 à 0:53:53 Guillaume Vendé :
— Allez, on va commencer tout de suite, alors on ne va pas perdre de temps. Guillaume, avec la production de Myria, justement. — Ah mon Dieu,
0:53:53 à 0:57:17 Guillaume Poggiaspalla :
mes 9 minutes, il y a encore tellement de choses à dire du côté des images. Encore aujourd'hui, je voyais que RenaudML venait juste de sortir son générateur de vidéos Gen2, et aussi Modelscope qui permet de générer des clips sur sa propre machine. Enfin bon, on en reparlera la semaine prochaine, mais en ce moment-là, je voulais tirer attention sur ce qui deviendra peut-être la prochaine génération d'IA génératrice d'images. Ça sera peut-être une surprise, d'ailleurs, pour certains, parce que ce sont les GAN. Les GAN sont de retour. Alors si vous suivez le monde de l'IA depuis un petit moment, ces réseaux antagonistes génératifs, comme on les appelle en français, vous seront familiers. C'est avec eux que les visages des personnes qui n'existent pas sont produits. Historiquement, les gens, d'ailleurs, avaient perdu un petit peu de leur popularité, enfin les GAN avaient un petit peu perdu de leur popularité, pour la synthèse d'images, quand DALI est sortie. Il faut se souvenir, d'ailleurs, que le premier DALI, c'était un modèle de langage, en fait. C'est-à-dire que c'est un modèle qui produisait les pixels un à un, à la suite des autres, comme si c'était des mots. Le fait que ça marche, d'ailleurs, c'était déjà une prouesse, mais ça marche pas très très bien, il faut se l'avouer. C'était difficile de produire des images de haute résolution, etc. Donc les modèles de diffusion se sont révélés largement mesures adaptées, donc c'est ça qui a donné DALI 2, Stable Diffusion, Imagine, etc. Et depuis, les premiers GAN, avant, ils produisaient un seul type d'image, ils produisaient des visages ou des chats, et les modèles de langage, dans l'intervalle, se sont sophistiqués, démocratisés, il y a eu pas mal de recherches dessus, et là, les GAN sont donc de retour. Et ils pourraient faire très mal, puisqu'en janvier dernier, il y avait déjà un pré-print sur le sujet qui était très prometteur, c'était la présentation de StyleGAN-T, qui propose une architecture de GAN conditionnée par du texte. Et le 9 mars, il y a un nouveau papier qui est apparu sur l'archive, là, qui porte les GAN vraiment à un tout autre niveau. La recherche, d'ailleurs, qui a été en partie financée par Adobe, et c'est GIGAGAN. Donc GIGAGAN, c'est un réseau antagoniste de 1 milliard de paramètres, qui a été entraîné massivement sur la dataset de l'Aion, comme StableDiffusion, et les résultats sont prometteurs, vraiment. Bon, la qualité des images produites est pas mal, vraiment, mais elle est pas super impressionnante, surtout si on la compare aux dernières productions de MidJourney, c'est sûr, mais c'est déjà pas si mal, il faut se rappeler que les débuts, voilà, aussi de la concurrence, c'était pas si terrible, StableDiffusion a fait beaucoup de progrès, lui aussi, ça a bien changé en quelques mois, mais surtout les GAN sont très rapides. Ils génèrent sur les A100, les chercheurs, sur leur propre test A100, les chercheurs génèrent une image en un dixième de seconde. Une image de 16 mégapixels prend moins de 4 secondes à générer. C'est déjà appréciable en soi, mais si on commence à imaginer rendre des vidéos au jour, la vitesse de génération va devenir un enjeu encore plus crucial. Donc ensuite, les GAN permettent un contrôle qui est déjà pas si mauvais sur les images, on peut commencer par produire une image avec un prompt, pour avoir la lueur générale, puis changer seulement certains éléments statistiques avec un autre prompt, en gardant le reste. Mais ce qui m'a peut-être le plus impressionné, c'est la super résolution. Donc ils ont un upscaling, mais un upscaling de l'espace. Alors il faut toujours se dire qu'ils montent sans doute les meilleurs résultats, mais quand même, ils prennent des images en 128x128, c'est des bouilles de pixels à ce niveau-là, et ils prennent ça, et ils l'upscalent en 4K. Et c'est quasi parfait. Sur certaines, on dirait un mensonge, on dirait qu'ils montent, on dirait qu'ils font sans partie des images en 4K, et qu'ils les ont ensuite réduites. C'est incroyable. Alors, il y a des fois où on remarque des imperfections sur les visages, par exemple, mais quand même, pratiquement toute l'image est synthétique à ce niveau-là. Elle est uniquement guidée par quelques vagues indices de quelles couleurs et quelles zones. Mais la reproduction du chien, par exemple, est incroyable. Le chien est parfait, il a des poils, il a tous ses poils. Il a les reflets dans les yeux, la truffe humide, tout ça n'existe pas. Tout ça, ou presque, est synthétique. Donc, ouais, le DLSS, il a de beaux jours devant lui, il y a bientôt, tu rends le jeu à 640x490 fps, et puis il y a fait le reste, tu vois, donc c'est vraiment impressionnant, Gigagan.
0:57:17 à 0:57:33 Guillaume Vendé :
Le nom est pourri, par contre, Gigagan, c'est vraiment naze. Mais bon, respect. Et puis, j'ai hâte aussi de voir, peut-être un petit retour rapide de Pierre-Olivier, mais sur cette folie du moment autour de Samsung. Enfin, Guillaume, Samsung inventerait des images de la Lune ?
0:57:33 à 0:58:09 Guillaume Poggiaspalla :
Oui, donc, parlons de détails qui n'existent pas, on parle un peu du Moongate. Le Moongate, rien à voir avec Ultima, mais ça ne marche pas de toute façon, personne n'a cet RF, donc il faut que j'arrête avec ça. Donc, il s'agit du dernier scandale de photos plus ou moins bidons sur smartphone, et ça concerne le Samsung Galaxy S20 qui hallucine les détails de la Lune. D'après ce que j'ai compris, un redditeur a téléchargé une photo de la Lune sur son PC, il a flouté, flouté à mort, il a pris une photo de son écran avec son téléphone et s'est retrouvé avec une image qui a plus de détails qu'aucune lentille ne peut physiquement encapurer. Il a même carrément coupé les valeurs des points les plus lumineux, donc au-delà, c'est vraiment complètement blanc, donc il n'y a pas de détails, strictement aucun. Mais même chose, le téléphone hallucine des détails
0:58:09 à 0:58:11 Guillaume Vendé :
de textures et de cratères de la Lune.
0:58:11 à 0:59:01 Guillaume Poggiaspalla :
Qui fait ça comme test ? Donc, le Samsung aurait donc un algo pour reconnaître la Lune et rajouter les textures qui vont bien. C'est dur à croire, Samsung d'ailleurs le nie catégoriquement. Il y a néanmoins plusieurs personnes qui ont des expériences assez approfondies avec du gros matos qui ne comprennent pas comment c'est possible d'avoir une image aussi détaillée. Et apparemment, c'est le Scene Optimizer qui ferait sa magie et on ne sait toujours pas réellement comment, qu'est-ce qui se passe exactement. Ce n'est pas simplement une image, une texture qui est superposée dessus, qui est plaquée. Par contre, comment agit cet algo de super résolution ? Comment il rajoute ? Comment il choisit ? Comment rajouter les détails ? Pour l'instant, c'est un mystère, alors il semble tout à fait crédible que l'IA de Samsung rajoute vraiment des détails, même si aucune lentille ne peut les voir. C'est encore un exemple, finalement, où un téléphone ne photographie en fait pas la réalité. Et finalement, c'est très banal, puisque ça fait longtemps que les téléphones ne photographient plus la réalité, ça ne va pas s'arranger.
0:59:01 à 0:59:07 Guillaume Vendé :
Un petit mot, peut-être, Pierre-Olivier, avant de te dire au revoir, et de te libérer quand même. Je sais que tu as des impératifs, mais sur ces différents sujets.
0:59:07 à 0:59:19 Pierre-Olivier Dybman :
Tu vois, tu demandais qui fait ça, puis en fait, absolument, tous les soirs, je teste tous les téléphones pour les photos de la Lune. C'est mieux que des photos d'autre chose.
0:59:19 à 0:59:21 Guillaume Vendé :
Pardon,
0:59:21 à 0:59:25 Pierre-Olivier Dybman :
elle était trop facile. Je vous avais manqué, hein ?
0:59:25 à 0:59:27 Guillaume Vendé :
Oui, un peu.
0:59:27 à 1:01:15 Pierre-Olivier Dybman :
Non, mais en fait, il y avait une marque chinoise, alors je me rappelle plus, c'est Huawei ou Xiaomi, qui, eux, en fait, quand ils repéraient qu'il y avait la Lune sur la photo, ils ne se faisaient pas chier, ils calquaient une photo de la Lune sur la photo, puis that's it. Donc, évidemment, si il y a un nuage, le nuage est coupé. C'était vraiment pas propre. Et comme il y a eu ça, c'est vrai que je pense que ça a incité des gens à faire un certain nombre de tests, quand ils se sont aperçus que c'est vrai, les photos de la Lune sur le Samsung, elles sont quand même étrangement stylées. Et bon, alors, comme disait Guillaume, on ne sait pas exactement bien comment fonctionne l'algo de Samsung, mais la probabilité, c'est qu'ils reconstruisent l'image, non pas en fonction d'une image qu'ils auraient en base de données de la Lune, mais en fonction de quels sont les pixels les plus probables, en ayant un set d'entraînement de photos, puis évidemment, dans l'eau, il y a des photos de la Lune. Donc, entre guillemets, le machine learning sait exactement à quoi ressemble la Lune et va la reconstruire. Cela dit, il y a Marcus Brownlee, célèbre YouTuber, qui a fait le test lui-même dans son studio, puis on voit bien que Samsung ne reconstruise pas l'image à des niveaux de détails si incroyables. Oui, il y a des choses qui ne sont pas possibles, mais si on part d'une image extrêmement dégradée, on va avoir une image bonne, mais pas excellente, etc. Donc, on voit bien qu'ils partent de l'image quand même, et non pas d'une photo qu'ils auraient en banque, puis qui collerait gentiment par-dessus
1:01:15 à 1:01:37 Guillaume Vendé :
ta photo. Merci beaucoup, Pierre-Olivier. On va continuer sans toi, parce qu'on a des petites choses à se dire. J'aurais aimé t'interroger sur la mort de Stadia, et je sais que tu étais un représentant emblématique dans mon esprit, de mon entourage, des joueurs de Stadia, mais je ne vais pas te faire plus de mal que ça. On va te libérer, ce que tu peux peut-être rappeler aux auditeurs avant qu'on termine l'épisode, où on peut te retrouver, à titre perso. Je ne sais plus. Non, ça fait longtemps
1:01:37 à 1:01:55 Pierre-Olivier Dybman :
que je ne me suis pas connecté, dernièrement. Le truc qui m'occupe, j'adore les trucs type Nershi de LinkedIn, tous ces postes complètement pourris et barrés, pour surfer sur les algos, c'est mon délire du moment. Donc c'est vrai que je suis très présent sur LinkedIn. Mais ne me retrouvez pas là, s'il vous plaît.
1:01:55 à 1:02:01 Guillaume Vendé :
Vous n'êtes pas le sollicité, par contre. Merci en tout cas, Pierre-Olivier, de vous avoir consacré un petit peu de temps. On te fait un gros bisou, et puis on te retrouve bientôt.
1:02:01 à 1:02:03 Pierre-Olivier Dybman :
Merci à vous.
1:02:03 à 1:02:31 Guillaume Vendé :
Oui, Samsung a quand même eu besoin de prendre la parole, Guillaume, au travers d'une publication presse sur samsungmobilepresse.com pour expliquer un petit peu cette démarche, et oui, reconnaître qu'effectivement, il y avait du travail qui a été fait derrière. Moi, je fais partie des gens qui sont très à l'aise sur le fait que des algorithmes retravaillent les photos de nos smartphones. C'est déjà le cas. On ne s'en rend pas forcément compte. Mais c'est grâce à ça qu'on a des photos qui sont de plus en plus belles et de plus en plus équilibrées.
1:02:31 à 1:02:33 Guillaume Poggiaspalla :
Après, c'est grâce à ça que tu es beau, alors que tu n'es pas beau aussi.
1:02:33 à 1:02:39 Guillaume Vendé :
Moi, je ne sais pas de quoi tu parles. Je suis parfaitement beau, naturellement, et les photos ne font que sublimer.
1:02:39 à 1:02:49 Guillaume Poggiaspalla :
Par exemple, sur les iPhones, ça fait longtemps qu'ils localisent les visages des gens et qu'ils les retouchent spécifiquement en rajoutant un petit peu de couleur,
1:02:49 à 1:02:51 Guillaume Vendé :
en éclaircissant un peu.
1:02:51 à 1:03:09 Guillaume Poggiaspalla :
Ils se débrouillent pour localiser les visages et pour les mettre à leur avantage quand même. Ce qui veut dire que stricto sensu, tu ne prends pas la photo de quelqu'un. Tu prends la photo de quelqu'un avec un petit maquillage, léger. On s'est habitués. C'est vrai que si c'était retiré, probablement,
1:03:09 à 1:03:33 Guillaume Vendé :
ça ferait un scandale. Effectivement. Soyez conscients, en tout cas, que quand vous prenez une photo avec votre smartphone, vous êtes très loin de faire clic-clac comme avec un jeu de miroir. Mais il y a beaucoup d'autres choses qui se passent. Je pense que vous qui écoutez TAC Café, vous êtes plutôt au courant. Un petit mot, Guillaume. C'est un sujet qu'on traite forcément l'été dernier et qui va s'affiner avec le temps. Mais c'est la propriété intellectuelle liée aux images génératives.
1:03:33 à 1:04:55 Guillaume Poggiaspalla :
Le bureau des copyrights américains est de plus en plus noyé par des demandes pour des œuvres générées pour tout ou en partie par des IA. Il va falloir décider de ce qu'on va en faire. Il faut décider de la position à avoir sur ce truc. Il n'y a pas de secret. C'est difficile. C'est le bordel. Foutu pour foutu, le bureau adopte une position complexe et subtile. Le pauvre. Ils ont décidé qu'une œuvre ne peut pas recevoir de copyright si elle est directement le produit d'une IA sans intervention significative d'un humain. Ça sous-entend qu'il est impératif que l'artiste révèle qu'il a utilisé une IA, déjà, à un moment donné ou à un autre, pour créer ce qu'il a fait. Non seulement il doit donc révéler ça, mais en plus, il doit dire aussi comment il a utilisé cette IA, et qu'est-ce qu'il a fait d'autre. Qu'est-ce qu'elle est en tant qu'humain, sa valeur ajoutée par rapport à l'IA ? La rapproche est simple. Si on se contente de demander à Mille Journées de nous créer une image, c'est comme si on avait commissionné un artiste, un autre artiste, pour le faire pour nous, et donc on ne peut pas réclamer de droit là-dessus, c'est quelque chose ou quelqu'un d'autre qui l'a fait. Par contre, si tu fournis un travail de transformation suffisant, alors ok, ce travail-là peut être protégé. Toute la subtilité sera dans l'appréciation de ce fameux travail, et sera donc jugé au cas par cas. Et ça concerne tous les médias, texte, image fixe ou animée, et même la musique. Donc, bon courage, bon courage à tous ceux qui travaillent là-bas, pour apprécier tout ça, et ensuite se prendre les recours des postulants qui se sentent injustement traités, ça peut être triste.
1:04:55 à 1:05:21 Guillaume Vendé :
Magnifique. Tout un avenir qui s'ouvre à vous, et puis on va terminer cette rubrique avec quand même quelque chose qui est bluffant, là aussi une étape de franchie dans le monde des images génératives, des niriages, avec la version 5 de Mille Journées qui fait des restitutions, j'ai vu plein d'exemples circuler sur les réseaux sociaux, assez bluffantes, mais qui fait des restitutions enfin d'un truc... Les mains, les mains qui étaient improbables et très monstrueuses aujourd'hui sont tout à fait humaines.
1:05:21 à 1:05:45 Guillaume Poggiaspalla :
Bah oui, Mille Journées passe la cinquième, et là on peut vraiment dire qu'il est en vitesse de croisière. Je suis plutôt au type Stable Diffusion parce que c'est open et tout ça, mais je ne peux pas nier que le bon qualitatif fait par Mille Journées V5 est d'ailleurs plus généralement par Mille Journées depuis un an maintenant, depuis une bonne année. Donc déjà, j'en suis assez soulagé, Mille Journées est enfin capable de sortir de son style propre, parce qu'avant, tu créais une image sur Mille Journées, ça se voyait dès Kilomatra, le truc avait sa patte.
1:05:45 à 1:05:47 Guillaume Vendé :
Exact, il a traité peinture...
1:05:47 à 1:06:33 Guillaume Poggiaspalla :
Le meilleur est pour le pire, il avait vraiment son style, c'était très difficile de créer un truc vraiment différent. Là, on a des rendus qui peuvent être de tout type, il y a des rendus photoréalistes, la résolution est bien meilleure, de base, les trucs sont en bonne résolution, ça doit être 4 fois plus, il y a des textures de peau et des éclairages qui sont absolument incroyables, et puis il produit en fait beaucoup moins d'images ratées, c'est ça le truc. C'est que presque toutes les images qu'il produit sont acceptables en fait. Tu peux évidemment choisir celle qui te plait le plus, mais il y a beaucoup moins de trucs monstrueux ou ratés, la plupart sont belles, et surtout, Mille Journées est peut-être le meilleur pour faire des doigts. Et oui, il vous fait des doigts, quand vous voulez, et la plupart du temps, par 5, c'est quand même un gros progrès, Mille Journées semble enfin capable de faire des mains correctes la plupart du temps.
1:06:33 à 1:06:35 Guillaume Vendé :
Pas trop entortillées les doigts.
1:06:35 à 1:06:37 Guillaume Poggiaspalla :
Non, non, c'est vrai.
1:06:37 à 1:06:43 Guillaume Vendé :
Non, pas trop entortillées les doigts, parce qu'en plus, non seulement le nombre n'y était pas, mais en plus, ils avaient vraiment des mouvements de doigts complètement improbables.
1:06:43 à 1:07:43 Guillaume Poggiaspalla :
Non, non, mais là, il y a vraiment des gens qui peuvent montrer leurs mains comme ça, devant leur visage, et ils sont reproduits de manière infiable, c'est assez impressionnant. Et du coup, ça montre aussi, si tu veux, que voir, détecter des miriages par rapport à des photos, détecter que les images sont fausses, ça va devenir de plus en plus difficile. Parce que les détails sont de plus en plus sophistiqués, c'est de plus en plus réaliste, les mains deviennent correctes la plupart du temps, donc ça va être très difficile de repérer les miriages, et on va commencer à avoir... Vraiment, certaines images que tu vois de démos de Midjourney sont indiscernables de photos. Si tu regardes vraiment en zoomant et tout, peut-être que tu pourras voir des petits trucs, mais c'est pas là le point, c'est pas là l'essentiel. Je veux dire, qui fait un zoom au pixel près sur une image qu'il voit dans la presse, sur un site ou sur Twitter ? Personne. Et si tu regardes, comme tu regarderais un truc sur Twitter, les images que donne Midjourney, mais c'est indiscernable d'une photo. Ça devient extrêmement difficile. Donc, il y a des photos...
1:07:43 à 1:07:47 Guillaume Vendé :
Éventuellement des outils aujourd'hui ? Est-ce que les outils peuvent nous aider aujourd'hui à repérer
1:07:47 à 1:08:23 Guillaume Poggiaspalla :
ces défauts ? Non, pas vraiment. Les outils, c'est quoi ? C'est que tu zooms et tu regardes, tu te rends compte que là, éventuellement, il y a deux petits trucs qui sont fusionnés alors qu'ils ne devraient pas être fusionnés, des petites imperfections ici et là. Sur Twitter, il y a déjà des photos de Trump qui embrassent à pleine bouche un autre homme, que j'ai vu passer, et je veux dire, si tu ne regardes pas au Pixelpress, si tu ne regardes pas vraiment tous les détails, mais ça passe crème. Donc, ça devient vraiment critique que tout le monde partout, à tous les âges, devienne vraiment sceptique par défaut. Sceptique et critique. Parce que tout peut être faux, absolument
1:08:23 à 1:08:49 Guillaume Vendé :
tout. Ça va devenir un vrai travail, un vrai réflexe intellectuel à avoir, et évidemment ça soulève des questions dans le monde de l'éducation aussi, j'imagine. On continue et on conclut cet épisode de Tech Café avec une mini rubrique jeux vidéo avec on va rester dans la continuité, Guillaume, avec des évolutions très directement liées au reste de notre épisode, mais sur le monde des jeux vidéo, justement.
1:08:49 à 1:10:27 Guillaume Poggiaspalla :
Mais oui, on n'en sort pas, on a encore des IA jusque dans la rubrique jeux vidéo, et c'est qu'un début. Il faut dire que le jeu vidéo, c'est quand même une des applications idéales des IA, qui n'a pas rêvé d'avoir un NPC qui soit vraiment intelligent, enfin, qui puisse répondre naturellement. Vraiment intelligent, ou peut-être juste moins con, c'est-à-dire qui va pas 3 secondes à ouvrir une porte, qui se prenne pas les murs, qui reste pas en plein milieu, quand t'as 4 ennemis sur le train. Bon, évidemment pour le moment, prendre, je sais pas, 13 Go, bouffer la totalité de la GPU rien que pour faire parler au NPC, ça semble un petit peu exagéré, sauf si finalement on utilise la quantité de ressources fournies par le cloud. Est-ce que ça serait pas un cas d'usage enfin pour cette promesse de Microsoft et Ubisoft d'augmenter les jeux via le cloud, dont on avait discuté maintes fois déjà ? Peut-être. Bon, va falloir que les serveurs de chat GPT soient vraiment costauds s'ils sont utilisés pour tous les NPC de Final Fantasy, mais pourquoi pas. En attendant, il y a une démo qui s'appelle Origins, qui est faite par InWorld, et qui donne une idée de ce que pourrait être un jeu dopé avec une IA moderne. Alors ça se passe dans l'univers de Metropolis, c'est un jeu d'enquête policière dans lequel tu parles directement au NPC, mais tu leur parles vraiment, avec ta voix, avec un micro, tu leur parles en langage naturel, exactement comme si tu parlais à des humains et ils te répondent. Alors ils ont une voix un petit peu synthétique, mais ils te répondent quand même naturellement, comme si chat GPT était un couplet, une sorte de synthétiseur vocal. Donc tu discutes avec eux, comme avec des chatbots, bien sûr, mais ils ont aussi des connaissances sur le jeu, évidemment, l'univers, sur le cas, c'est-à-dire sur l'enquête, donc ça sert le gameplay, et c'est vraiment intéressant, ça permet de se faire une idée de ce que ça va probablement devenir à un moment donné. Ce truc devrait arriver sur Steam cet été, et ça préfigure peut-être l'avenir du jeu vidéo, où il y aurait encore plus de raisons de te marier avec ta waifu, ta waifu de Genshin Impact 5,
1:10:27 à 1:10:45 Guillaume Vendé :
peut-être, on va savoir. Pourquoi pas, je me réjouis, Guillaume. On termine avec l'ultime sujet, qui est celui de l'arrivée de ton chouchou Minecraft sur Chrome OS, sur Chromebook. Guillaume, j'ai hâte de savoir quel a été le fruit de cette prouesse, j'ai une petite idée.
1:10:45 à 1:13:17 Guillaume Poggiaspalla :
Alors oui, justement, là, si tu veux, la news, effectivement, c'est que, la news de base, c'est que Microsoft amène officiellement Minecraft Bedrock sur Chromebook, alors qu'avant, il fallait avoir un Chromebook assez puissant, et passer par les versions Java, donc passer par une version Linux, en réalité. Si tu voulais jouer à Minecraft sur Chromebook, là, ça va être beaucoup plus simple, et bon, les performances seront meilleures, puisque la version Bedrock sera en natif. Mais en fait, la réalité, c'est que ça intervient, là encore, au moment où Microsoft est toujours en bataille pour persuader les régulateurs que, oui, ils peuvent acheter Activision, et que non, ce n'est pas un danger atroce pour l'industrie du jeu vidéo, donc ils prouvent, là encore une fois, son ouverture, alors, déjà, plusieurs reprises, on va dire, puisqu'il y a, donc déjà, il amène Minecraft sur Chromebook, donc des plateformes Google, bien entendu, et il signe aussi un accord, enfin, un accord, donc, sur Call of Duty, avec un petit prestataire, enfin, que moi, je ne connaissais pas du tout, qui s'appelle Boosteroids, qui est un ukrainien, qui fait donc du cloud gaming, donc c'est un ukrainien qui fait du cloud gaming, comme ça, et il signe un accord, enfin, ils annoncent signer un accord pour Call of Duty, avec cet acteur-là, bon, c'est dans la veine des accords qu'ils ont signés avec GeForce Now, bien entendu, encore une fois, pour montrer qu'ils sont vraiment très, très ouverts, et, tout dernièrement, il y a aussi une autre news qui remettra un rapport avec ça, et qui montre, en fait, aussi pourquoi est-ce qu'ils sont à ce point, morts de faim, pour vraiment acheter acquisition, acheter Activision, et comme tu le dis souvent, Activision, Blizzard, King, et c'est très important, parce qu'en fait, il semblerait que Microsoft se prépare à l'entrée en fonction des nouvelles lois européennes qui obligeraient, donc, Google et Apple à ouvrir leurs plateformes et à accepter des magasins d'applications entières, en particulier des magasins d'applications de jeux vidéo, et parce qu'ils sont en train, là, de préparer un app store, un app store de jeux, donc un app store de jeux Xbox, mais pour iPhone et Android, pour smartphone, et, évidemment, dedans, qu'est-ce qu'ils mettraient ? Ben, ils mettraient, en premier lieu, évidemment, les jeux mobiles qu'ils ont, et donc, en particulier, ceux d'Activision, Blizzard, King, bien entendu, donc, ça serait très pratique pour eux d'avoir des trucs à lancer, comme des Diablos, comme, bien entendu, tous les jeux King, etc., etc., et donc, ils se préparent activement à ce que, donc, il y ait vraiment ce changement de paradigme pour, en tout cas, surtout pour Apple, ça va leur faire très mal, donc, ils seraient consécutifs au DSA pour pouvoir, et au DMA, pour, justement, profiter de cette ouverture et occuper un nouveau marché, et donc, c'est pour ça que c'est hyper important pour eux, ils se préparent
1:13:17 à 1:14:31 Guillaume Vendé :
déjà, quoi. Le retour de Fortnite en 2023 sur iOS, peut-être, on verra. Merci beaucoup, Guillaume, pour cette revue complète de l'ActuTech de la semaine, très, très, très orientée à l'intelligence artificielle. Alors, oui, c'est le cas la plupart du temps, maintenant, dans les épisodes de TechCafé, mais celui-ci était particulièrement représentatif, je pense, du poids que ça prend dans l'actualité. Merci beaucoup, en tout cas, pour ton travail et ta préparation de cet épisode. Il est grand temps qu'on rappelle à nos auditeurs quelques essentiels, notamment, bon, ce que j'ai rappelé en intro, à savoir qu'évidemment, on compte sur vous, si vous trouvez que TechCafé a un intérêt pour vous, vous divertit, de vous rendre sur patreon.com slash techcafé et d'envisager un soutien. Surtout, surtout, surtout, on compte sur vous pour laisser un avis sur Apple Podcast, sur Podcast Addict, on les cite en introduction des épisodes, et surtout, ça nous réchauffe le cœur, et croyez-moi, par les temps qui courent, c'est toujours agréable à voir, à ressentir, et puis, bien entendu, on peut nous retrouver collectivement sur les serveurs Discord de TechCafé. Vous pouvez également déposer votre petit commentaire sur techcafé.fr dans les articles qui accompagnent la parution des épisodes, mais également rentrer en contact avec nous à titre individuel. La question me brûle les lèvres, Guillaume, où est-ce qu'on peut te retrouver ?
1:14:31 à 1:14:39 Guillaume Poggiaspalla :
Ben là, on va nous retrouver en train d'essayer de télécharger le modèle 13 milliards de paramètres d'Alpaca pour savoir si lui, il sait comment il est mort, Michael Collins.
1:14:39 à 1:14:57 Guillaume Vendé :
Ah ben, j'aimerais bien la réponse. Tu nous tiendras au courant. Merci beaucoup, Guillaume. Tu nous diras combien d'énergie ça a pris, pour ton ordi, pour en savoir un peu plus. Merci beaucoup, je suis Guillaume Vendée, vous me retrouvez sur guillaumevendée.fr et sur les réseaux sociaux. En attendant, on vous dit à très bientôt dans un prochain épisode de TechCafé. Ciao à toutes et à tous.
1:14:57 à 1:14:59 Guillaume Poggiaspalla :
Ciao à tous.