Fonctionnement de l’Intelligence artificielle : qu’est-ce que c’est ?

Cet article est une intro à une série d’articles qui sortiront sur l’intelligence artificielle spécialisée pour les vidéastes, photographes et créateurs de contenus.

Mais avant de parler de tous les outils qui s’offrent à nous, que ce soit en tant que scénariste, cinéaste ou vidéaste, je pense qu’il est important de comprendre le fonctionnement, les enjeux et les problématiques que soulève l’intelligence artificielle.

Donc sans plus tarder, entrons dans le vif du sujet !

l'IA : qu’est-ce que c’est ? :

Avant de commencer à parler de l’intelligence artificielle (1), il est bon de rappeler et de définir également l’intelligence artificielle générale (2), la super intelligence (3) et l’idée de singularité (4) :

  • L’intelligence artificielle :
    Permet de simuler le comportement humain. Que ce soit un PNJ dans un jeux ou Chat GPT.
    Le dictionnaire Le Robert propose cette définition :
    « ensemble des théories et des techniques développant des programmes informatiques complexes capables de simuler certains traits de l’intelligence humaine (raisonnement, apprentissage…). »

  • L’intelligence artificielle générale (IAG) :
    Ce type d’intelligence serait« capable d’effectuer ou d’apprendre pratiquement n’importe quelle tâche cognitive propre aux humains ou autres animaux »


  • La super intelligence :
    Désigne une IA hypothétique qui pourrait être bien plus « intelligente » que les humains :
    « Un système résolvant des problèmes (comme un traducteur automatique ou un assistant à la conception) est parfois aussi décrit comme « superintelligent » s’il dépasse de loin les performances humaines correspondantes, même si cela ne concerne qu’un domaine plus limité. »


  • La singularité (technologique) :
    Point à partir duquel des IA s’autoaméliorerait d’elles-mêmes créant l’avènement de « supraintelligence » de loin supérieure aux humains.

Comment marche Chat GPT ? :

A la base, il y a ce qu’on appelle des modèles de fondations :
Ce sont des modèles d’intelligences artificielles entrainées sur une tâche générique dans le but d’être adaptées à des tâches plus spécifiques ultérieurement.               

Il en existe plusieurs mais aujourd’hui on va analyser celui utilisé par Open Ai : le modèle GPT (Generative Pre-trained Transformer).

On pourrait penser que ce type d’IA analyse les données de google pour nous faire une sorte de synthèse de ce qu’il a appris, en étant pertinent ou non.
Mais ce type de modèle est en réalité entrainé pour deviner le prochain mot d’un texte.

Par exemple : le marin navigue sur un… l’algorithme doit prédire le texte pour le remplir de façon crédible, donc ici « bateau ». Mais il est sensé pouvoir deviner aussi des mots qui sont en milieu de phrase.

Comme le dit David Louapre dans cette vidéo :

c’est de la « complétion automatique » qui doit marcher sur un texte entier.

Les exemples qui suivent sont tirés des vidéos de David Louapre.
Je n’ai tiré de son travail que les parties qui m’intéressaient, mais pour ceux qui veulent aller plus loin, je vous conseille de les regarder. Elles sont très complètes et bien expliquées.


Le modèle ne cherche pas forcément à dire quelque chose de vrai, ni à reproduire quelque chose de pré existant, mais il cherche simplement à trouver une phrase plausible.
Puisqu’il n’y a pas qu’une seule manière de finir une phrase, chat GPT fonctionne avec des Stats sur ce qui semblerait le plus vraisemblable.

Dans l’exemple suivant :


(exemple tiré de la vidéo de David Louapre)

Chat GPT choisit un mot en fonction des probabilités qu’il a enregistré. Au final, chat GPT répondra « le chat » car les textes qu’il a consommés doivent faire occurrence du mot chat plus souvent, mais le mot corbeau pourrait être valable, la phrase ne serait pas forcément fausse.

Maintenant allons un peu plus loin :
Quand on pose la question de la découverte de l’Amérique par Christophe Colomb, GPT va dire sans surprise : « 1492 », mais pour lui ce n’est même pas une question, c’est juste une suite logique qu’il a emmagasinée avec toute les infos qu’il a ingurgitées pour son entrainement.

Mais au final GPT répond la même chose avec un Sujet différent puisqu’il associe toujours les mots « découverte » et « Amérique » avec « 1492 » :

Et avec cet exemple, on commence à voir les limites de Chat GPT qui ne cherche pas forcément à dire la vérité mais seulement à faire sens.

Avec un titre de film inventé, GPT répondra quelque chose, peu importe. Il préfèrera dire n’importe quoi plutôt que de ne rien répondre du tout.

Il ne va pas nous dire que le film n’existe pas, il ne cherche pas la vérité mais des phrases qui ont du sens, qui semblent plausibles. Si l’utilisateur lui parle de licorne ou même s’il tape n’importe quoi, GPT trouvera quelque chose à dire :

En tapant n’importe quoi :

GPT ne considère pas qu’on s’adresse à lui, qu’on lui pose une question ou pas, il considère simplement qu’il doit compléter le texte. Il peut répondre à une question par une autre question ou donner une réponse factuelle, peu importe.

Si vous demandez à GPT de citer ses sources vous risquez en règle générale de tomber sur de faux articles ou des liens qui n’existent pas.
Au final il ne cherche pas sur internet des sources, il remplit une suite logique de mots qui semble crédibles. Pour résoudre ce problème, on pourrait coupler GPT avec des modèles de recherche sur le web ou autre, on verra ce que l’avenir nous réserve.

Comment aller plus loin ? :

Pour le diriger dans la direction que l’on souhaite on peut donner à GPT un pre prompt qui l’oriente dans sa réflexion, dans le genre de texte qu’on veut voir, par exemple un dialogue avec un prof, un énoncé d’exercice ou un texte romancé.

Mais on peut aussi le rendre plus performant, en faisant du fine tuning :
Prendre un modèle entrainé comme GPT et prolonger son entrainement sur des textes spécifiques qui ressemble plus à ce qu’on attend de lui.

(le modèle de fondation est GPT et le modèle fine-tuné est Instruct GPT.)

Une dernière méthode est possible pour améliorer la qualité des textes générés : l’apprentissage par renforcement. Cette dernière consiste à faire évaluer les réponses du bot par des humains.

Mais pour aller plus loin dans la compréhension de cet outil, je vous conseille la vidéo de science étonnante sur les réseaux de neurones profonds :

Comment marche Midjourney ? :

Concernant les intelligences artificielles spécialisées dans la reconnaissance d’images on utilise des réseaux de convolutions qui permettent de reconnaitre des choses intéressantes dans une image en l’analysant à différentes échelles (variation de luminosité entre deux pixels pour reconnaitre un trait, puis un bout de segment ou une courbe, une forme géométrique etc.)

Ces algorithmes de réseau de neurones sont des fonctions mathématiques basées sur des choses simples comme des additions, des soustractions, des fonctions exponentielles etc. Au final, chaque pixel d’une image correspond à un nombre (luminosité, couleur…) et cette analyse de chiffres lui permet de reconnaitre une image.

On voit bien ici, que pour midjourney ou chat GPT, aucun des deux ne sait vraiment de quoi il parle. Ils ne créent pas de véritables analyses ou ne développent pas vraiment d’esprit critique, ils sont formés comme de bons élèves à reconnaitre si une chose est « juste » ou non.  

L’être humain, tout comme l’IA, mélange et remixe ce qu’il a entendu, appris et vu … Pourtant les deux fonctionnent de manière diamétralement opposée. Je pense que L’intelligence artificielle mélange plus qu’elle ne connecte les points entre eux (comme les humains) mais contrairement à nous, elle n’a aucune idée des émotions qu’elle décrit. Je pense que les humains perçoivent également le monde à travers le prisme de leurs sensations et émotions ce qui fait que nous traitons l’information très différemment.

A la base, des IA génératives comme Midjourney, Dall-E ou Stable diffusion, ont été entrainées avec un algorithme basé sur l’apprentissage supervisé.
Par exemple, on a fourni à ces IA des milliers d’images de chat pour lui apprendre à quoi il ressemble et le définir. Un peu comme un enfant qui apprend de ses erreurs et pose toujours mille questions à la seconde 😉

Chaque image est associée à une série de nombre :
Par exemple une image 600 × 600 représente 360 000 pixels chacun codé en rouge vert bleu (donc trois nombres par pixel). Je peux donc décrire et définir mon image au total avec 1 million de nombres. L’algorithme les emmagasine en entrée et affiche en sortie un nombre représentant
la case (le nom) dans laquelle est l’image.

Cependant, les d’IA génératives sont différentes de l’IA citée ci-dessus.
La génération d’image n’agit pas comme la classification, puisqu’il ne ressort pas toujours le même chat à chaque fois. Il peut faire des variations et trouver des styles différents tout en mélangeant plusieurs données.

On ne veut pas toujours la même image ou la moyenne de tous les chats, on veut qu’une part « aléatoire » de l’algorithme « crée » quelque chose. Pour ça, on utilisera des GANs.

Les réseaux antagonistes génératifs (GANs en anglais), comment ça marche ? :

Il y a, à la base, deux réseaux de neurones : 
1) Le faussaire : qui génère une image aléatoirement à partir d’une série de paramètres ;
2) et L’expert : qui est sensé savoir si l’image créé aléatoirement est bien une image de chat (ou autre) qui correspond à sa base de données.

Au début de l’expérience, les deux réseaux font n’importe quoi. On lui donne un chat il nous sort un camion, bref il est complétement paumé.
Mais à force d’erreur et de correction, le faussaire finit par être « juste » et créer des images très proches de la réalité.

Pour en savoir plus je vous conseille cette vidéo de Science étonnante (en particulier le passage vers 17 min où David Louapre nous montre comment l’image est créée à partir du bruit) :

Conclusion :

Selon Jean-Michel Loubes, professeur des universités et directeur de recherches au sein du projet ANITI (Artificial and Natural Intelligence Toulouse Institute), l’IA a évolué en trois phases :


1) d’abord utile à certaines tâches spécifiques de notre quotidien (comme un aspirateur)
2) puis, plus diversifiée comme les moteurs de recherche,
3) et enfin « créative » et génératrice de « nouvelles » infos.


J’ai hâte de voir ce que l’avenir nous réserve pour la suite ! En attendant je vais lister dans un prochain article les opportunités et les controverses de l’IA en 2024 pour développer un peu plus la réflexion.

N’hésitez pas à me poser vos questions en commentaire ou à me suivre sur les réseaux pour me soutenir ! Prenez soin de vous et à très vite !

Logo Neel Naja
Compte photo Instagram
logo tips et cinéma
Compte tuto Instagram

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *