GitHub Copilot et LLMs : les Titans autodestructeurs

Analysons la pertinence réelle de GitHub Copilot et les conséquences d'un usage frénétique des LLMs, titans autophages.

David M.

Développeur Fullstack

Dans cet article

This is some text inside of a div block.

Au cœur de cette transformation, les développeurs accueillent les outils d'intelligence artificielle à bras ouverts, embrassant une histoire d'amour digitale avec des entités telles que ChatGPT et Codex. Selon une enquête récente, les raisons de cette liaison quotidienne avec l'IA sont indéniables : elle améliore la productivité, accélère l'apprentissage et décuple l'efficacité. C'est comme avoir un assistant personnel toujours disponible, capable de décrypter un code labyrinthique sans jamais prendre de pause café.

Cependant, derrière cette idylle technologique se cachent des subtilités et des enjeux cruciaux. Dans cet article, nous plongeons au cœur de cette jungle artificielle, où GitHub Copilot joue le rôle d'allié maladroit, et où les LLMs (Large Language Models) sont à la fois source de fascination et de préoccupations. Dans ce récit, nous explorerons comment les LLMs, tout en se nourrissant de leurs propres créations, défient la quête de vérité dans le monde numérique et pourquoi les données générées par des êtres humains demeurent essentielles pour l'avenir de ces technologies. Une histoire où l'IA, telle une bête vorace, doit apprendre à coexister avec la sagesse humaine pour éviter le seppuku numérique.

GitHub Copilot: un allié maladroit dans cette jungle artificielle

Dans le monde en constante évolution de la programmation, les développeurs accueillent les outils d'IA à bras ouverts, et il y a de bonnes raisons derrière cette histoire d'amour digitale. Selon une enquête récente (source), les trois principales raisons de cette liaison quotidienne avec les outils d'IA sont on ne peut plus claires :

augmentation de la productivité
accélération de l'apprentissage
efficacité accrue. C'est comme avoir un assistant personnel toujours disponible, qui ne prend jamais de pause café et ne s'offusque pas de décrypter votre code labyrinthique.

Clarifions une chose cependant : en tant que développeurs, nous avons appris la programmation dans une ère où nous ne pouvions nous appuyer sur le presque-tout-puissant ChatGPT. Nous avons maintenant accès à un nouveau jouet fait sur mesure pour nos besoins en matière de codage ; je nomme Codex, autre produit phare d'OpenAI et le moteur derrière GitHub Copilot.

Un tango désarticulé entre développeurs et Codex: le défi de l'alignement.

Dans une étude d'OpenAI, Codex se profile comme un potentiel bouleversement dans le monde de la programmation. Les chercheurs proclament avec audace sa capacité à accueillir les nouveaux venus dans de nouveaux codes, à fluidifier le flux de travail des codeurs expérimentés, permets aux profanes à rédiger des spécifications et enfin, contribuer à des initiatives éducatives.

Pourtant, il est essentiel de ne pas se laisser emporter par l'enthousiasme sans prendre en compte les subtilités de Codex. Ce dernier, bien qu'impressionnant, a ses particularités : il suggère des solutions qui reflètent ses données d'entraînement, semblant souvent correctes, mais pouvant parfois manquer la cible. Imaginez-le comme un magicien qui excelle à sortir des lapins de son chapeau, mais qui pourrait aussi bien vous surprendre avec un kangourou.

Cette mésentente entre Codex et les développeurs, appelé "échec d'alignement", souligne l'importance de comprendre et de guider les outils d'IA pour s'assurer qu'ils servent efficacement nos intentions.

Mais ne laissez pas tout cela vous effrayer. Codex reste votre fidèle allier dans la jungle artificielle. La clé est d'avancer avec précaution, de surveiller attentivement ses sorties, et de valider ses suggestions au fur et à mesure. Après tout, dans le monde de la technologie, l'IA semble porter la cape du magicien, mais il est toujours préférable de garder un œil sur la magie qu'il opère.

LLM: Les dangers de l'autoconsommation

Pour ceux qui pourraient arborer une disposition "luddite", ne vous inquiétez pas. La force perturbatrice de l'innovation s'accompagne souvent d'un côté positif - la destruction créatrice. Tandis que nous réfléchissons aux emplois perdus à cause de l'automatisation, nous négligeons souvent la multitude de nouvelles opportunités qui émergent.

Comme le dit l'Institute for the Future :"Environ 85 % des emplois que les apprenants d'aujourd'hui exerceront en 2030 n'ont pas encore été inventés". Ainsi, si l'IA peut transformer le paysage de l'emploi, elle a également le potentiel de créer des opportunités sans précédent.

Dans le domaine de la programmation et de la technologie, où les outils d'IA sont nos fidèles compagnons, il est important de reconnaître leurs limites. La crainte qu'un jour l'IA ne nous vole nos emplois pourrait être un peu exagérée, car près de 9 développeurs sur 10 semblent partager cet avis. Cependant, la vérité indéniable est qu'il est essentiel pout nous de comprendre et utiliser les outils GenAI car ils peuvent potentiellement augmenter notre productivité de 55%.

Le talon d'Achille de l'IA: la nécessité impérieuse de l'intervention humaine.

Cependant, il y a un point à noter. Puisque les LLMs, ces géants de l'IA, ne se soucient pas particulièrement de la responsabilité ou de l'exactitude de leurs résultats, que se passe-t-il lorsque l'IA est alimentée par les données d'une autre IA ? L'écosystème de l'IA s'agrandit à un rythme exponentiel, et l'enchaînement de ces outils dans un process devient pratique courante.

Ce phénomène ressemble à ce que nous appelons le paradoxe de Jevons, où le progrès technologique rend l'utilisation des ressources plus efficace mais provoque simultanément l'augmentation de la demande de cette ressource. ChatGPT, par exemple, a inauguré une ère de LLM, nous libérant certes des tâches ennuyeuses et nous permettant de nous concentrer sur l'innovation mais a vu son utilisation et celles de ses compères augmenter exponentiellement.

Il y a néanmoins un retournement de situation. À mesure que le contenu généré par l'IA prolifère sur Internet, il devient involontairement un ensemble de données d'entraînement pour les LLMs. Entrez dans la tragédie des biens communs. Les gens utilisent des outils d'IA dans leur intérêt personnel, souvent sans partager leurs résultats ni les données originales. Par conséquent, l'IA finit par s'entraîner elle-même, à l'image d'un serpent qui se mord la queue. Pensez à ce qui est arrivé à Stack Overflow, autrefois un vivier florissant de connaissances humaines, désormais infiltré par du contenu généré par des LLMs.

Cette autoconsommation de données générées par l'IA renforce les LLMs pour produire des résultats qui ressemblent à leurs données d'entraînement au lieu de fournir des informations véritablement utiles. Vous vous souvenez du problème d'alignement avec Codex ? Maintenant, imaginez-le à plus grande échelle. C'est ce que nous appelons un "effondrement du modèle". Comme l'IA n'est pas intrinsèquement intéressée par la vérité, les résultats peuvent être remis en question lorsque l'IA devient la principale source d'information, créant ainsi un cycle vicieux. Pour citer cette recherche :

"Dans notre travail, nous démontrons que l'entraînement sur des échantillons provenant d'un autre modèle génératif peut induire un changement de distribution, ce qui provoque avec le temps un effondrement du modèle."

C'est pourquoi nous avons besoin de connaissances générées par des êtres humains. Si nous souhaitons utiliser les LLMs sur une longue période, nous devons veiller à ce que l'accès à la source de données originale soit préservé et que des données supplémentaires non générées par les LLMs restent disponibles. Comme le souligne la même étude, "il est nécessaire de s'assurer que l'accès à la source de données originale soit préservé et que des données supplémentaires non générées par les LLMs restent disponibles au fil du temps."

Alors, chers développeurs et amateurs de technologie, continuons à répondre aux questions de programmation sur Stack Overflow, surveillons attentivement les suggestions de Copilot et recherchons attentivement les solutions fournies par ChatGPT ou Codex. C'est ainsi que nous pouvons nous assurer que nous disposons d'outils durables adaptés à nos besoins, car, comme il s'avère, les LLMs qui s'entraînent sur eux-mêmes sont en train de pratiquer le seppuku.

En conclusion

Nous avons entrepris un voyage à travers le monde des outils d'IA générative et de leur impact sur le paysage technologique. Nous avons rencontré l'esprit vif mais énigmatique de ChatGPT, exploré la magie de la programmation de GitHub Copilot et plongé dans le monde de l'autoconsommation de l'IA.

Bien que les outils d'IA transforment indéniablement notre façon de travailler, ils présentent leurs particularités et leurs défis. Du goût de ChatGPT pour les réponses créatives aux problèmes d'alignement de Codex, en passant par la menace imminente de l'autoconsommation de l'IA, il est clair que ces outils ne sont pas dénués de complexité.

Cependant, la principale leçon à retenir ici est que l'IA, dans toute sa splendeur, est un outil, un outil que nous devons manier avec connaissance et prudence. En tant que développeurs et passionnés de technologie, nous sommes en première ligne de cette révolution de l'IA. En comprenant les forces et les limites des outils d'IA, nous pouvons exploiter leur potentiel pour accroître la productivité, stimuler l'innovation et naviguer dans le paysage technologique en constante évolution.

Alors, accueillons l'IA comme notre alliée, pas comme notre adversaire. Utilisons-la pour augmenter nos capacités, pas pour les remplacer. Et assurons-nous que, à mesure que nous avançons dans l'avenir, notre relation avec l'IA reste celle d'un partenariat, où les êtres humains et les machines travaillent main dans la main pour créer un monde plus fertile et plus innovant.

David M.

Développeur Fullstack

Blog