La course continue sur les LLMs : Nouveaux modèles et défis pour OpenAI
L’été 2024 a été riche en évolutions pour les LLMs (Large Language Models), ces IA conversationnelles qui révolutionnent notre manière de travailler. Alors que vous profitiez du soleil, la compétition entre les géants de l’IA s’est intensifiée.
OpenAI a dévoilé GPT-4O mini et a baissé les prix pour les développeurs. Mais attention, malgré ces avancées, tout n’est pas rose chez OpenAI. Depuis plusieurs mois, l’entreprise peine à tenir ses promesses avec des fonctionnalités attendues (comme la voix en temps réel ou l’assistant de recherche SORA) qui se font toujours attendre. De plus, l’ambiance interne semble tendue, avec plusieurs fondateurs quittant le navire depuis le retour de Sam Altman en novembre dernier.
Pendant ce temps, la concurrence ne dort pas. Par exemple, Claude 3.5, lancé fin juin, se montre plus performant que GPT-4 dans certains domaines. Face à cette pression, OpenAI est contraint de multiplier les sorties pour rester dans la course.
L’été de l’Open Source : Llama 3.1 entre en scène
L’événement marquant de cet été est sans doute l’essor des modèles Open Source, avec en tête Llama 3.1 de Meta. Ce modèle, librement accessible, rivalise avec des poids lourds comme GPT-4 et Claude 3.5 tout en étant entièrement gratuit.
Cependant, comparer ces modèles reste un casse-tête. Les benchmarks comme le MMLU sont souvent utilisés, mais ils ne parviennent pas à désigner un champion clair. La réalité, c’est que ces modèles sont tous performants, chacun avec ses spécificités. Par exemple, Claude 3.5 excelle dans l’analyse de longs documents et produit un style d’écriture apprécié, même si cela reste subjectif.
Moshi : La réponse française aux IA conversationnelles
Petit clin d’œil à la France avec Moshi, une IA conversationnelle vocale lancée par la société Kyutai. Ce modèle reprend les fonctionnalités promises par OpenAI mais jamais publiées, en les rendant disponibles pour le grand public. Cependant, l’interface laisse à désirer, ce qui peut rendre l’expérience utilisateur frustrante.
Des générations d’images irréprochables : L’arrivée de FLUX
En matière de génération d’images, cet été a vu l’arrivée de FLUX, un modèle Open Source qui rivalise avec Midjourney pour créer des images réalistes. Ce modèle, non censuré comme Stable Diffusion, permet de générer à peu près tout ce que l’on veut, ce qui est à la fois impressionnant et inquiétant.
La vidéo en plein essor : Les nouveaux modèles à surveiller
Si la génération d’images est déjà maîtrisée, celle de la vidéo commence à prendre forme avec des modèles prometteurs comme Kuai, Runway ou Luma Dream Machine. Ces outils permettent de créer des vidéos avec de moins en moins de défauts, ouvrant la voie à une nouvelle ère de créativité. On a d’ailleurs vu émerger les premiers courts-métrages et clips de qualité professionnelle utilisant ces technologies.
Le fail de l’été : La panne mondiale de CrowdStrike
Enfin, impossible de passer à côté du gros coup de théâtre de cet été : la panne mondiale de CrowdStrike. Cette solution antivirus, utilisée par 60 % des 300 plus grandes entreprises mondiales, a provoqué la mise hors service de 9 millions d’ordinateurs suite à une mise à jour défectueuse. Ce crash, le plus important de l’histoire, a paralysé les systèmes informatiques d’aéroports, banques, hôtels et hôpitaux, nécessitant des heures supplémentaires pour rétablir la situation.
Conclusion : L’Open Source, une alternative à considérer
Cet incident souligne l’importance d’opter pour des solutions plus locales et open source. Avec l’explosion des solutions open source dans les IA génératives, il devient crucial de réfléchir à des alternatives qui pourraient éviter de subir les conséquences d’une simple mise à jour déployée à des milliers de kilomètres.
Cet été a été une période riche en rebondissements dans le monde de l’IA, avec des avancées notables et des leçons à tirer pour l’avenir. Restez connectés, car la révolution ne fait que commencer.