Passer au contenu

La Bataille des LLMs qui est le Meilleur ?

 

 

Screen Shot 2025-03-02 at 7.01.10 AM-1

 

Hello Lecteur,

L’IA nous inonde, y compris sur les ondes du podcast Silicon Carne ! J’écoute Carlos et ses acolytes commenter les sorties des nouvelles versions, les enjeux stratégiques, et parler de ce qu’ils préfèrent et pourquoi.
On a tellement d’options que tout se joue sur les habitudes, le niveau de satisfaction et le look des interfaces.
Et la puissance de calcul ! Là-dessus, c’est Grok qui gagne parce qu’Elon s’y connaît !

Tous les talents qui travaillent sur Grok sont issus de l’immigration (Marine ne s'en remettra pas)


62% des ingénieurs de la Silicon Valley viennent de l’étranger (d’après Luc Julia) contre seulement 8% à Paris-Saclay !
Les startups à Paris sont à 90-95% franco-françaises.

L’Amérique est un pays d’immigration, bon, je reviens à mon point : en écoutant le dernier épisode Picante, je me suis dit que ça valait le coup de tester les GPT des uns et des autres. Alors, je me suis prêtée à l’exercice, histoire de repousser les limites de ma propre imagination. C’est l’expérience qui me permettra de voir le potentiel.

Alors voici les résultats, basés sur un prompt hyper simple :


« Donne-moi 5 idées de publications à partager sur LinkedIn cette semaine pour attirer l’attention des tech entrepreneurs qui s’intéressent à l’actualité financière, aiment le tennis et suivent les avancées de l’IA, et qui sont fans du podcast Silicon Carne. Ensuite, écris 5 posts et génère 5 images illustratives en utilisant les codes de l’écosystème startup américain. »

Voici ce que ça donne sur :

  • Mistral
  • ChatGPT
  • Gemini
  • Grok
  • DeepSeek

Pour info, j’ai aussi fait une vidéo sur le sujet, et spoiler : celui qui a le mieux performé, c’est Grok. Oui, il est connecté à X, donc plus timely. Gemini ne fonctionnait pas quand j’ai voulu faire mon test.
Et une fois le travail de chacun des LLMs terminé, j’ai aussi demandé à Claude d’analyser la qualité du boulot et de les scorer.

Scoring comparatif des propositions de posts LinkedIn par LLM

Voici une évaluation chiffrée des propositions de posts LinkedIn par les différents modèles de langage, basée sur 5 critères clés, avec une note sur 10 pour chaque critère.

Grille d'évaluation

Critère Description Pondération
Pertinence Adéquation avec les centres d'intérêt spécifiés (finance, tennis, IA, Silicon Carne) 25%
Créativité Originalité des idées, analogies et approches 20%
Engagement Capacité à susciter des interactions (questions, calls-to-action) 20%
Actualité Références à des événements ou tendances récentes et spécifiques 15%
Format LinkedIn Adaptation au format et aux conventions de la plateforme 20%

Scores détaillés

Grok

Critère Score (/10) Commentaires
Pertinence 9.5 Excellente intégration de tous les centres d'intérêt avec références précises au podcast
Créativité 9.0 Analogies originales et ton distinctif qui se démarque
Engagement 9.0 Questions directes et provocantes qui incitent à la participation
Actualité 9.5 Références précises et récentes (levée de fonds xAI, Google)
Format LinkedIn 8.0 Bon format mais parfois trop conversationnel pour le contexte
Score pondéré 9.0  

ChatGPT

Critère Score (/10) Commentaires
Pertinence 8.5 Bonne intégration des thèmes avec mentions du podcast
Créativité 8.0 Bonnes analogies (entrepreneuriat comme tournoi de tennis)
Engagement 8.5 Questions bien formulées et calls-to-action
Actualité 6.0 Références génériques sans événements spécifiques
Format LinkedIn 9.0 Excellent formatage adapté à LinkedIn
Score pondéré 8.1  

Mistral

Critère Score (/10) Commentaires
Pertinence 7.5 Couverture des thèmes mais moins d'intégration entre eux
Créativité 6.0 Idées assez classiques sans analogies marquantes
Engagement 7.0 Questions ouvertes dans certains posts mais approche standard
Actualité 5.5 Mentions générales (cryptomonnaies, régulations) sans spécificités
Format LinkedIn 8.0 Format adapté avec bonne utilisation des émojis et hashtags
Score pondéré 6.9  

DeepSeek

Critère Score (/10) Commentaires
Pertinence 7.0 Couverture des thèmes mais moins d'intégration organique
Créativité 5.5 Approche conventionnelle des sujets
Engagement 6.0 Quelques questions mais moins incitatives
Actualité 5.0 Absence de références à des événements spécifiques
Format LinkedIn 7.5 Format correct mais standard
Score pondéré 6.3  

Classement final

  1. Grok: 9.0/10
  2. ChatGPT: 8.1/10
  3. Mistral: 6.9/10
  4. DeepSeek: 6.3/10

Analyse des écarts

  • Grok vs ChatGPT (+0.9): L'écart provient principalement de la supériorité de Grok en matière d'actualité et de créativité, avec des références précises à des événements récents.
  • ChatGPT vs Mistral (+1.2): ChatGPT se démarque par une meilleure intégration des thèmes et des analogies plus créatives.
  • Mistral vs DeepSeek (+0.6): Mistral offre un meilleur engagement et un format plus adapté à LinkedIn.

Cette évaluation quantitative confirme l'impression générale: Grok propose l'approche la plus efficace pour cette audience spécifique, suivi par ChatGPT qui offre un bon équilibre entre professionnalisme et créativité.

👍

Pas mal, non ?

Pourquoi je fais tout ça ? Pour celles et ceux qui aiment apprendre, découvrir et partager de vraies recettes. Les contenus superficiels du genre « regarde, j’ai réussi » ne m’intéressent pas ! Les articles SEO-friendly juste pour vendre des clics et booster des campagnes de pub ou de l’affiliation non plus. Par contre, créer du lien avec mon audience et avoir des échanges de qualité qui me permettent d’apprendre des trucs, c’est vraiment ce qui me motive.

Donc, pour aller plus loin dans la démarche d’écriture de cet article, j’ai pris ma vidéo YouTube, je l’ai passée dans NotebookLM et en ai fait une conversation deep dive de 4 minutes que j’ai mise sur Spotify.

 

La recette est simple pour une création de contenu efficace :

1 sujet, 1 focus, 1 medium (article), et puis j’éclate le tout sous forme de posts, de deep dives, de vidéos, et ensuite je partage sur différentes plateformes, sous différents formats : LinkedIn (carrousels, sondages, posts, événements), YouTube (vidéo + shorts), Spotify, blog, et ah oui, j’oubliais, j’utilise aussi Gamma AI pour transformer cet article en playbook que je partagerai sur LinkedIn aussi.

 

Du coup, je me suis retrouvée avec un doc de 37 pages bon maintenant  que vous pouvez lire ci-dessous ! 

Voici aussi le carroussel qui claque et que j'ai fait en 3 minutes avec Gamma A.I.

 

 

Et les idées alors ?

Forces et faiblesses de chaque LLM

ChatGPT

Forces:

  • Structure très professionnelle et adaptée à LinkedIn
  • Bonne compréhension des centres d'intérêt
  • Posts très complets et bien formatés

Faiblesses:

  • Manque de références spécifiques à l'actualité récente
  • Contenu parfois générique
  • N'a pas capturé le ton distinctif du podcast Silicon Carne

DeepSeek

Forces:

  • Contenu clair et structuré
  • Idées relativement pertinentes

Faiblesses:

  • Manque d'originalité et de créativité
  • Peu d'éléments d'engagement
  • Ton assez standard et peu mémorable
  • Moins d'intégration des différents centres d'intérêt

Grok

Forces:

  • Excellente intégration d'actualités spécifiques et récentes
  • Ton conversationnel et engageant qui reflète bien celui du podcast
  • Excellentes analogies tennis/entrepreneuriat
  • Très bonne compréhension de la culture de référence
  • Questions provocantes qui favorisent l'engagement

Faiblesses:

  • Ton peut-être un peu trop familier pour certains contextes professionnels
  • Descriptions d'images un peu complexes (mais créatives)

Conclusion

Meilleure proposition globale: Grok propose la meilleure solution globale avec un excellent équilibre entre pertinence, créativité, ton engageant et références actuelles. Sa compréhension du contexte culturel (Silicon Carne) et sa capacité à intégrer des actualités récentes et spécifiques le démarquent.

ChatGPT offre la solution la plus professionnelle et structurée, idéale pour un contexte LinkedIn formel.

DeepSeek présente la proposition la plus conventionnelle et la moins différenciante, bien que correcte sur le fond.

Pour un entrepreneur tech voulant se démarquer sur LinkedIn tout en attirant l'attention de passionnés de tech, finance, tennis et du podcast Silicon Carne, la proposition de Grok serait vraisemblablement la plus efficace grâce à son ton distinctif et ses références spécifiques.

JUST GROK IT

Screen Shot 2025-03-03 at 8.39.04 AM

5 Idées de Publications LinkedIn

  1. Analyse financière avec une touche d’IA et une référence au tennis
    Partage une réflexion sur une récente levée de fonds dans une startup IA (ex. : xAI ou Anthropic), en comparant la stratégie d’investissement à un match de tennis où il faut anticiper les coups. Fais un clin d’œil à Silicon Carne pour leurs décryptages piquants.
  2. Leçon de leadership tirée du tennis et de la Silicon Valley
    Raconte une anecdote sur un grand joueur de tennis (ex. : Federer ou Nadal) et fais un parallèle avec un entrepreneur tech audacieux (ex. : Elon Musk ou Carlos Diaz de Silicon Carne), en soulignant comment l’IA transforme les règles du jeu.
  3. Tendances IA et finances décryptées façon Silicon Carne
    Reprends une actu récente sur l’IA (ex. : une nouvelle puce ou un modèle d’IA révolutionnaire) et analyse son impact potentiel sur les marchés financiers, avec un ton direct et un peu provocateur inspiré du podcast.
  4. Défi personnel lié au tennis et à l’entrepreneuriat tech
    Partage une expérience personnelle mêlant tennis (ex. : un match joué récemment) et une réflexion sur la résilience dans l’écosystème startup, en connectant ça à une actu IA ou financière.
  5. Question provocante pour engager la communauté
    Pose une question ouverte du style : « L’IA va-t-elle disrupter la finance comme Nadal a disrupté Federer à Roland-Garros ? » et invite les fans de Silicon Carne à donner leur avis dans les commentaires.

 


5 Posts LinkedIn Rédigés

Post 1 : Analyse financière et IA

"Cette semaine, xAI a levé 6 milliards pour accélérer ses projets IA. Une stratégie qui rappelle un match de tennis : anticiper les coups adverses et frapper fort au bon moment. Mais est-ce que ça suffira face à la concurrence ? Sur Silicon Carne, Carlos Diaz dirait probablement : 'C’est bien, mais où est le piquant ?' Qu’en pensez-vous : pari gagnant ou revers dans le filet pour les investisseurs ?"

Post 2 : Leadership et tennis

"Roger Federer a toujours su pivoter au bon moment sur le court. Dans la Silicon Valley, c’est pareil : Elon Musk ajuste ses coups avec Tesla et SpaceX grâce à l’IA. J’ai repensé à ça en écoutant le dernier Silicon Carne – Carlos parlait de la fin du salariat avec l’automatisation. Et vous, quel ‘service’ préparez-vous pour rester dans le match ?"

Post 3 : Actu IA et finances

"Google vient de dévoiler une puce quantique qui ridiculise les supercalculateurs. Impact potentiel ? Une révolution dans la finance, où les algos IA pourraient prédire les marchés en un smash. Silicon Carne l’a dit : la Silicon Valley ne rigole plus. Mais l’Europe, elle, est-elle déjà hors jeu ? Votre avis m’intéresse !"

Post 4 : Expérience personnelle

"Hier, j’ai joué un tie-break au tennis – 2h de résilience pour arracher la victoire. Ça m’a fait penser aux startups qui galèrent pour lever des fonds dans un climat économique tendu. L’IA pourrait être notre coach : optimiser les process, prédire les tendances. Fans de Silicon Carne, vous en pensez quoi : l’IA, ace ou faute ?"

Post 5 : Question engaging

"L’IA va-t-elle disrupter la finance comme Nadal a retourné Federer à Roland-Garros ? Entre algos prédictifs et volatilité des marchés, le score est serré. Les auditeurs de Silicon Carne savent que Carlos poserait la question cash : ‘Qui va plier ?’ Alors, vous misez sur qui ? Répondez en commentaire !"

 


5 Suggestions d’Images Illustratives (dans les codes de la startup US)

Voici des descriptions pour générer des images avec un outil comme MidJourney ou DALL-E, en respectant le style visuel audacieux, moderne et dynamique de l’écosystème startup américain (pense à des couleurs vives, un design épuré et des références geek).

Image pour Post 1 : "Analyse financière et IA"
  • Prompt : "Un court de tennis futuriste en néons bleus et oranges, avec une silhouette lançant une balle en forme de puce IA dans un ciel étoilé façon Silicon Valley. En fond, un graphe financier qui monte en flèche, style cyberpunk minimaliste."

    Code startup : Néons, tech audacieuse, vibe de levée de fonds.

Image pour Post 2 : "Leadership et tennis"
  • Prompt : "Un joueur de tennis en costume de PDG, raquette high-tech à la main, sur un court flottant au-dessus de gratte-ciels de San Francisco. Une fusée SpaceX traverse le ciel, avec des lignes de code IA en overlay subtil."

    Code startup : Vision entrepreneuriale, ambition démesurée.

Image pour Post 3 : "Actu IA et finances"
  • Prompt : "Une puce quantique géante éclairée en violet et vert, posée sur une pile de billets de banque pixélisés. En arrière-plan, une skyline de la Bay Area avec des drones transportant des data. Style rétro-futuriste."

    Code startup : Innovation disruptive, obsession des données.


Image pour Post 4 : "Expérience personnelle"
  • Prompt : "Un entrepreneur en hoodie startup (logo fictif ‘AI Ace’) jouant au tennis sur un court digital, avec des hologrammes de graphiques financiers et de lignes de code flottant autour. Palette rouge, noir et blanc, vibe gritty."

    Code startup : Hustle, authenticité, DIY.

Image pour Post 5 : "Question engaging"
  • Prompt : "Deux raquettes de tennis high-tech s’affrontant dans un duel épique, l’une estampillée ‘IA’ en néon bleu, l’autre ‘Finance’ en néon vert. Fond noir avec des éclairs électriques et un logo Silicon Carne discret dans un coin."
  • Code startup : Provocation, énergie brute, clin d’œil communautaire.

Ces posts et images sont conçus pour capter l’attention avec un mélange de storytelling, d’actualité tech/financière, et de références culturelles (tennis et Silicon Carne). Ils invitent à l’engagement tout en restant dans l’univers des entrepreneurs tech US. Si tu veux que je génère les images directement, confirme-moi et je te guiderai pour utiliser un outil adapté !

Bon je vous passe les autres résultats de Mistral, ChatGPT ou DeepDive mais je vous pouvez accéder aux conversations et mon draft ici.

Je vous laisse commenter et si vous avez des questions vous savez quoi faire !