Karpathy (génie de l'IA) : Grok 3 (nouvelle IA de Musk) = OpenAI, et aussi woke !

OP
IS

Issouimaisnon

il y a 23 jours

En un an Elon Musk a rattrapé OpenAI :

https://x.com/karpathy/status/1891720635363254772?t=BxUZ5n-Z8imWqQnO0yDzAw&mx=2

Model still appears to be just a bit too overly sensitive to "complex ethical issues", e.g. generated a 1 page essay basically refusing to answer whether it might be ethically justifiable to misgender someone if it meant saving 1 million people from dying.

Le modèle semble toujours être un peu trop sensible aux "questions éthiques complexes", par exemple, il a rédigé un essai d'une page refusant fondamentalement de répondre à la question de savoir s'il pourrait être éthiquement justifiable de mal genrer quelqu'un si cela signifiait sauver 1 million de personnes de la mort.

https://image.noelshack.com/fichiers/2019/38/4/1568878560-jesus-fume-bg-1.png

Summary. As far as a quick vibe check over 2 hours this morning, Grok 3 + Thinking feels somewhere around the state of the art territory of OpenAI's strongest models (o1-pro, $200/month), and slightly better than DeepSeek-R1 and Gemini 2.0 Flash Thinking. Which is quite incredible considering that the team started from scratch 1 year ago, this timescale to state of the art territory is unprecedented. Do also keep in mind the caveats - the models are stochastic and may give slightly different answers each time, and it is very early, so we'll have to wait for a lot more evaluations over a period of the next few days/weeks. The early LM arena results look quite encouraging indeed. For now, big congrats to the xAI team, they clearly have huge velocity and momentum and I am excited to add Grok 3 to my "LLM council" and hear what it thinks going forward.

Résumé : après une vérification rapide pendant 2 heures ce matin, Grok 3 + Thinking semble quelque part dans le territoire de pointe des modèles les plus puissants d'OpenAI (o1-pro, 200 $/mois), et légèrement meilleur que DeepSeek-R1 et Gemini 2.0 Flash Thinking. Ce qui est assez incroyable étant donné que l'équipe est partie de zéro il y a 1 an, ce délai pour atteindre le territoire de pointe est sans précédent. Gardez également à l'esprit les mises en garde - les modèles sont stochastiques et peuvent donner des réponses légèrement différentes à chaque fois, et c'est très tôt, nous devrons donc attendre beaucoup plus d'évaluations sur une période de quelques jours/semaines. Les premiers résultats de l'arène LM semblent en effet assez encourageants. Pour l'instant, félicitations à l'équipe xAI, ils ont clairement une vélocité et un élan énormes et je suis ravi d'ajouter Grok 3 à mon "conseil LLM" et d'entendre ce qu'ils pensent de l'avenir.

https://image.noelshack.com/fichiers/2024/05/7/1707045329-capture-d-ecran-2024-02-04-a-12-15-21.png

Bonus : Grok 3 classé #1 devant toute la concurrence selon les utilisateurs sur LMArena :
https://xcancel.com/MarioNawfal/status/1891759559166804079#m

https://image.noelshack.com/fichiers/2022/48/3/1669819910-foto-no-exif.jpeg

OP
IS

Issouimaisnon

il y a 23 jours

https://image.noelshack.com/fichiers/2022/48/3/1669819910-foto-no-exif.png
OP
IS

Issouimaisnon

il y a 23 jours

https://image.noelshack.com/fichiers/2024/05/7/1707045329-capture-d-ecran-2024-02-04-a-12-15-21.png
OP
IS

Issouimaisnon

il y a 23 jours

https://image.noelshack.com/fichiers/2019/38/4/1568878560-jesus-fume-bg-1.png
OO

Ooupihop

il y a 23 jours

J'attends de voir ce que va donner GPT-4.5 puis "GPT-5" https://image.noelshack.com/fichiers/2016/30/1469541952-risitas182.png
PM

PorteMantax17

il y a 23 jours

Les IA commencent à devenir vraiment puissante ça me rend tellement optimiste pour l'avenir

Hâte aussi de voir ce que donneront les premiers jeux de xAI gaming

_N

_NOELITE48_

il y a 23 jours


J'attends de voir ce que va donner GPT-4.5 puis "GPT-5" https://image.noelshack.com/fichiers/2016/30/1469541952-risitas182.png

pareil https://image.noelshack.com/fichiers/2024/05/4/1706782045-frodon-regard-smug.png

SL

slenderboyz

il y a 23 jours

donc faut utiliser quoi ? je taff toujours avec gpt 03 mini high y'a mieux ?
OP
IS

Issouimaisnon

il y a 23 jours


donc faut utiliser quoi ? je taff toujours avec gpt 03 mini high y'a mieux ?

Grok 3 Mini !

Mais en lui demandant de "think deep" !

Sinon, aucun intérêt, c'est pas mieux !

https://image.noelshack.com/fichiers/2016/43/1477517971-risitoleon-bonaparte.png

OO

Ooupihop

il y a 23 jours

Il n'a pas utilisé le mode "think", et encore moins le mode "big brain" https://image.noelshack.com/fichiers/2018/29/6/1532128784-risitas33.png

R5

ryu53

il y a 23 jours

Si il les a rattrapé pourquoi il a voulu les racheter pour 100 milliards?
OO

Ooupihop

il y a 23 jours


Si il les a rattrapé pourquoi il a voulu les racheter pour 100 milliards?

Tu peux dire ça pour plein d'entreprise.
Par ailleurs il a surement voulu faire chier Sam Altman qui veut faire passer OpenAI en "for-profit" https://image.noelshack.com/fichiers/2018/29/6/1532128784-risitas33.png

edit : factuellement OpenAI est encore devant mais les autres rattrapent leur retard rapidement, GROK ai existe depuis 1 an

OP
IS

Issouimaisnon

il y a 23 jours

Il y a eu plein d'exemples du même genre ces dernières semaines.

Sans le prompt ça ne veut rien dire.

Et suivant les prompts les résultats sont complètement différents.

En fait ça dépend de l'exactitude du prompt d'un point de vue scientifique.

On s'est rapidement aperçu au fil des jours et des exemples qu'il y avait une grande marge d'interprétation et que du code qui semblait parfait ne l'était en fait pas et que des IA éclataient celles qui au début paraissaient les meilleures si on réfléchissait bien par rapport aux lois de base des sciences physiques : leurs réalisations étaient supérieures car plus complexes.

https://image.noelshack.com/fichiers/2016/43/1477517971-risitoleon-bonaparte.png

OO

Ooupihop

il y a 23 jours

Il y a eu plein d'exemples du même genre ces dernières semaines.

Sans le prompt ça ne veut rien dire.

Et suivant les prompts les résultats sont complètement différents.

En fait ça dépend de l'exactitude du prompt d'un point de vue scientifique.

On s'est rapidement aperçu au fil des jours et des exemples qu'il y avait une grande marge d'interprétation et que du code qui semblait parfait ne l'était en fait pas et que des IA éclataient celles qui au début paraissaient les meilleures si on réfléchissait bien par rapport aux lois de base des sciences physiques : leurs réalisations étaient supérieures car plus complexes.

https://image.noelshack.com/fichiers/2016/43/1477517971-risitoleon-bonaparte.png

J'ai l'impression que beaucoup d'ahuris considèrent une IA mauvaise à partir d'un seul prompt.
En général ils n'essayent même pas d'itérer plusieurs fois. Non, juste un prompt éclaté et une sortie et si ça ne fonctionne pas alors "ahahah les ia sont merdiques mdr, ça sera toujours de la merde"
Affligeant

OP
IS

Issouimaisnon

il y a 23 jours

Tu peux dire ça pour plein d'entreprise.
Par ailleurs il a surement voulu faire chier Sam Altman qui veut faire passer OpenAI en "for-profit" https://image.noelshack.com/fichiers/2018/29/6/1532128784-risitas33.png

edit : factuellement OpenAI est encore devant mais les autres rattrapent leur retard rapidement, GROK ai existe depuis 1 an

Exact ! Le fait de faire passer OpenAI d'organisation non-profit à for-profit oblige les dirigeants à évaluer honnêtement la valeur de l'entreprise pour ne flouer personne. Donc l'offre d'Elon complique la transition qui pourrait coûter plus cher que prévu à Altman et ses associés.

https://image.noelshack.com/fichiers/2019/38/4/1568878560-jesus-fume-bg-1.png

Un article pour comprendre :
https://www.bloomberg.com/news/articles/2025-02-11/musk-s-bid-to-control-openai-complicates-for-profit-transition

OP
IS

Issouimaisnon

il y a 23 jours

J'ai l'impression que beaucoup d'ahuris considèrent une IA mauvaise à partir d'un seul prompt.
En général ils n'essayent même pas d'itérer plusieurs fois. Non, juste un prompt éclaté et une sortie et si ça ne fonctionne pas alors "ahahah les ia sont merdiques mdr, ça sera toujours de la merde"
Affligeant

Et dans le message suivant ils vont critiquer un score obtenu à un benchmark... qui contient des milliers de tests !

https://image.noelshack.com/fichiers/2019/38/4/1568878560-jesus-fume-bg-1.png

OO

Ooupihop

il y a 23 jours

Et dans le message suivant ils vont critiquer un score obtenu à un benchmark... qui contient des milliers de tests !

https://image.noelshack.com/fichiers/2019/38/4/1568878560-jesus-fume-bg-1.png

Oui
"Regardez les benchmarks ne veulent rien dire, sur mon prompt éclaté au sol ça ne fonctionne pas du premier coup de manière absolument parfaite, les IA sont nulles, la bulle va éclater" https://image.noelshack.com/fichiers/2016/26/1467335935-jesus1.png
Ils oublient de mentionner les évolutions passés (GPT-3, 2020), les découvertes continuent dans le secteur et les benchmarks de plus en plus complexes https://image.noelshack.com/fichiers/2018/27/4/1530827992-jesusreup.png

OO

Ooupihop

il y a 23 jours

Au début du test "ARC-AGI" : "Pour réussir les modèles d'IA devront être fondamentalement différentes."
Résultat 6 mois plus tard OpenAI détruit le benchmark.
Alors non le prix n'est pas remporté car il nécessite une IA open-source et une limite de ressource déployé pour le test, mais dans les faits le test est "saturé"

edit : ah oui et donc la finalité de tout ça c'est qu'ils refont un benchmark plus complexe : "ARC-AGI 2"

GM

gmpee

il y a 23 jours

Grok 3 Mini !

Mais en lui demandant de "think deep" !

Sinon, aucun intérêt, c'est pas mieux !

https://image.noelshack.com/fichiers/2016/43/1477517971-risitoleon-bonaparte.png

La V4 est mieux