Donc, OPENAI sort un LLM de niveau AGREG DE MATHS

62 messages

Mise à jour: il y a 7 mois

sinusDUBAI

il y a 8 mois

Mais tout le monde s'en brande, chaud

Boucledent344

il y a 8 mois

C'est son seul glow up d'avoir intégré une calculette
Sinon hormis ça c'est de la merde cette maj, c'est pareil sauf qu'il met 3 plombes à répondre

sinusDUBAI

il y a 8 mois

Pour les grotteux leur nouveau modèle o1 = GPT-4o qui prend le temps de raisonner = niveau agreg en maths/physique

sinusDUBAI

il y a 8 mois

C'est son seul glow up d'avoir intégré une calculette
Sinon hormis ça c'est de la merde cette maj, c'est pareil sauf qu'il met 3 plombes à répondre

Premier desco qui a rien compris à la révolution

shittynickname

il y a 8 mois

C'est son seul glow up d'avoir intégré une calculette
Sinon hormis ça c'est de la merde cette maj, c'est pareil sauf qu'il met 3 plombes à répondre

Tell me you are a low IQ desco without telling me you're a low IQ desco

Juliecornes

il y a 8 mois

Pour les grotteux leur nouveau modèle o1 = GPT-4o qui prend le temps de raisonner = niveau agreg en maths/physique

C'est pas supposé être le même modèle que 4o, mais qui est fine-tune pour s'auto-prompter?

SniffeurDeFiak

il y a 8 mois

Ya pas chatgpt 5 qui doit sortir bientôt ou c'est leur modèle o1?

FouALier225

il y a 8 mois

OSEF le film d'Inoxtag vient de sortir

sinusDUBAI

il y a 8 mois

C'est pas supposé être le même modèle que 4o, mais qui est fine-tune pour s'auto-prompter?

Oui c'est ce que je dis

Imagine la révolution GPT-5 o2

sinusDUBAI

il y a 8 mois

Ya pas chatgpt 5 qui doit sortir bientôt ou c'est leur modèle o1?

Non o1 c'est GPT-4o qui prend le temps de raisonner

GPT-5 arrive en 2025

Juliecornes

il y a 8 mois

Oui c'est ce que je dis
Imagine la révolution GPT-5 o2

D'ailleurs troll à part, pourquoi il se surnomme o1 alors que pour le moment il est impossible d'y envoyer des fichiers (audio/video/images/excel…) ?

sinusDUBAI

il y a 8 mois

D'ailleurs troll à part, pourquoi il se surnomme o1 alors que pour le moment il est impossible d'y envoyer des fichiers (audio/video/images/excel…) ?

Ca va arriver

gagazaga

il y a 8 mois

Pour les grotteux leur nouveau modèle o1 = GPT-4o qui prend le temps de raisonner = niveau agreg en maths/physique

il est fort sur des problemes bien connus mais il se vautre sur des problèmes très simples si la formulation est originale

sinusDUBAI

il y a 8 mois

il est fort sur des problemes bien connus mais il se vautre sur des problèmes très simples si la formulation est originale

Not ready pour GPT-5 o2

Juliecornes

il y a 8 mois

Ca va arriver

Bah j'espère bien, étant donné que le o est supposé être pour « Omni » (donc pouvoir utiliser différentes formes d'input et pouvoir en sortir des output avec des formats differents).

Pour l'instant c'est tout sauf Omni (même si j'imagine que c'est parce que c'est en pré-release et que ça viendra par vagues..)

sinusDUBAI

il y a 8 mois

Bah j'espère bien, étant donné que le o est supposé être pour « Omni » (donc pouvoir utiliser différentes formes d'input et pouvoir en sortir des output avec des formats differents).
Pour l'instant c'est tout sauf Omni (même si j'imagine que c'est parce que c'est en pré-release et que ça viendra par vagues..)

Oui l'architecture est omni mais pour l'instant elle est bloquée

Juliecornes

il y a 8 mois

Oui l'architecture est omni mais pour l'instant elle est bloquée

Bref, en attendant la release total, ce modèle n'a absolument aucun intérêt.

Je préfère largement la version 4o, avec laquelle je peux feed des PDF, des excels ou mon bloc note..

Juliecornes

il y a 8 mois

Et l'UX est toujours aux fraises. Perplexity est largement au dessus à ce niveau, c'est dingue que GPT ne s'y intéresse pas.

BoulangerFier

il y a 8 mois

Ils ont enfin mis le plugin Casio Fx92 sur ChatGPT ?

UAP2044

il y a 8 mois

Ils ont enfin mis le plugin Casio Fx92 sur ChatGPT ?

aucune casio ne fait ce qu'il fait

Juliecornes

il y a 8 mois

aucune casio ne fait ce qu'il fait

Mais la casio sait calculer des puissances.

Pour rappel :

EIBougnador

il y a 8 mois

Lien ?

GR_PAR_IA

il y a 8 mois

Très bon en médecine aussi.
https://x.com/DeryaTR_/status/1834630356286558336

Juliecornes

il y a 8 mois

Très bon en médecine aussi.
https://x.com/DeryaTR_/status/1834630356286558336

Je serai très intéressé de voir les liens d'étude, et pas uniquement le résultat. Aurais-tu les liens?

Parce que je suis quasiment certain qu'il ne s'agit pas des modèles disponibles sur le marché (et qui sont très généralistes), mais de modèles fine-tuné qui ont été entraîné uniquement sur un certain jeu de donné pour éviter toutes hallucinations.

Évidement ça n'enlève rien à l'exploit, et c'est largement reproductible pour le grand-publique (étant donné qu'il est possible plus tous d'entraîner l'IA avec des propres jeux de données), mais du coup c'est pas très honnête, et surtout ça demande beaucoup de boulots, de connaissances, et d'accès à ces datas, pour répliquer l'exploit.

C'est d'ailleurs le « gros » problèmes des LLM aujourd'hui qui sont incapable de hiérarchiser les datas et qui « hallucinent ». La seule manière connu à ce jour pour éviter ça, c'est de réduire les datas dans le LLM (en y enlevant tout ce qui n'est pas pertinent pour notre cas de figure)

Prob3corps2

il y a 8 mois

A cette vitesse, les khey on se donne rdv tous au France Travail en 2030

GR_PAR_IA

il y a 8 mois

Je serai très intéressé de voir les liens d'étude, et pas uniquement le résultat. Aurais-tu les liens?
Parce que je suis quasiment certain qu'il ne s'agit pas des modèles disponibles sur le marché (et qui sont très généralistes), mais de modèles fine-tuné qui ont été entraîné uniquement sur un certain jeu de donné pour éviter toutes hallucinations.
Évidement ça n'enlève rien à l'exploit, et c'est largement reproductible pour le grand-publique (étant donné qu'il est possible plus tous d'entraîner l'IA avec des propres jeux de données), mais du coup c'est pas très honnête, et surtout ça demande beaucoup de boulots, de connaissances, et d'accès à ces datas, pour répliquer l'exploit.
C'est d'ailleurs le « gros » problèmes des LLM aujourd'hui qui sont incapable de hiérarchiser les datas et qui « hallucinent ». La seule manière connu à ce jour pour éviter ça, c'est de réduire les datas dans le LLM (en y enlevant tout ce qui n'est pas pertinent pour notre cas de figure)

Justement les LLMs qui hallucinent le moins sont les gros modèles généralistes, même un petit modèle genre un 7B sur lequel tu flanques un LoRa sur un dataset précis va finir par halluciner beaucoup plus rapidement.

C'est justement pour ça que les résultats sont impressionnant car ce sont des LLM généralistes comme dit, mais une fois fine-tunés ils peuvent être encore plus puissant dans des tâches précises.

(J'ai pas le lien sinon, je crois pas que ce soit une étude, les seules intéressantes sur les LLM en diagnostic différentiel proviennent de Google de souvenir)

Juliecornes

il y a 8 mois

Justement les LLMs qui hallucinent le moins sont les gros modèles généralistes, même un petit modèle genre un 7B sur lequel tu flanques un LoRa sur un dataset précis va finir par halluciner beaucoup plus rapidement.
C'est justement pour ça que les résultats sont impressionnant car ce sont des LLM généralistes comme dit, mais une fois fine-tunés ils peuvent être encore plus puissant dans des tâches précises.
(J'ai pas le lien sinon, je crois pas que ce soit une étude, les seules intéressantes sur les LLM en diagnostic différentiel proviennent de Google de souvenir)

https://voca.ro/1kOCclGi5jYn

Vitre_en_or

il y a 8 mois

il est fort sur des problemes bien connus mais il se vautre sur des problèmes très simples si la formulation est originale

On entraine notre modèle LLM sur des problèmes de math précis avec la démonstration et on se sent révolutionnaire

GR_PAR_IA

il y a 8 mois

https://voca.ro/1kOCclGi5jYn

Oui c'est ce que je tentais d'expliquer justement, les petits modèles fine-tunés hallucinent beaucoup trop, les gros modèles aussi mais moins, mais toujours trop. C'est un problème lié à l'architecture auto-régressive des LLMs, qui font que justement l'output sera jamais 100% trustable.

Je pense juste que dans pas mal de cas, cette marge d'erreur peut être diminuée au point d'être tolérable (avec un gros modèle fine-tuné sur un dataset propre et précis, bien paramétré). Faut être la plupart des médecins font énormément d'erreurs (comme tout le monde), donc même si on atteint pas le 100% comme dans le résultat que j'avais montré, ça sera toujours intéressant pour le patient d'avoir un second avis avec.

Gloubichou

il y a 8 mois

Et l'UX est toujours aux fraises. Perplexity est largement au dessus à ce niveau, c'est dingue que GPT ne s'y intéresse pas.

C'est drôle ça. UX aux fraises, alors que le codename c'était strawberry. Haha. Riez mes kheys .

Juliecornes

il y a 8 mois

Oui c'est ce que je tentais d'expliquer justement, les petits modèles fine-tunés hallucinent beaucoup trop, les gros modèles aussi mais moins, mais toujours trop. C'est un problème lié à l'architecture auto-régressive des LLMs, qui font que justement l'output sera jamais 100% trustable.

Le problème c'est qu'il y a trop d'industrie, si l'output n'est pas à 100% accurate, c'est inexploitable.

Je te parlais de l'aérospatial, mais c'est aussi le cas dans l'industrie pharmaceutique etc…

T'es certes obligé de passer par des gros modèles, mais par la suite retirer tout un tas de data à l'IA et en rajouter pleins d'autres.

Pour te donner un exemple, un avionneur à essaye d'utiliser l'IA pour donner le work-order aux ouvriers.

L'IA hallucinait beaucoup trop, parce qu'elle disait à l'ouvrier de visser le boulon ABC-123 sur l'aile gauche de l'avion, alors que c'était totalement faux, sur ce modèle Y, c'est sur la queue.

En fait c'est parce que le modèle Y possède beaucoup moins de documentation que le modèle X, et que ce même boulon possède bien plus de données sur le modèle X que Y.

Bref, la seule solution (pour le moment), c'est d'avoir 2 gros modèles, mais l'un avec les datas du modèle X Et l'autre du modèle Y, pour éviter toutes formes d'hallucinations

Juliecornes

il y a 8 mois

C'est drôle ça. UX aux fraises, alors que le codename c'était strawberry. Haha. Riez mes kheys .

Hihi

GR_PAR_IA

il y a 8 mois

Oui c'est ce que je tentais d'expliquer justement, les petits modèles fine-tunés hallucinent beaucoup trop, les gros modèles aussi mais moins, mais toujours trop. C'est un problème lié à l'architecture auto-régressive des LLMs, qui font que justement l'output sera jamais 100% trustable.
Je pense juste que dans pas mal de cas, cette marge d'erreur peut être diminuée au point d'être tolérable (avec un gros modèle fine-tuné sur un dataset propre et précis, bien paramétré). Faut être réaliste la plupart des médecins font énormément d'erreurs (comme tout le monde), donc même si on atteint pas le 100% comme dans le résultat que j'avais montré, ça sera toujours intéressant pour le patient d'avoir au moins un second avis avec.

On peut comparer les LLMs avec une régression linéaire (ou pas forcément linéaire) pour mieux comprendre : si tu as trop peu de données, ta régression ne sera pas fiable et ne prédira pas bien, si tu en as trop, ta régression collera trop aux données et sera mauvaise en prédiction aussi.

C'est pour ça qu'un modèle seulement entraîné avec des données précises sera pas aussi bon qu'un modèle plus gros mais généraliste (idéalement fine-tuné). Si le but c'est d'avoir des informations techniques précises de façon constante alors un chatbot LLM est pas la bonne solution je pense. Ou alors il faut explorer un système agentique avec RAG et mettre en place des verrous pour ça (si ça en vaut la peine).

GR_PAR_IA

il y a 8 mois

Le problème c'est qu'il y a trop d'industrie, si l'output n'est pas à 100% accurate, c'est inexploitable.
Je te parlais de l'aérospatial, mais c'est aussi le cas dans l'industrie pharmaceutique etc…
T'es certes obligé de passer par des gros modèles, mais par la suite retirer tout un tas de data à l'IA et en rajouter pleins d'autres.
Pour te donner un exemple, un avionneur à essaye d'utiliser l'IA pour donner le work-order aux ouvriers.
L'IA hallucinait beaucoup trop, parce qu'elle disait à l'ouvrier de visser le boulon ABC-123 sur l'aile gauche de l'avion, alors que c'était totalement faux, sur ce modèle Y, c'est sur la queue.
En fait c'est parce que le modèle Y possède beaucoup moins de documentation que le modèle X, et que ce même boulon possède bien plus de données sur le modèle X que Y.
Bref, la seule solution (pour le moment), c'est d'avoir 2 gros modèles, mais l'un avec les datas du modèle X Et l'autre du modèle Y, pour éviter toutes formes d'hallucinations

Oui c'est le cas pour beaucoup d'industries. Après justement en pharmacologie on accepte déjà de ne pas avoir de la reproductibilité à 100%. On accepte que dans 0.1% des cas le paracétamol va avoir des effets délétères. Le ML est pas mal pour trouver des patterns intéressants en drug discovery d'ailleurs même si je m'égare.

Ce que je veux dire aussi, c'est qu'il faut pas forcément tenter de prédire le futur avec la technologie actuelle, car elle s'améliore, la précision des LLMs aussi, même si du fait de leur nature, ne sera jamais 100% fiable. Outre une nouvelle architecture qui s'affranchira de ses limitations, les modèles s'amélioreront, des systèmes multi-agents se développeront, des meilleurs mécanismes de prompting aussi (ce qu'est o1 basiquement).

Dans le cas que tu donnes, je ne pense pas qu'un LLM ait été la bonne solution.

Juliecornes

il y a 8 mois

Oui c'est le cas pour beaucoup d'industries. Après justement en pharmacologie on accepte déjà de ne pas avoir de la reproductibilité à 100%. On accepte que dans 0.1% des cas le paracétamol va avoir des effets délétères. Le ML est pas mal pour trouver des patterns intéressants en drug discovery d'ailleurs même si je m'égare.
Ce que je veux dire aussi, c'est qu'il faut pas forcément tenter de prédire le futur avec la technologie actuelle, car elle s'améliore, la précision des LLMs aussi, même si du fait de leur nature, ne sera jamais 100% fiable. Outre une nouvelle architecture qui s'affranchira de ses limitations, les modèles s'amélioreront, des systèmes multi-agents se développeront, des meilleurs mécanismes de prompting aussi (ce qu'est o1 basiquement).

Bref, pour le moment nous n'y sommes pas encore. C'est vraiment en travaillant dans le conseil que je me suis rendu compte qu'aujourd'hui l'IA n'est pas assez performante pour être exploitable dans de nombreuses industries, parce que l'erreur peut-être trop grave. (C'est pas comme pour le grand public ou ça n'a pas d'impact si l'IA se trompe de 10ans sur la date de la mort d'un empereur romain).

Et pourtant ils ont tout essayé, ML, DL, GenAI. Ils se sont fait épauler de Capegemini, Accenture, Microsoft, OpenAI, mais rien n'y fait.

Bon, de toute façon la grande mode aujourd'hui c'est les digital Twin. T'en as absolument partout, tout le temps.

Dark-vg2

il y a 8 mois

El famoso agreg de maths alors que quand je lui de mande de me faire une réduction dans l'AGM il dit qu'on peut calculer le log discret

Juliecornes

il y a 8 mois

El famoso agreg de maths alors que quand je lui de mande de me faire une réduction dans l'AGM il dit qu'on peut calculer le log discret

Même pas capable de calculer une puissance. (Je te laisse faire le calcul avec ta calculatrice Ahi)

GR_PAR_IA

il y a 8 mois

Bref, pour le moment nous n'y sommes pas encore. C'est vraiment en travaillant dans le conseil que je me suis rendu compte qu'aujourd'hui l'IA n'est pas assez performante pour être exploitable dans de nombreuses industries, parce que l'erreur peut-être trop grave. (C'est pas comme pour le grand public ou ça n'a pas d'impact si l'IA se trompe de 10ans sur la date de la mort d'un empereur romain).
Et pourtant ils ont tout essayé, ML, DL, GenAI. Ils se sont fait épauler de Capegemini, Accenture, Microsoft, OpenAI, mais rien n'y fait.
Bon, de toute façon la grande mode aujourd'hui c'est les digital Twin. T'en as absolument partout, tout le temps.

Le problème c'est qu'on veut adopter l'IA générative pour tout et n'importe quoi quand ce n'est pas la bonne solution. Mais comme c'est cool et que c'est "intelligent", ça intrigue. Et là on parle vraiment de LLMs. Par contre il y a vraiment plein de cas en industrie où les IA "non-génératives" (des systèmes experts qui font purement de la régression, de la classification) sont plutôt adaptés et déjà utilisés.

GR_PAR_IA

il y a 8 mois

Même pas capable de calculer une puissance. (Je te laisse faire le calcul avec ta calculatrice Ahi)

Marrant, mon Claude avec mon prompt reflection se débrouille mieux.

Juliecornes

il y a 8 mois

Le problème c'est qu'on veut adopter l'IA générative pour tout et n'importe quoi quand ce n'est pas la bonne solution. Mais comme c'est cool et que c'est "intelligent", ça intrigue. Et là on parle vraiment de LLMs. Par contre il y a vraiment plein de cas en industrie où les IA "non-génératives" (des systèmes experts qui font purement de la régression, de la classification) sont plutôt adaptés et déjà utilisés.

Non mais tu prêches un convaincu, je suis designer et consultant dans le secteur de la tech.

Évidement que parfois ça n'a aucun sens d'y mettre de la GenAI, et que parfois la solution pourrait se faire avec 2 bouts de bois et 1 morceau de ficelle.

Sauf qu'on est avant tout des « vendeurs », et que si je dis à mon client (qui sont tous au CaC40) que je peux trouver une solution bien moins cher et tout aussi efficace (voir mieux) avec de la « vieille techno » le client va nous rire au nez en plus de ne pas acheter.

S'il viens chez nous (experts en innovation) c'est pour repartir avec un gros joujou (parfois même pas viable pour son problème).

Juliecornes

il y a 8 mois

Marrant, mon Claude avec mon prompt reflection se débrouille mieux.

Ahi.

Mais c'est pour ça qu'aujourd'hui le mieux c'est de jongler entre plusieurs modèles en fonction de ce que tu désires faire.

D'ailleurs, il y a perplexity pour ça

Michelchey

il y a 8 mois

Pour les grotteux leur nouveau modèle o1 = GPT-4o qui prend le temps de raisonner = niveau agreg en maths/physique

Ce que je retiens c'est que pour en profiter faut payer.

Michelchey

il y a 8 mois

Marrant, mon Claude avec mon prompt reflection se débrouille mieux.

Bordel c'est qui Claude encore ?

GR_PAR_IA

il y a 8 mois

Ahi.
Mais c'est pour ça qu'aujourd'hui le mieux c'est de jongler entre plusieurs modèles en fonction de ce que tu désires faire.
D'ailleurs, il y a perplexity pour ça

J'utilise Kagi pour ça qui est assez similaire dans l'esprit, mais ouais, c'est une bonne idée de pas se limiter à un seul modèle.

Pour assister au code, Claude 3.5 Sonnet est le mieux, mais putain qu'est-ce qu'il est censuré et moralisateur par contre. Quand je veux juste converser un peu je préfère Mistral Large 2 ou Llama 3.1 405B.

GR_PAR_IA

il y a 8 mois

Bordel c'est qui Claude encore ?

Juliecornes

il y a 8 mois

J'utilise Kagi pour ça qui est assez similaire dans l'esprit, mais ouais, c'est une bonne idée de pas se limiter à un seul modèle.
Pour assister au code, Claude 3.5 Sonnet est le mieux, mais putain qu'est-ce qu'il est censuré et moralisateur par contre. Quand je veux juste converser un peu je préfère Mistral Large 2 ou Llama 3.1 405B.

Oui, au bureau on utilise un LLM interne qui en réalité se base sur tout les modèles existants sur le marché.

Reste plus qu'à nous salariés, de sélectionner le bon modèle avant de l'utiliser.

Par contre, ce qui serait intéressant (et que je n'ai jamais fait), c'est de chopper les différents benchmark pour savoir concrètement quels modèles est le meilleur pour X ou Y actions

Dark-vg2

il y a 8 mois

Bref, pour le moment nous n'y sommes pas encore. C'est vraiment en travaillant dans le conseil que je me suis rendu compte qu'aujourd'hui l'IA n'est pas assez performante pour être exploitable dans de nombreuses industries, parce que l'erreur peut-être trop grave. (C'est pas comme pour le grand public ou ça n'a pas d'impact si l'IA se trompe de 10ans sur la date de la mort d'un empereur romain).
Et pourtant ils ont tout essayé, ML, DL, GenAI. Ils se sont fait épauler de Capegemini, Accenture, Microsoft, OpenAI, mais rien n'y fait.
Bon, de toute façon la grande mode aujourd'hui c'est les digital Twin. T'en as absolument partout, tout le temps.

Super intéressant ça par contre
C'est un peu l'impression que j'ai et que, effectivement pour certaines taches, ie. Qui ne nécessitent pas 100% de précision mais une grande quantité de connaissance (diag medical par exemple) ou qui sont facile à vérifier("code" avec de gros guillemets), un LLM c'est génial
Par contre demander à un LLM un résultat critique qui doit etre fiable (autant en industrie qu'en science, ie. Une preuve par exemple), c'est vraiment pas une bonne idée

GR_PAR_IA

il y a 8 mois

Oui, au bureau on utilise un LLM interne qui en réalité se base sur tout les modèles existants sur le marché.
Reste plus qu'à nous salariés, de sélectionner le bon modèle avant de l'utiliser.
Par contre, ce qui serait intéressant (et que je n'ai jamais fait), c'est de chopper les différents benchmark pour savoir concrètement quels modèles est le meilleur pour X ou Y actions

Pour les modèles grand publics je me fie surtout à livebench : https://livebench.ai/
Qui justement se base sur différentes catégories, et problèmes qui devraient ne pas être présent dans l'entraînement des modèles en question (peu d'intérêt sinon), et du coup en conséquence il est régulièrement mis à jour (environ chaque mois, donc les scores peuvent changer, même si le classement ne bouge pas sauf incident majeur).

GR_PAR_IA

il y a 8 mois

Super intéressant ça par contre
C'est un peu l'impression que j'ai et que, effectivement pour certaines taches, ie. Qui ne nécessitent pas 100% de précision mais une grande quantité de connaissance (diag medical par exemple) ou qui sont facile à vérifier("code" avec de gros guillemets), un LLM c'est génial
Par contre demander à un LLM un résultat critique qui doit etre fiable (autant en industrie qu'en science, ie. Une preuve par exemple), c'est vraiment pas une bonne idée

Voilà, après il faut pas oublier qu'il n'y pas que les LLMs et des systèmes non-génératifs qui peuvent passer un processus rigoureux de formalisation.

Dark-vg2

il y a 8 mois

J'utilise Kagi pour ça qui est assez similaire dans l'esprit, mais ouais, c'est une bonne idée de pas se limiter à un seul modèle.
Pour assister au code, Claude 3.5 Sonnet est le mieux, mais putain qu'est-ce qu'il est censuré et moralisateur par contre. Quand je veux juste converser un peu je préfère Mistral Large 2 ou Llama 3.1 405B.

Claude meilleur que mixstral pour du code ?

À voir aussi

AGREG MATHS résultats

il y a 5 jours

[MATHS] BESOIN d'une RÉFÉRENCE pour l'AGRÉGATION

il y a 10 mois

[MATHS] fraude en maths je passe l'agreg dans 3 semaines

il y a 3 mois

Réviser l'agrégation de maths avec CHAT GPT

il y a 6 mois

la planque ULTIME: prof agrégé de math

il y a 7 mois