Donc, OPENAI sort un LLM de niveau AGREG DE MATHS
Boucledent344
il y a 8 mois
C'est son seul glow up d'avoir intégré une calculette
Sinon hormis ça c'est de la merde cette maj, c'est pareil sauf qu'il met 3 plombes à répondre
sinusDUBAI
il y a 8 mois
Pour les grotteux leur nouveau modèle o1 = GPT-4o qui prend le temps de raisonner = niveau agreg en maths/physique
sinusDUBAI
il y a 8 mois
C'est son seul glow up d'avoir intégré une calculette
Sinon hormis ça c'est de la merde cette maj, c'est pareil sauf qu'il met 3 plombes à répondre
Premier desco qui a rien compris à la révolution
shittynickname
il y a 8 mois
C'est son seul glow up d'avoir intégré une calculette
Sinon hormis ça c'est de la merde cette maj, c'est pareil sauf qu'il met 3 plombes à répondre
Tell me you are a low IQ desco without telling me you're a low IQ desco
Juliecornes
il y a 8 mois
Pour les grotteux leur nouveau modèle o1 = GPT-4o qui prend le temps de raisonner = niveau agreg en maths/physique
C'est pas supposé être le même modèle que 4o, mais qui est fine-tune pour s'auto-prompter?
SniffeurDeFiak
il y a 8 mois
Ya pas chatgpt 5 qui doit sortir bientôt ou c'est leur modèle o1?
FouALier225
il y a 8 mois
OSEF le film d'Inoxtag vient de sortir
sinusDUBAI
il y a 8 mois
C'est pas supposé être le même modèle que 4o, mais qui est fine-tune pour s'auto-prompter?
Oui c'est ce que je dis
Imagine la révolution GPT-5 o2
sinusDUBAI
il y a 8 mois
Ya pas chatgpt 5 qui doit sortir bientôt ou c'est leur modèle o1?
Non o1 c'est GPT-4o qui prend le temps de raisonner
GPT-5 arrive en 2025
Juliecornes
il y a 8 mois
Oui c'est ce que je dis
Imagine la révolution GPT-5 o2
D'ailleurs troll à part, pourquoi il se surnomme o1 alors que pour le moment il est impossible d'y envoyer des fichiers (audio/video/images/excel…) ?
sinusDUBAI
il y a 8 mois
D'ailleurs troll à part, pourquoi il se surnomme o1 alors que pour le moment il est impossible d'y envoyer des fichiers (audio/video/images/excel…) ?
Ca va arriver
gagazaga
il y a 8 mois
Pour les grotteux leur nouveau modèle o1 = GPT-4o qui prend le temps de raisonner = niveau agreg en maths/physique
il est fort sur des problemes bien connus mais il se vautre sur des problèmes très simples si la formulation est originale
sinusDUBAI
il y a 8 mois
il est fort sur des problemes bien connus mais il se vautre sur des problèmes très simples si la formulation est originale
Not ready pour GPT-5 o2
Juliecornes
il y a 8 mois
Ca va arriver
Bah j'espère bien, étant donné que le o est supposé être pour « Omni » (donc pouvoir utiliser différentes formes d'input et pouvoir en sortir des output avec des formats differents).
Pour l'instant c'est tout sauf Omni (même si j'imagine que c'est parce que c'est en pré-release et que ça viendra par vagues..)
sinusDUBAI
il y a 8 mois
Bah j'espère bien, étant donné que le o est supposé être pour « Omni » (donc pouvoir utiliser différentes formes d'input et pouvoir en sortir des output avec des formats differents).
Pour l'instant c'est tout sauf Omni (même si j'imagine que c'est parce que c'est en pré-release et que ça viendra par vagues..)
Oui l'architecture est omni mais pour l'instant elle est bloquée
Juliecornes
il y a 8 mois
Oui l'architecture est omni mais pour l'instant elle est bloquée
Bref, en attendant la release total, ce modèle n'a absolument aucun intérêt.
Je préfère largement la version 4o, avec laquelle je peux feed des PDF, des excels ou mon bloc note..
Juliecornes
il y a 8 mois
Et l'UX est toujours aux fraises. Perplexity est largement au dessus à ce niveau, c'est dingue que GPT ne s'y intéresse pas.
BoulangerFier
il y a 8 mois
Ils ont enfin mis le plugin Casio Fx92 sur ChatGPT ?
UAP2044
il y a 8 mois
Ils ont enfin mis le plugin Casio Fx92 sur ChatGPT ?
aucune casio ne fait ce qu'il fait
EIBougnador
il y a 8 mois
Lien ?
GR_PAR_IA
il y a 8 mois
Très bon en médecine aussi.
https://x.com/DeryaTR_/status/1834630356286558336
Juliecornes
il y a 8 mois
Très bon en médecine aussi.
https://x.com/DeryaTR_/status/1834630356286558336
Je serai très intéressé de voir les liens d'étude, et pas uniquement le résultat. Aurais-tu les liens?
Parce que je suis quasiment certain qu'il ne s'agit pas des modèles disponibles sur le marché (et qui sont très généralistes), mais de modèles fine-tuné qui ont été entraîné uniquement sur un certain jeu de donné pour éviter toutes hallucinations.
Évidement ça n'enlève rien à l'exploit, et c'est largement reproductible pour le grand-publique (étant donné qu'il est possible plus tous d'entraîner l'IA avec des propres jeux de données), mais du coup c'est pas très honnête, et surtout ça demande beaucoup de boulots, de connaissances, et d'accès à ces datas, pour répliquer l'exploit.
C'est d'ailleurs le « gros » problèmes des LLM aujourd'hui qui sont incapable de hiérarchiser les datas et qui « hallucinent ». La seule manière connu à ce jour pour éviter ça, c'est de réduire les datas dans le LLM (en y enlevant tout ce qui n'est pas pertinent pour notre cas de figure)
Prob3corps2
il y a 8 mois
A cette vitesse, les khey on se donne rdv tous au France Travail en 2030
GR_PAR_IA
il y a 8 mois
Je serai très intéressé de voir les liens d'étude, et pas uniquement le résultat. Aurais-tu les liens?
Parce que je suis quasiment certain qu'il ne s'agit pas des modèles disponibles sur le marché (et qui sont très généralistes), mais de modèles fine-tuné qui ont été entraîné uniquement sur un certain jeu de donné pour éviter toutes hallucinations.
Évidement ça n'enlève rien à l'exploit, et c'est largement reproductible pour le grand-publique (étant donné qu'il est possible plus tous d'entraîner l'IA avec des propres jeux de données), mais du coup c'est pas très honnête, et surtout ça demande beaucoup de boulots, de connaissances, et d'accès à ces datas, pour répliquer l'exploit.
C'est d'ailleurs le « gros » problèmes des LLM aujourd'hui qui sont incapable de hiérarchiser les datas et qui « hallucinent ». La seule manière connu à ce jour pour éviter ça, c'est de réduire les datas dans le LLM (en y enlevant tout ce qui n'est pas pertinent pour notre cas de figure)
Justement les LLMs qui hallucinent le moins sont les gros modèles généralistes, même un petit modèle genre un 7B sur lequel tu flanques un LoRa sur un dataset précis va finir par halluciner beaucoup plus rapidement.
C'est justement pour ça que les résultats sont impressionnant car ce sont des LLM généralistes comme dit, mais une fois fine-tunés ils peuvent être encore plus puissant dans des tâches précises.
(J'ai pas le lien sinon, je crois pas que ce soit une étude, les seules intéressantes sur les LLM en diagnostic différentiel proviennent de Google de souvenir)
Juliecornes
il y a 8 mois
Justement les LLMs qui hallucinent le moins sont les gros modèles généralistes, même un petit modèle genre un 7B sur lequel tu flanques un LoRa sur un dataset précis va finir par halluciner beaucoup plus rapidement.
C'est justement pour ça que les résultats sont impressionnant car ce sont des LLM généralistes comme dit, mais une fois fine-tunés ils peuvent être encore plus puissant dans des tâches précises.
(J'ai pas le lien sinon, je crois pas que ce soit une étude, les seules intéressantes sur les LLM en diagnostic différentiel proviennent de Google de souvenir)
Vitre_en_or
il y a 8 mois
il est fort sur des problemes bien connus mais il se vautre sur des problèmes très simples si la formulation est originale
On entraine notre modèle LLM sur des problèmes de math précis avec la démonstration et on se sent révolutionnaire
GR_PAR_IA
il y a 8 mois
Oui c'est ce que je tentais d'expliquer justement, les petits modèles fine-tunés hallucinent beaucoup trop, les gros modèles aussi mais moins, mais toujours trop. C'est un problème lié à l'architecture auto-régressive des LLMs, qui font que justement l'output sera jamais 100% trustable.
Je pense juste que dans pas mal de cas, cette marge d'erreur peut être diminuée au point d'être tolérable (avec un gros modèle fine-tuné sur un dataset propre et précis, bien paramétré). Faut être la plupart des médecins font énormément d'erreurs (comme tout le monde), donc même si on atteint pas le 100% comme dans le résultat que j'avais montré, ça sera toujours intéressant pour le patient d'avoir un second avis avec.
Gloubichou
il y a 8 mois
Et l'UX est toujours aux fraises. Perplexity est largement au dessus à ce niveau, c'est dingue que GPT ne s'y intéresse pas.
C'est drôle ça. UX aux fraises, alors que le codename c'était strawberry. Haha. Riez mes kheys .
Juliecornes
il y a 8 mois
Oui c'est ce que je tentais d'expliquer justement, les petits modèles fine-tunés hallucinent beaucoup trop, les gros modèles aussi mais moins, mais toujours trop. C'est un problème lié à l'architecture auto-régressive des LLMs, qui font que justement l'output sera jamais 100% trustable.
Le problème c'est qu'il y a trop d'industrie, si l'output n'est pas à 100% accurate, c'est inexploitable.
Je te parlais de l'aérospatial, mais c'est aussi le cas dans l'industrie pharmaceutique etc…
T'es certes obligé de passer par des gros modèles, mais par la suite retirer tout un tas de data à l'IA et en rajouter pleins d'autres.
Pour te donner un exemple, un avionneur à essaye d'utiliser l'IA pour donner le work-order aux ouvriers.
L'IA hallucinait beaucoup trop, parce qu'elle disait à l'ouvrier de visser le boulon ABC-123 sur l'aile gauche de l'avion, alors que c'était totalement faux, sur ce modèle Y, c'est sur la queue.
En fait c'est parce que le modèle Y possède beaucoup moins de documentation que le modèle X, et que ce même boulon possède bien plus de données sur le modèle X que Y.
Bref, la seule solution (pour le moment), c'est d'avoir 2 gros modèles, mais l'un avec les datas du modèle X Et l'autre du modèle Y, pour éviter toutes formes d'hallucinations
Juliecornes
il y a 8 mois
C'est drôle ça. UX aux fraises, alors que le codename c'était strawberry. Haha. Riez mes kheys .
Hihi
GR_PAR_IA
il y a 8 mois
Oui c'est ce que je tentais d'expliquer justement, les petits modèles fine-tunés hallucinent beaucoup trop, les gros modèles aussi mais moins, mais toujours trop. C'est un problème lié à l'architecture auto-régressive des LLMs, qui font que justement l'output sera jamais 100% trustable.
Je pense juste que dans pas mal de cas, cette marge d'erreur peut être diminuée au point d'être tolérable (avec un gros modèle fine-tuné sur un dataset propre et précis, bien paramétré). Faut être réaliste la plupart des médecins font énormément d'erreurs (comme tout le monde), donc même si on atteint pas le 100% comme dans le résultat que j'avais montré, ça sera toujours intéressant pour le patient d'avoir au moins un second avis avec.
On peut comparer les LLMs avec une régression linéaire (ou pas forcément linéaire) pour mieux comprendre : si tu as trop peu de données, ta régression ne sera pas fiable et ne prédira pas bien, si tu en as trop, ta régression collera trop aux données et sera mauvaise en prédiction aussi.
C'est pour ça qu'un modèle seulement entraîné avec des données précises sera pas aussi bon qu'un modèle plus gros mais généraliste (idéalement fine-tuné). Si le but c'est d'avoir des informations techniques précises de façon constante alors un chatbot LLM est pas la bonne solution je pense. Ou alors il faut explorer un système agentique avec RAG et mettre en place des verrous pour ça (si ça en vaut la peine).
GR_PAR_IA
il y a 8 mois
Le problème c'est qu'il y a trop d'industrie, si l'output n'est pas à 100% accurate, c'est inexploitable.
Je te parlais de l'aérospatial, mais c'est aussi le cas dans l'industrie pharmaceutique etc…
T'es certes obligé de passer par des gros modèles, mais par la suite retirer tout un tas de data à l'IA et en rajouter pleins d'autres.
Pour te donner un exemple, un avionneur à essaye d'utiliser l'IA pour donner le work-order aux ouvriers.
L'IA hallucinait beaucoup trop, parce qu'elle disait à l'ouvrier de visser le boulon ABC-123 sur l'aile gauche de l'avion, alors que c'était totalement faux, sur ce modèle Y, c'est sur la queue.
En fait c'est parce que le modèle Y possède beaucoup moins de documentation que le modèle X, et que ce même boulon possède bien plus de données sur le modèle X que Y.
Bref, la seule solution (pour le moment), c'est d'avoir 2 gros modèles, mais l'un avec les datas du modèle X Et l'autre du modèle Y, pour éviter toutes formes d'hallucinations
Oui c'est le cas pour beaucoup d'industries. Après justement en pharmacologie on accepte déjà de ne pas avoir de la reproductibilité à 100%. On accepte que dans 0.1% des cas le paracétamol va avoir des effets délétères. Le ML est pas mal pour trouver des patterns intéressants en drug discovery d'ailleurs même si je m'égare.
Ce que je veux dire aussi, c'est qu'il faut pas forcément tenter de prédire le futur avec la technologie actuelle, car elle s'améliore, la précision des LLMs aussi, même si du fait de leur nature, ne sera jamais 100% fiable. Outre une nouvelle architecture qui s'affranchira de ses limitations, les modèles s'amélioreront, des systèmes multi-agents se développeront, des meilleurs mécanismes de prompting aussi (ce qu'est o1 basiquement).
Dans le cas que tu donnes, je ne pense pas qu'un LLM ait été la bonne solution.
Juliecornes
il y a 8 mois
Oui c'est le cas pour beaucoup d'industries. Après justement en pharmacologie on accepte déjà de ne pas avoir de la reproductibilité à 100%. On accepte que dans 0.1% des cas le paracétamol va avoir des effets délétères. Le ML est pas mal pour trouver des patterns intéressants en drug discovery d'ailleurs même si je m'égare.
Ce que je veux dire aussi, c'est qu'il faut pas forcément tenter de prédire le futur avec la technologie actuelle, car elle s'améliore, la précision des LLMs aussi, même si du fait de leur nature, ne sera jamais 100% fiable. Outre une nouvelle architecture qui s'affranchira de ses limitations, les modèles s'amélioreront, des systèmes multi-agents se développeront, des meilleurs mécanismes de prompting aussi (ce qu'est o1 basiquement).
Bref, pour le moment nous n'y sommes pas encore. C'est vraiment en travaillant dans le conseil que je me suis rendu compte qu'aujourd'hui l'IA n'est pas assez performante pour être exploitable dans de nombreuses industries, parce que l'erreur peut-être trop grave. (C'est pas comme pour le grand public ou ça n'a pas d'impact si l'IA se trompe de 10ans sur la date de la mort d'un empereur romain).
Et pourtant ils ont tout essayé, ML, DL, GenAI. Ils se sont fait épauler de Capegemini, Accenture, Microsoft, OpenAI, mais rien n'y fait.
Bon, de toute façon la grande mode aujourd'hui c'est les digital Twin. T'en as absolument partout, tout le temps.
Dark-vg2
il y a 8 mois
El famoso agreg de maths alors que quand je lui de mande de me faire une réduction dans l'AGM il dit qu'on peut calculer le log discret
GR_PAR_IA
il y a 8 mois
Bref, pour le moment nous n'y sommes pas encore. C'est vraiment en travaillant dans le conseil que je me suis rendu compte qu'aujourd'hui l'IA n'est pas assez performante pour être exploitable dans de nombreuses industries, parce que l'erreur peut-être trop grave. (C'est pas comme pour le grand public ou ça n'a pas d'impact si l'IA se trompe de 10ans sur la date de la mort d'un empereur romain).
Et pourtant ils ont tout essayé, ML, DL, GenAI. Ils se sont fait épauler de Capegemini, Accenture, Microsoft, OpenAI, mais rien n'y fait.
Bon, de toute façon la grande mode aujourd'hui c'est les digital Twin. T'en as absolument partout, tout le temps.
Le problème c'est qu'on veut adopter l'IA générative pour tout et n'importe quoi quand ce n'est pas la bonne solution. Mais comme c'est cool et que c'est "intelligent", ça intrigue. Et là on parle vraiment de LLMs. Par contre il y a vraiment plein de cas en industrie où les IA "non-génératives" (des systèmes experts qui font purement de la régression, de la classification) sont plutôt adaptés et déjà utilisés.
Juliecornes
il y a 8 mois
Le problème c'est qu'on veut adopter l'IA générative pour tout et n'importe quoi quand ce n'est pas la bonne solution. Mais comme c'est cool et que c'est "intelligent", ça intrigue. Et là on parle vraiment de LLMs. Par contre il y a vraiment plein de cas en industrie où les IA "non-génératives" (des systèmes experts qui font purement de la régression, de la classification) sont plutôt adaptés et déjà utilisés.
Non mais tu prêches un convaincu, je suis designer et consultant dans le secteur de la tech.
Évidement que parfois ça n'a aucun sens d'y mettre de la GenAI, et que parfois la solution pourrait se faire avec 2 bouts de bois et 1 morceau de ficelle.
Sauf qu'on est avant tout des « vendeurs », et que si je dis à mon client (qui sont tous au CaC40) que je peux trouver une solution bien moins cher et tout aussi efficace (voir mieux) avec de la « vieille techno » le client va nous rire au nez en plus de ne pas acheter.
S'il viens chez nous (experts en innovation) c'est pour repartir avec un gros joujou (parfois même pas viable pour son problème).
GR_PAR_IA
il y a 8 mois
Ahi.
Mais c'est pour ça qu'aujourd'hui le mieux c'est de jongler entre plusieurs modèles en fonction de ce que tu désires faire.
D'ailleurs, il y a perplexity pour ça
J'utilise Kagi pour ça qui est assez similaire dans l'esprit, mais ouais, c'est une bonne idée de pas se limiter à un seul modèle.
Pour assister au code, Claude 3.5 Sonnet est le mieux, mais putain qu'est-ce qu'il est censuré et moralisateur par contre. Quand je veux juste converser un peu je préfère Mistral Large 2 ou Llama 3.1 405B.
Juliecornes
il y a 8 mois
J'utilise Kagi pour ça qui est assez similaire dans l'esprit, mais ouais, c'est une bonne idée de pas se limiter à un seul modèle.
Pour assister au code, Claude 3.5 Sonnet est le mieux, mais putain qu'est-ce qu'il est censuré et moralisateur par contre. Quand je veux juste converser un peu je préfère Mistral Large 2 ou Llama 3.1 405B.
Oui, au bureau on utilise un LLM interne qui en réalité se base sur tout les modèles existants sur le marché.
Reste plus qu'à nous salariés, de sélectionner le bon modèle avant de l'utiliser.
Par contre, ce qui serait intéressant (et que je n'ai jamais fait), c'est de chopper les différents benchmark pour savoir concrètement quels modèles est le meilleur pour X ou Y actions
Dark-vg2
il y a 8 mois
Bref, pour le moment nous n'y sommes pas encore. C'est vraiment en travaillant dans le conseil que je me suis rendu compte qu'aujourd'hui l'IA n'est pas assez performante pour être exploitable dans de nombreuses industries, parce que l'erreur peut-être trop grave. (C'est pas comme pour le grand public ou ça n'a pas d'impact si l'IA se trompe de 10ans sur la date de la mort d'un empereur romain).
Et pourtant ils ont tout essayé, ML, DL, GenAI. Ils se sont fait épauler de Capegemini, Accenture, Microsoft, OpenAI, mais rien n'y fait.
Bon, de toute façon la grande mode aujourd'hui c'est les digital Twin. T'en as absolument partout, tout le temps.
Super intéressant ça par contre
C'est un peu l'impression que j'ai et que, effectivement pour certaines taches, ie. Qui ne nécessitent pas 100% de précision mais une grande quantité de connaissance (diag medical par exemple) ou qui sont facile à vérifier("code" avec de gros guillemets), un LLM c'est génial
Par contre demander à un LLM un résultat critique qui doit etre fiable (autant en industrie qu'en science, ie. Une preuve par exemple), c'est vraiment pas une bonne idée
GR_PAR_IA
il y a 8 mois
Oui, au bureau on utilise un LLM interne qui en réalité se base sur tout les modèles existants sur le marché.
Reste plus qu'à nous salariés, de sélectionner le bon modèle avant de l'utiliser.
Par contre, ce qui serait intéressant (et que je n'ai jamais fait), c'est de chopper les différents benchmark pour savoir concrètement quels modèles est le meilleur pour X ou Y actions
Pour les modèles grand publics je me fie surtout à livebench : https://livebench.ai/
Qui justement se base sur différentes catégories, et problèmes qui devraient ne pas être présent dans l'entraînement des modèles en question (peu d'intérêt sinon), et du coup en conséquence il est régulièrement mis à jour (environ chaque mois, donc les scores peuvent changer, même si le classement ne bouge pas sauf incident majeur).
GR_PAR_IA
il y a 8 mois
Super intéressant ça par contre
C'est un peu l'impression que j'ai et que, effectivement pour certaines taches, ie. Qui ne nécessitent pas 100% de précision mais une grande quantité de connaissance (diag medical par exemple) ou qui sont facile à vérifier("code" avec de gros guillemets), un LLM c'est génial
Par contre demander à un LLM un résultat critique qui doit etre fiable (autant en industrie qu'en science, ie. Une preuve par exemple), c'est vraiment pas une bonne idée
Voilà, après il faut pas oublier qu'il n'y pas que les LLMs et des systèmes non-génératifs qui peuvent passer un processus rigoureux de formalisation.
Dark-vg2
il y a 8 mois
J'utilise Kagi pour ça qui est assez similaire dans l'esprit, mais ouais, c'est une bonne idée de pas se limiter à un seul modèle.
Pour assister au code, Claude 3.5 Sonnet est le mieux, mais putain qu'est-ce qu'il est censuré et moralisateur par contre. Quand je veux juste converser un peu je préfère Mistral Large 2 ou Llama 3.1 405B.
Claude meilleur que mixstral pour du code ?
sinusDUBAI
il y a 8 mois