je suis expert en IA/Deep Learning/Modèle génratif et je réponds aux questions
KoalaBan147
il y a 7 mois
qu'est ce qui fait de toi un expert ? !
SuceurDeBonbon
il y a 7 mois
qu'est ce qui fait de toi un expert ? !
je suis doctorant et j'ai des publis solides
KoalaBan147
il y a 7 mois
je suis doctorant et j'ai des publis solides
et plus concrètement ?
msyuaa
il y a 7 mois
Dans le cadre de l'entraînement de modèles de réseaux de neurones profonds à grande échelle utilisant des architectures de transformeurs avec attention auto-régressive, comment peut-on optimiser l'intégration des méthodes de régularisation basées sur la normalisation des couches (Layer Normalization) combinées avec des mécanismes d'attention linéaire pour atténuer le problème de l'explosion du gradient dans des séquences temporelles extrêmement longues ? Plus précisément, en considérant l'utilisation de l'optimiseur Adam avec des paramètres de seconde et troisième moments adaptatifs, comment l'incorporation de schémas de pondération du gradient tels que le clipping graduel adaptatif et les taux d'apprentissage cycliques influencent-ils la convergence dans des espaces de perte non convexes et hautement dimensionnels ? De plus, quelles seraient les implications sur la stabilité numérique et la généralisation du modèle lors de l'application de techniques de quantification basse précision (par exemple, FP16 ou INT8) dans un environnement distribué avec des contraintes de communication inter-nœuds à faible latence ?
LarryBaryy
il y a 7 mois
meilleures ia pour générer du porno ?
Ggecko
il y a 7 mois
L'IA est Elle susceptible de disrupter le monde travail et si oui à quelle échéance ?
Plus généralement: quel impact attendre de l'ia sur l'économie ?
Nooonnn
il y a 7 mois
Est ce que une IA peut être consciente
Est ce que dans 100 ans on sera remplacé par l'IA ?
SuceurDeBonbon
il y a 7 mois
Dans le cadre de l'entraînement de modèles de réseaux de neurones profonds à grande échelle utilisant des architectures de transformeurs avec attention auto-régressive, comment peut-on optimiser l'intégration des méthodes de régularisation basées sur la normalisation des couches (Layer Normalization) combinées avec des mécanismes d'attention linéaire pour atténuer le problème de l'explosion du gradient dans des séquences temporelles extrêmement longues ? Plus précisément, en considérant l'utilisation de l'optimiseur Adam avec des paramètres de seconde et troisième moments adaptatifs, comment l'incorporation de schémas de pondération du gradient tels que le clipping graduel adaptatif et les taux d'apprentissage cycliques influencent-ils la convergence dans des espaces de perte non convexes et hautement dimensionnels ? De plus, quelles seraient les implications sur la stabilité numérique et la généralisation du modèle lors de l'application de techniques de quantification basse précision (par exemple, FP16 ou INT8) dans un environnement distribué avec des contraintes de communication inter-nœuds à faible latence ?
1/ LayerNorm c'est dépassé, les LLM sota c'est RMS Norm (pas de terme de scaling)
2/ Si tu parle des Scheduler à la Cosine Annealing c'est complétement empirique et marginalement meilleur d'experience
3/ Tu gardes les performances en quantizant. A ce qu'il parait on peut descendre jusqu'en ternaire pour un transformer entrainé sur the pile, cela dit en dessous de 8bit aujourd'hui ça sert à rien, et seul la dernière gamme très haut de gamme nvidia supporte le int8
SuceurDeBonbon
il y a 7 mois
et plus concrètement ?
je passe ma vie à regarder des courbes sur wandb et à coder trucs en triton et j'écris des papiers pour expliquer pourquoi mon modèle est marginalement meilleur sur un benchmark que j'ai trafiqué de A à Z ce qui fait de moi un authentique expert
msyuaa
il y a 7 mois
Dans le cadre de la compréhension théorique des réseaux de neurones profonds sur-paramétrés, comment peut-on développer un cadre mathématique unifié qui relie la dynamique de l'entraînement par descente de gradient stochastique (SGD) dans des espaces de paramètres à très haute dimensionnalité avec les propriétés émergentes de généralisation et de transfert observées empiriquement dans les modèles de grande échelle tels que les transformateurs ? Plus précisément, en tenant compte du paradoxe de la double descente du risque en généralisation et des limites des approches traditionnelles basées sur la capacité de Vapnik-Chervonenkis, comment peut-on formuler une théorie qui intègre les effets de la complexité algorithmique, de l'architecture du réseau, de la distribution des données d'entrée et des biais inductifs implicites introduits par les algorithmes d'optimisation ? De plus, quelles seraient les implications d'une telle théorie pour la conception de modèles capables d'apprentissage auto-supervisé efficace et de compréhension sémantique profonde, et comment cela pourrait-il éclairer les limites fondamentales de l'apprentissage machine en ce qui concerne l'émergence de l'intelligence artificielle générale ?
Megunyan8
il y a 7 mois
montre tes projets
Paris-sud
il y a 7 mois
Salut camarade, je suis doctorant en IA aussi
Je bosse sur les normalizing flow et plus généralement les modèles generatifs pour la détection OoD. Un ICLR et un UAI publiés actuellement.
SuceurDeBonbon
il y a 7 mois
montre tes projets
non
Dark_yoshi0814
il y a 7 mois
Tu es capable de faire un 5 balles shower 3up 360 into hight /low shower?
SuceurDeBonbon
il y a 7 mois
Salut camarade, je suis doctorant en IA aussiJe bosse sur les normalizing flow et plus généralement les modèles generatifs pour la détection OoD. Un ICLR et un UAI publiés actuellement. :
gg camarade, perso j'ai soumis aujourd'hui à 13h pour ICLR donc je me lache un peu ce soir
quelle année ?
Paris-sud
il y a 7 mois
gg camarade, perso j'ai soumis aujourd'hui à 13h pour ICLR donc je me lache un peu ce soir
quelle année ?
Début 2A, j'ai charbonné. J'espère que ça passera pour toi . Parfois les reviewer sont débiles, pour avoir épluché openreview c'est vraiment aléatoire parfois
Megunyan8
il y a 7 mois
non
topic clos tu peux disposax ahurien
QuiVenit
il y a 7 mois
Pourquoi pas avoir fait de l'algorithmique plutôt ? L'IA c'est un peu léger non ? Tu peux prouver que ce tu fais marche ?
L_F_Bardamu_001
il y a 7 mois
Comment tu vois l'évolution des architectures de réseaux neuronaux dans les prochaines années (les transformeurs, les modèles diffusion, etc...) ?
Aussi, ton avis sur le discours mainstream/vulgarisateur que l'IA va mettre 90% des cols blancs au Chomedu!!
Thanks in advance
sulfure23
il y a 7 mois
Pourquoi tous les doctorants vous bossez tous en IA ? A croire que tout le reste est passé à la trappe.
SuceurDeBonbon
il y a 7 mois
Pourquoi pas avoir fait de l'algorithmique plutôt ? L'IA c'est un peu léger non ? Tu peux prouver que ce tu fais marche ?
khey y a rien qui va dans ta question.
l'ia c'est une discipline à cheval entre les probas les stats et l'informatique, on mange des algorithmes à longueur des journées, et pour prouver qu'un modèle fonctionne on monte des évaluations, ça s'appelle la démarche scientifique d'investigation
KoalaBan147
il y a 7 mois
je passe ma vie à regarder des courbes sur wandb et à coder trucs en triton et j'écris des papiers pour expliquer pourquoi mon modèle est marginalement meilleur sur un benchmark que j'ai trafiqué de A à Z ce qui fait de moi un authentique expert
et plu concrètement ? les "trucs" que ta codé c'est quoi ?
Paris-sud
il y a 7 mois
Du coup ICLR 2025 c'est encore a vienne ? J'y étais là ya quelques mois pour ICLR 2024
SuceurDeBonbon
il y a 7 mois
Comment tu vois l'évolution des architectures de réseaux neuronaux dans les prochaines années (les transformeurs, les modèles diffusion, etc...) ?Aussi, ton avis sur le discours mainstream/vulgarisateur que l'IA va mettre 90% des cols blancs au Chomedu!!
Thanks in advance
deux choses:
transformer et diffusion c'est pas à opposer.
diffusion c'est plus une formulation du problème et le transformer c'est un block de base pour traiter les données temporelles (en gros même si on peut l'utiliser sur tout type de modalités)
ensuite je pense que le transformer est bien parti pour rester. c'est le bloc de base qui exploite le mieux le GPU et c'est difficile de faire mieux de ce point de vue la vu la simplicité du mécanisme
après y a des alternative linéaires intéressantes qui pourront le remplacer je pense
SuceurDeBonbon
il y a 7 mois
Du coup ICLR 2025 c'est encore a vienne ? J'y étais là ya quelques mois pour ICLR 2024
singapoure ! c'était bien ?
Paris-sud
il y a 7 mois
Ouais c'est sympa vienne. moi pour l'année pro je tente une conf de rang A. ICLR ça m'a cramé, j'ai plus envie de retenter une conf étoile, trop de boulot
SuceurDeBonbon
il y a 7 mois
et plu concrètement ? les "trucs" que ta codé c'est quoi ?
import torch
torch.nn.functional.scaled_dot_product_attention(d, d, b)
FelixKlein
il y a 7 mois
Salut collègue, je viens de finir ma thèse il y a 1 an.
Je travaille sur les modèles à doubles rotation quantique de type cryptographie inférentielle dans le domaine de l'analyse de processus stochastiques.
Après bon, je t'avoue que ma spécialité tourne plus spécifiquement autour du développement quantitatif d'outils de benchmark en analyse de marché et ce dans un contexte de réduction des endomorphismes de synthèse à des fins récursivement axiomatisables.
N'hésites pas si tu as des questions
QuiVenit
il y a 7 mois
khey y a rien qui va dans ta question.
l'ia c'est une discipline à cheval entre les probas les stats et l'informatique, on mange des algorithmes à longueur des journées, et pour prouver qu'un modèle fonctionne on monte des évaluations, ça s'appelle la démarche scientifique d'investigation
disons que faire des stats pour résoudre les problèmes, c'est bien quand on comprend pas vraiment ce qu'on fait, mais quand tu as un modèle explicatif et plus seulement un modèle statistique, tu peux résoudre les problèmes avec des algos déterministes
KoalaBan147
il y a 7 mois
import torch
torch.nn.functional.scaled_dot_product_attention(d, d, b)
c'est pas une réponse ça
maisoui666
il y a 7 mois
t'estimes à combien de pourcents la probabilité que l'IA provoque la fin de l'humanité ?
SuceurDeBonbon
il y a 7 mois
disons que faire des stats pour résoudre les problèmes, c'est bien quand on comprend pas vraiment ce qu'on fait, mais quand tu as un modèle explicatif et plus seulement un modèle statistique, tu peux résoudre les problèmes avec des algos déterministes
tu es encore au lycée pour croire qu'on peut modéliser tous les phénomènes avec des algorithmes et des modèles causaux ?
KoalaBan147
il y a 7 mois
t'estimes à combien de pourcents la probabilité que l'IA provoque la fin de l'humanité ?
faut que vous arrêtiez avec ce fantasme ahi :rrie:
Malgoz1100
il y a 7 mois
T'as essayé de faire une prediction sur le cours journalier des cryptos?
Avec les leviers, tu te fais un bon paquet d'argent si t'as ne serais-ce qu'un modele qui fonctionne à 75%.
SuceurDeBonbon
il y a 7 mois
t'estimes à combien de pourcents la probabilité que l'IA provoque la fin de l'humanité ?
je pense que la situation au moyen orient ou en ukraine est plus menacante pour nous que des modèles de langage mais je peux me tromper
dontrevelate
il y a 7 mois
La plupart des articles de recherche c'est du charlatanisme non ?
Impossible de reproduire les résultats et el famoso modèle crée qui fais très toujours mieux que ce qui existe alors qu'en réalité pas du tout.
Aussi si j'ai un dataset avec énormément de bruit (exemple : marché financier pour prédire si l'action va monter ou descendre), quel est en théorie le/les meilleurs algos à utiliser ?
bonneaubaine
il y a 7 mois
moi j'ai abandonné ma thèse en stat/ia ya au bout de la troisième année à cause d'un directeur de thèse FDP qui m'a cramé psychologiquement, j'en suis encore un an après totalement trauma
Kirishimahiromi
il y a 7 mois
Tu penses quoi de Mistral AI ?
maisoui666
il y a 7 mois
je pense que la situation au moyen orient ou en ukraine est plus menacante pour nous que des modèles de langage mais je peux me tromper
un expert est passé dans le podcast de oussama ammar, il avait l'air très alarmé par le sujet SpoilAfficherMasquerhttps://youtu.be/zZtpVZTQR2k?si=ZiZioDzr9KV_GWrI
QuiVenit
il y a 7 mois
tu es encore au lycée pour croire qu'on peut modéliser tous les phénomènes avec des algorithmes et des modèles causaux ?
J'ai fait une ENS en info khey.
Pourquoi pas faire des stats pour arriver à des modèles causaux si tu as pas beaucoup d'intuition, mais le problème c'est qu'aujourd'hui à cause de l'idolatrie de l'ia on s'arrête souvent au modèle statistique en considérant que c'est assez, que le job est fait, que la science c'est ça.
SuceurDeBonbon
il y a 7 mois
La plupart des articles de recherche c'est du charlatanisme non ?Impossible de reproduire les résultats et el famoso modèle crée qui fais très toujours mieux que ce qui existe alors qu'en réalité pas du tout.
Aussi si j'ai un dataset avec énormément de bruit (exemple : marché financier pour prédire si l'action va monter ou descendre), quel est en théorie le/les meilleurs algos à utiliser ?
y en a pas mal
je dirais qu'en france on est un peu mieux loti car on a moins de pression pour publier en continu
mais beaucoup de blabla qui sert à rien oui ça c'est courant
par contre les papiers chinois -> 95% c'est irreproductible et on se rend compte 2 ans plus tard que c'était grossièrement de la merde
SuceurDeBonbon
il y a 7 mois
J'ai fait une ENS en info khey.
Pourquoi pas faire des stats pour arriver à des modèles causaux si tu as pas beaucoup d'intuition, mais le problème c'est qu'aujourd'hui à cause de l'idolatrie de l'ia on s'arrête souvent au modèle statistique en considérant que c'est assez, que le job est fait, que la science c'est ça.
t'as fait l'ENT tu veux dire
SuceurDeBonbon
il y a 7 mois
moi j'ai abandonné ma thèse en stat/ia ya au bout de la troisième année à cause d'un directeur de thèse FDP qui m'a cramé psychologiquement, j'en suis encore un an après totalement trauma
chaud khey, c'est plus courant qu'on ne le croit, dans mon équipe deux personnes ont laché
mititgé, je trouve qu'ils innovent pas assez et la course aux LLM c'est une course à l'échalote qui demande des ressources que peu peuvent assumer
QuiVenit
il y a 7 mois
La plupart des articles de recherche c'est du charlatanisme non ?Impossible de reproduire les résultats et el famoso modèle crée qui fais très toujours mieux que ce qui existe alors qu'en réalité pas du tout.
Aussi si j'ai un dataset avec énormément de bruit (exemple : marché financier pour prédire si l'action va monter ou descendre), quel est en théorie le/les meilleurs algos à utiliser ?
Il y a pas de théorie, l'IA c'est surtout de la pratique. Ça dépend essentiellement de quels algos utilisent les autres.
bonneaubaine
il y a 7 mois
Malgoz1100
il y a 7 mois
T'as essayé de faire une prediction sur le cours journalier des cryptos?
Avec les leviers, tu te fais un bon paquet d'argent si t'as ne serais-ce qu'un modele qui fonctionne à 75%.
OnMAppelleLOvni
il y a 7 mois
Pourquoi réduire la précision des données pour l'entraînement (entier 8 bits, j'ai même vu des virgules à 4 bits) ?
SuceurDeBonbon
il y a 7 mois