je suis expert en IA/Deep Learning/Modèle génratif et je réponds aux questions

OP
SD

SuceurDeBonbon

il y a 7 mois

titre + lets go

CS

Carmine-stars

il y a 7 mois

tu bide https://image.noelshack.com/minis/2016/24/1466366209-risitas24.png

KB

KoalaBan147

il y a 7 mois

qu'est ce qui fait de toi un expert ? !

OP
SD

SuceurDeBonbon

il y a 7 mois


qu'est ce qui fait de toi un expert ? !

je suis doctorant et j'ai des publis solides

KB

KoalaBan147

il y a 7 mois

je suis doctorant et j'ai des publis solides

et plus concrètement ?

MS

msyuaa

il y a 7 mois

Dans le cadre de l'entraînement de modèles de réseaux de neurones profonds à grande échelle utilisant des architectures de transformeurs avec attention auto-régressive, comment peut-on optimiser l'intégration des méthodes de régularisation basées sur la normalisation des couches (Layer Normalization) combinées avec des mécanismes d'attention linéaire pour atténuer le problème de l'explosion du gradient dans des séquences temporelles extrêmement longues ? Plus précisément, en considérant l'utilisation de l'optimiseur Adam avec des paramètres de seconde et troisième moments adaptatifs, comment l'incorporation de schémas de pondération du gradient tels que le clipping graduel adaptatif et les taux d'apprentissage cycliques influencent-ils la convergence dans des espaces de perte non convexes et hautement dimensionnels ? De plus, quelles seraient les implications sur la stabilité numérique et la généralisation du modèle lors de l'application de techniques de quantification basse précision (par exemple, FP16 ou INT8) dans un environnement distribué avec des contraintes de communication inter-nœuds à faible latence ?

LB

LarryBaryy

il y a 7 mois

meilleures ia pour générer du porno ?

GG

Ggecko

il y a 7 mois

L'IA est Elle susceptible de disrupter le monde travail et si oui à quelle échéance ?
Plus généralement: quel impact attendre de l'ia sur l'économie ?

NO

Nooonnn

il y a 7 mois

Est ce que une IA peut être consciente
Est ce que dans 100 ans on sera remplacé par l'IA ?

OP
SD

SuceurDeBonbon

il y a 7 mois


Dans le cadre de l'entraînement de modèles de réseaux de neurones profonds à grande échelle utilisant des architectures de transformeurs avec attention auto-régressive, comment peut-on optimiser l'intégration des méthodes de régularisation basées sur la normalisation des couches (Layer Normalization) combinées avec des mécanismes d'attention linéaire pour atténuer le problème de l'explosion du gradient dans des séquences temporelles extrêmement longues ? Plus précisément, en considérant l'utilisation de l'optimiseur Adam avec des paramètres de seconde et troisième moments adaptatifs, comment l'incorporation de schémas de pondération du gradient tels que le clipping graduel adaptatif et les taux d'apprentissage cycliques influencent-ils la convergence dans des espaces de perte non convexes et hautement dimensionnels ? De plus, quelles seraient les implications sur la stabilité numérique et la généralisation du modèle lors de l'application de techniques de quantification basse précision (par exemple, FP16 ou INT8) dans un environnement distribué avec des contraintes de communication inter-nœuds à faible latence ?

1/ LayerNorm c'est dépassé, les LLM sota c'est RMS Norm (pas de terme de scaling)
2/ Si tu parle des Scheduler à la Cosine Annealing c'est complétement empirique et marginalement meilleur d'experience
3/ Tu gardes les performances en quantizant. A ce qu'il parait on peut descendre jusqu'en ternaire pour un transformer entrainé sur the pile, cela dit en dessous de 8bit aujourd'hui ça sert à rien, et seul la dernière gamme très haut de gamme nvidia supporte le int8

OP
SD

SuceurDeBonbon

il y a 7 mois

et plus concrètement ?

je passe ma vie à regarder des courbes sur wandb et à coder trucs en triton et j'écris des papiers pour expliquer pourquoi mon modèle est marginalement meilleur sur un benchmark que j'ai trafiqué de A à Z ce qui fait de moi un authentique expert

MS

msyuaa

il y a 7 mois

Dans le cadre de la compréhension théorique des réseaux de neurones profonds sur-paramétrés, comment peut-on développer un cadre mathématique unifié qui relie la dynamique de l'entraînement par descente de gradient stochastique (SGD) dans des espaces de paramètres à très haute dimensionnalité avec les propriétés émergentes de généralisation et de transfert observées empiriquement dans les modèles de grande échelle tels que les transformateurs ? Plus précisément, en tenant compte du paradoxe de la double descente du risque en généralisation et des limites des approches traditionnelles basées sur la capacité de Vapnik-Chervonenkis, comment peut-on formuler une théorie qui intègre les effets de la complexité algorithmique, de l'architecture du réseau, de la distribution des données d'entrée et des biais inductifs implicites introduits par les algorithmes d'optimisation ? De plus, quelles seraient les implications d'une telle théorie pour la conception de modèles capables d'apprentissage auto-supervisé efficace et de compréhension sémantique profonde, et comment cela pourrait-il éclairer les limites fondamentales de l'apprentissage machine en ce qui concerne l'émergence de l'intelligence artificielle générale ?

M8

Megunyan8

il y a 7 mois

montre tes projets

PS

Paris-sud

il y a 7 mois

Salut camarade, je suis doctorant en IA aussi

Je bosse sur les normalizing flow et plus généralement les modèles generatifs pour la détection OoD. Un ICLR et un UAI publiés actuellement.

OP
SD

SuceurDeBonbon

il y a 7 mois


montre tes projets

non

DY

Dark_yoshi0814

il y a 7 mois

Tu es capable de faire un 5 balles shower 3up 360 into hight /low shower?

OP
SD

SuceurDeBonbon

il y a 7 mois


Salut camarade, je suis doctorant en IA aussi

Je bosse sur les normalizing flow et plus généralement les modèles generatifs pour la détection OoD. Un ICLR et un UAI publiés actuellement. :

gg camarade, perso j'ai soumis aujourd'hui à 13h pour ICLR donc je me lache un peu ce soir
quelle année ?

PS

Paris-sud

il y a 7 mois

gg camarade, perso j'ai soumis aujourd'hui à 13h pour ICLR donc je me lache un peu ce soir
quelle année ?

Début 2A, j'ai charbonné. J'espère que ça passera pour toi . Parfois les reviewer sont débiles, pour avoir épluché openreview c'est vraiment aléatoire parfois

M8

Megunyan8

il y a 7 mois

non

topic clos tu peux disposax ahurien

QV

QuiVenit

il y a 7 mois

Pourquoi pas avoir fait de l'algorithmique plutôt ? L'IA c'est un peu léger non ? Tu peux prouver que ce tu fais marche ?

L_

L_F_Bardamu_001

il y a 7 mois

Comment tu vois l'évolution des architectures de réseaux neuronaux dans les prochaines années (les transformeurs, les modèles diffusion, etc...) ?

Aussi, ton avis sur le discours mainstream/vulgarisateur que l'IA va mettre 90% des cols blancs au Chomedu!!

Thanks in advance

S2

sulfure23

il y a 7 mois

Pourquoi tous les doctorants vous bossez tous en IA ? A croire que tout le reste est passé à la trappe.

OP
SD

SuceurDeBonbon

il y a 7 mois


Pourquoi pas avoir fait de l'algorithmique plutôt ? L'IA c'est un peu léger non ? Tu peux prouver que ce tu fais marche ?

khey y a rien qui va dans ta question.
l'ia c'est une discipline à cheval entre les probas les stats et l'informatique, on mange des algorithmes à longueur des journées, et pour prouver qu'un modèle fonctionne on monte des évaluations, ça s'appelle la démarche scientifique d'investigation

KB

KoalaBan147

il y a 7 mois

je passe ma vie à regarder des courbes sur wandb et à coder trucs en triton et j'écris des papiers pour expliquer pourquoi mon modèle est marginalement meilleur sur un benchmark que j'ai trafiqué de A à Z ce qui fait de moi un authentique expert

et plu concrètement ? les "trucs" que ta codé c'est quoi ?

PS

Paris-sud

il y a 7 mois

Du coup ICLR 2025 c'est encore a vienne ? J'y étais là ya quelques mois pour ICLR 2024

OP
SD

SuceurDeBonbon

il y a 7 mois


Comment tu vois l'évolution des architectures de réseaux neuronaux dans les prochaines années (les transformeurs, les modèles diffusion, etc...) ?

Aussi, ton avis sur le discours mainstream/vulgarisateur que l'IA va mettre 90% des cols blancs au Chomedu!!

Thanks in advance

deux choses:
transformer et diffusion c'est pas à opposer.
diffusion c'est plus une formulation du problème et le transformer c'est un block de base pour traiter les données temporelles (en gros même si on peut l'utiliser sur tout type de modalités)

ensuite je pense que le transformer est bien parti pour rester. c'est le bloc de base qui exploite le mieux le GPU et c'est difficile de faire mieux de ce point de vue la vu la simplicité du mécanisme
après y a des alternative linéaires intéressantes qui pourront le remplacer je pense

OP
SD

SuceurDeBonbon

il y a 7 mois


Du coup ICLR 2025 c'est encore a vienne ? J'y étais là ya quelques mois pour ICLR 2024

singapoure ! c'était bien ?

PS

Paris-sud

il y a 7 mois

Ouais c'est sympa vienne. moi pour l'année pro je tente une conf de rang A. ICLR ça m'a cramé, j'ai plus envie de retenter une conf étoile, trop de boulot

OP
SD

SuceurDeBonbon

il y a 7 mois

et plu concrètement ? les "trucs" que ta codé c'est quoi ?

import torch
torch.nn.functional.scaled_dot_product_attention(d, d, b)

FK

FelixKlein

il y a 7 mois

Salut collègue, je viens de finir ma thèse il y a 1 an.
Je travaille sur les modèles à doubles rotation quantique de type cryptographie inférentielle dans le domaine de l'analyse de processus stochastiques.
Après bon, je t'avoue que ma spécialité tourne plus spécifiquement autour du développement quantitatif d'outils de benchmark en analyse de marché et ce dans un contexte de réduction des endomorphismes de synthèse à des fins récursivement axiomatisables.

N'hésites pas si tu as des questions

QV

QuiVenit

il y a 7 mois

khey y a rien qui va dans ta question.
l'ia c'est une discipline à cheval entre les probas les stats et l'informatique, on mange des algorithmes à longueur des journées, et pour prouver qu'un modèle fonctionne on monte des évaluations, ça s'appelle la démarche scientifique d'investigation

disons que faire des stats pour résoudre les problèmes, c'est bien quand on comprend pas vraiment ce qu'on fait, mais quand tu as un modèle explicatif et plus seulement un modèle statistique, tu peux résoudre les problèmes avec des algos déterministes

KB

KoalaBan147

il y a 7 mois

import torch
torch.nn.functional.scaled_dot_product_attention(d, d, b)

c'est pas une réponse ça

M6

maisoui666

il y a 7 mois

t'estimes à combien de pourcents la probabilité que l'IA provoque la fin de l'humanité ?

OP
SD

SuceurDeBonbon

il y a 7 mois

disons que faire des stats pour résoudre les problèmes, c'est bien quand on comprend pas vraiment ce qu'on fait, mais quand tu as un modèle explicatif et plus seulement un modèle statistique, tu peux résoudre les problèmes avec des algos déterministes

tu es encore au lycée pour croire qu'on peut modéliser tous les phénomènes avec des algorithmes et des modèles causaux ?

KB

KoalaBan147

il y a 7 mois


t'estimes à combien de pourcents la probabilité que l'IA provoque la fin de l'humanité ?

faut que vous arrêtiez avec ce fantasme ahi :rrie:

M1

Malgoz1100

il y a 7 mois

T'as essayé de faire une prediction sur le cours journalier des cryptos?
Avec les leviers, tu te fais un bon paquet d'argent si t'as ne serais-ce qu'un modele qui fonctionne à 75%.

OP
SD

SuceurDeBonbon

il y a 7 mois


t'estimes à combien de pourcents la probabilité que l'IA provoque la fin de l'humanité ?

je pense que la situation au moyen orient ou en ukraine est plus menacante pour nous que des modèles de langage mais je peux me tromper

DO

dontrevelate

il y a 7 mois

La plupart des articles de recherche c'est du charlatanisme non ?

Impossible de reproduire les résultats et el famoso modèle crée qui fais très toujours mieux que ce qui existe alors qu'en réalité pas du tout.

Aussi si j'ai un dataset avec énormément de bruit (exemple : marché financier pour prédire si l'action va monter ou descendre), quel est en théorie le/les meilleurs algos à utiliser ?

BO

bonneaubaine

il y a 7 mois

moi j'ai abandonné ma thèse en stat/ia ya au bout de la troisième année à cause d'un directeur de thèse FDP qui m'a cramé psychologiquement, j'en suis encore un an après totalement trauma

KI

Kirishimahiromi

il y a 7 mois

Tu penses quoi de Mistral AI ?

M6

maisoui666

il y a 7 mois

je pense que la situation au moyen orient ou en ukraine est plus menacante pour nous que des modèles de langage mais je peux me tromper

un expert est passé dans le podcast de oussama ammar, il avait l'air très alarmé par le sujet SpoilAfficherMasquerhttps://youtu.be/zZtpVZTQR2k?si=ZiZioDzr9KV_GWrI

QV

QuiVenit

il y a 7 mois

tu es encore au lycée pour croire qu'on peut modéliser tous les phénomènes avec des algorithmes et des modèles causaux ?

J'ai fait une ENS en info khey.

Pourquoi pas faire des stats pour arriver à des modèles causaux si tu as pas beaucoup d'intuition, mais le problème c'est qu'aujourd'hui à cause de l'idolatrie de l'ia on s'arrête souvent au modèle statistique en considérant que c'est assez, que le job est fait, que la science c'est ça.

OP
SD

SuceurDeBonbon

il y a 7 mois


La plupart des articles de recherche c'est du charlatanisme non ?

Impossible de reproduire les résultats et el famoso modèle crée qui fais très toujours mieux que ce qui existe alors qu'en réalité pas du tout.

Aussi si j'ai un dataset avec énormément de bruit (exemple : marché financier pour prédire si l'action va monter ou descendre), quel est en théorie le/les meilleurs algos à utiliser ?

y en a pas mal
je dirais qu'en france on est un peu mieux loti car on a moins de pression pour publier en continu
mais beaucoup de blabla qui sert à rien oui ça c'est courant

par contre les papiers chinois -> 95% c'est irreproductible et on se rend compte 2 ans plus tard que c'était grossièrement de la merde

OP
SD

SuceurDeBonbon

il y a 7 mois

J'ai fait une ENS en info khey.

Pourquoi pas faire des stats pour arriver à des modèles causaux si tu as pas beaucoup d'intuition, mais le problème c'est qu'aujourd'hui à cause de l'idolatrie de l'ia on s'arrête souvent au modèle statistique en considérant que c'est assez, que le job est fait, que la science c'est ça.

t'as fait l'ENT tu veux dire

OP
SD

SuceurDeBonbon

il y a 7 mois


moi j'ai abandonné ma thèse en stat/ia ya au bout de la troisième année à cause d'un directeur de thèse FDP qui m'a cramé psychologiquement, j'en suis encore un an après totalement trauma

chaud khey, c'est plus courant qu'on ne le croit, dans mon équipe deux personnes ont laché

mititgé, je trouve qu'ils innovent pas assez et la course aux LLM c'est une course à l'échalote qui demande des ressources que peu peuvent assumer

FK

FelixKlein

il y a 7 mois

L'IA est selon toute vraisemblance un modèle stochastiquement réversible et p-adiquement différentiel au sens où il ne développe point les processus entropiques de généralisation qualitative de la cybersécurité et des isomorphismes https://image.noelshack.com/fichiers/2018/18/7/1525629024-risitas-isse-monocle.png

QV

QuiVenit

il y a 7 mois


La plupart des articles de recherche c'est du charlatanisme non ?

Impossible de reproduire les résultats et el famoso modèle crée qui fais très toujours mieux que ce qui existe alors qu'en réalité pas du tout.

Aussi si j'ai un dataset avec énormément de bruit (exemple : marché financier pour prédire si l'action va monter ou descendre), quel est en théorie le/les meilleurs algos à utiliser ?

Il y a pas de théorie, l'IA c'est surtout de la pratique. Ça dépend essentiellement de quels algos utilisent les autres.

BO

bonneaubaine

il y a 7 mois


L'IA est selon toute vraisemblance un modèle stochastiquement réversible et p-adiquement différentiel au sens où il ne développe point les processus entropiques de généralisation qualitative de la cybersécurité et des isomorphismes https://image.noelshack.com/fichiers/2018/18/7/1525629024-risitas-isse-monocle.png

selon toute maximum de vraisemblance tu veux dire

M1

Malgoz1100

il y a 7 mois


T'as essayé de faire une prediction sur le cours journalier des cryptos?
Avec les leviers, tu te fais un bon paquet d'argent si t'as ne serais-ce qu'un modele qui fonctionne à 75%.

OM

OnMAppelleLOvni

il y a 7 mois

Pourquoi réduire la précision des données pour l'entraînement (entier 8 bits, j'ai même vu des virgules à 4 bits) ?