L'Internet tel que vous le connaissez est en train de disparaître

OP
LZ

LekZo5

il y a 7 mois

Si vous y prêtez attention, vous constaterez que l'Internet est un peu différent ces derniers temps. De nombreux attributs et modes d'interaction avec l'Internet sont en train de changer.

L'API gratuite de Reddit ferme. Mais il en va de même pour X (anciennement Twitter), et d'autres propriétés sur l'Internet ajoutent lentement des limites et ferment leurs portes. Le World Wide Web n'est plus aussi libre et ouvert qu'il l'était autrefois. Les API ouvertes et les écosystèmes sont en train de mourir, et les gardiens de ces plateformes élèvent leurs murs et ferment leurs portes. Je pense que c'est parce que les modèles économiques de l'Internet sont en train de changer, passant de la collecte de données à la vente de données.

Ailleurs, on peut lentement sentir l'Internet s'ensituer partout. Les résultats de recherche Google sont encombrés de résultats payants et X tombe fréquemment en panne. En fait, on a l'impression que notre expérience du web, en général, s'est détériorée au lieu de s'améliorer avec le temps. Cela s'explique en partie par la tendance à la monétisation, mais un autre aspect de l'enshittification de l'Internet est l'évolution du modèle économique de la prochaine application phare : la formation de LLM.

Dans la course à l'élaboration de modèles plus grands et meilleurs, nous modifions non seulement la façon dont nous calculons et l'infrastructure qui l'entoure, mais aussi l'Internet lui-même. Je pense qu'il s'agit de la prochaine étape cruciale de l'Internet, et que le Web 3.0 ne sera pas la démocratisation de l'Internet, mais plutôt un gigantesque terrain d'entraînement pour ce qui va suivre. L'Internet tel que vous le connaissez est en train de mourir pour donner naissance à la prochaine génération de modèles d'intelligence artificielle.

Mais avant de parler de l'avenir, plongeons dans le passé. Nous pourrons alors discuter de notre situation actuelle et de ce à quoi je vois ressembler le Web 3.0. Car il semble franchement moins innocent que le Web 2.0.

L'Internet jeune et libre (Web 1.0) :

SpoilAfficherMasquer

Je voudrais commencer par le commencement. Au départ, je dirais que l'Internet dont nos parents nous avaient mis en garde était gratuit, expérimental et extrêmement utile si l'on y passait suffisamment de temps. Pour le prix de la gratuité ou presque, il y avait une abondance d'informations, de communautés ou de tout ce que vous recherchiez qui surgissait dans tous les coins que vous pouviez trouver - des blogs d'idées, des forums, des navigateurs Internet gratuits et des courriels gratuits. Le concept de paiement pour ces nouveaux médias et informations était relativement nouveau. Un « emploi sur l'Internet » était une denrée rare.

Les premiers jours de l'Internet ont été marqués par une grande excitation. Le monde entier était connecté en ligne et les possibilités semblaient infinies. Les gens créaient des sites web personnels sur des plateformes comme Geocities, partageant leurs pensées, leurs expériences et leurs passions avec un public mondial. Des services de courrier électronique comme Hotmail et Yahoo! Mail permettaient aux gens de communiquer instantanément au-delà des frontières, tandis que des plateformes de messagerie instantanée comme ICQ et AIM favorisaient les conversations en temps réel et les communautés en ligne.

L'internet précoce : un Far West numérique :

SpoilAfficherMasquer

L'Internet initial était un Far West numérique, avec peu de règles et de réglementations. C'était un terrain de jeu pour l'expérimentation, où tout semblait possible sur une échelle massive. Bien entendu, cela a déclenché une ruée vers cet espace vierge, qui a entraîné d'importants investissements et, inévitablement, une bulle suivie d'un éclatement. C'est l'histoire de la bulle Internet, une période que nous n'aurons pas le temps de revisiter en détail aujourd'hui.

Mais à mesure que l'Internet grandissait et mûrissait, une transition nette vers de nouvelles possibilités s'est opérée. Cette transition est largement désignée sous le nom de Web 2.0, marquant une véritable expansion des affaires sur Internet. C'est à ce moment-là que le contenu généré par les utilisateurs a explosé, que l'interactivité du web a pris forme et que, bien sûr, les médias sociaux ont pris leur essor.

C'était la nouvelle ruée vers la terre qui a finalement établi les grands gardiens technologiques d'aujourd'hui. Je qualifierais le Web 2.0 de période d'agrégation, marquant le début des jardins clos.

Les murs s'élèvent (Web 2.0) :

SpoilAfficherMasquer

Des entreprises telles que Google, Facebook, YouTube et Amazon incarnent les classiques du Web 2.0. Chaque entreprise a développé un modèle d'affaires distinct, mais les entreprises de médias sociaux en particulier ont commencé avec un produit gratuit, utilisant ensuite l'agrégation du contenu et le pouvoir sur les utilisateurs pour capturer l'attention et vendre de la publicité. L'agrégation de ces bases d'utilisateurs était puissante, car le coût marginal pour ces entreprises était pratiquement nul. C'est cette ère qui est mieux comprise à travers le cadre de la Théorie de l'Agrégation de Ben Thompson.

Durant cette période, le mot d'ordre était d'attirer les utilisateurs. Des produits gratuits ont été créés pour rassembler de vastes bases d'utilisateurs, puis les murs autour de ces "jardins gratuits" ont commencé à s'élever lentement. Les avantages du Web 2.0 étaient, bien sûr, une distribution massive et l'accès à d'énormes quantités de données. Ces éléments ont préparé ces entreprises à tirer profit du paradigme suivant.

À cette époque, l'objectif était de partager votre contenu avec d'autres jardins et de capturer finalement l'attention des utilisateurs sur votre propre territoire. C'est la raison pour laquelle certaines entreprises de médias sociaux, comme TikTok, ont été à plusieurs reprises les plus grands annonceurs sur d'autres plateformes. Je soutiens que ces déplacements de parts de marché se sont poursuivis bien dans les années 2010, et que la vision la plus mature de l'ère du Web 2.0 a été atteinte à la fin des années 2010. L'année 2019, juste avant la pandémie, est peut-être l'exemple le plus stable du Web 2.0.

Ce qui est arrivé ensuite fut la COVID-19, qui a créé une flambée de la demande ayant entraîné des dépenses excessives dans les jardins d'Internet. Finalement, le crash est survenu, résultant de cette frénésie dépensière.

Cependant, au milieu de ce passage du hors-ligne à l'online, un autre changement discret a commencé à préparer le terrain pour la prochaine transition : GPT. J'avais déjà écrit sur GPT et ses implications pour le calcul, mais je n'avais jamais envisagé ce que cela signifierait pour l'intégralité de l'Internet. Cela nous amène à aujourd'hui. Nous atteignons la maturité de l'Internet, et il est nécessaire de pousser ces entreprises matures à se monétiser. À présent, la méthode la plus évidente pour monétiser l'échelle de vos données est l'utilisation de ces données pour l'entraînement de l'IA.

Maturité et modèles d'affaires :

SpoilAfficherMasquer

L'Internet et l'adoption des utilisateurs dans le monde ne sont plus à leurs débuts. Selon certaines estimations, 70 % de la population mondiale utilise l'Internet, et ce graphique montre que la pénétration de l'Internet ralentit. La COVID-19 pourrait avoir été la dernière grande poussée vers une adoption complète, et maintenant nous approchons de l'asymptote. Cela oblige les entreprises à ne plus se précipiter pour acquérir des utilisateurs, mais plutôt à chercher des modèles d'affaires plus viables.

Vous ne pouvez pas gagner simplement en attirant plus d'utilisateurs ; tous les nouveaux utilisateurs ont probablement déjà rejoint. Vous vous battez dans un jeu relativement fixe, pas dans celui où nous ajoutons encore des dizaines de millions d'utilisateurs chaque année.

L'exemple le plus parlant est Reddit, qui, selon Similarweb, figure parmi les 20 sites web les plus visités au monde et est numéro 10 aux États-Unis. Reddit a autant d'influence sur l'Internet qu'on peut en espérer, mais Reddit a perdu des sommes considérables jusqu'à ce que des accords récents de licence de données pour l'IA viennent renflouer ses caisses. Si Reddit, l'un des modèles d'affaires les plus développés, ne peut pas gagner d'argent avec plus d'utilisateurs, alors avoir plus d'utilisateurs n'est pas une promesse viable de modèle d'affaires. Cela implique un besoin de maturité et de monétisation, et cette monétisation se trouve justement dans la récolte de données pour l'entraînement.

Reddit en est conscient et a complètement réorienté son modèle d'affaires vers la vente de données de haute qualité pour l'entraînement des LLM. Dans son prospectus d'introduction en bourse, Reddit a enregistré 203 millions de dollars de valeur contractuelle pour ses données et les a récemment licenciées à OpenAI.

En janvier 2024, nous avons conclu certains accords de licence de données d'une valeur contractuelle totale de 203,0 millions de dollars, avec des termes allant de deux à trois ans. Nous prévoyons qu'un minimum de 66,4 millions de dollars de revenus seront reconnus au cours de l'année se terminant le 31 décembre 2024, le reste étant reconnu par la suite. Les données de Reddit croissent et se régénèrent constamment à mesure que les utilisateurs viennent et interagissent avec leurs communautés et les uns avec les autres. Nous pensons que nos données de plateforme croissantes seront un élément clé dans la formation des principaux modèles de langage de grande taille (« LLM ») et serviront de canal de monétisation supplémentaire pour Reddit.

Je pense que, à mesure que les modèles deviennent plus grands et les ensembles de données plus précieux, le renouvellement de ces accords de données sera comme les nouveaux droits sportifs. Chaque année, la valeur contractuelle devrait être plus élevée, et payer pour les données représentera une partie significative de vos coûts d'exploitation dans l'économie de l'IA.

Reddit, je pense, réalise cela. Le prospectus de leur introduction en bourse est un document très axé sur l'IA, et vous penseriez que pour une entreprise de médias sociaux destinée à l'interaction entre humains, ils auraient un focus différent, mais l'IA va vraiment être le modèle économique à l'avenir. Il est temps de changer notre façon de penser l'Internet, de la collecte d'utilisateurs à la collecte de données auprès de votre vaste ensemble d'utilisateurs.

Enfin, l'archive vaste et inégalée de Reddit de conversations humaines réelles, opportunes et pertinentes sur pratiquement n'importe quel sujet est un ensemble de données inestimable pour diverses applications, y compris la recherche, la formation de l'IA et la recherche. Reddit est l'une des plus grandes corpus de l'Internet de l'expérience humaine générée authentiquement et constamment mise à jour. À mesure que le monde devient de plus en plus axé sur les données, nous offrons des solutions axées sur l'humain et l'expérience. Nous nous attendons à ce que notre avantage en matière de données et notre propriété intellectuelle continuent d'être un élément clé dans la formation des futurs LLM.

Reddit est presque un exemple parfait d'un modèle d'affaires Web 2.0 devenant un modèle Web 3.0. Avec cette mentalité de capturer des données provenant des humains pour former des modèles, je pense que nous pouvons entrevoir ce qui est à venir. Bienvenue dans le Web 3.0.

Le berceau de l'IA et la tombe du Web 2.0 :

SpoilAfficherMasquer

L'essence de ma thèse est la suivante : le Web 3.0 sera défini par l'insertion de l'IA dans l'Internet, ce qui changera massivement notre expérience de l'Internet. Cela signifie soit un désir de collecter des données des utilisateurs, soit une interaction des agents IA déchaînés sur le web. Comme l'IA a déjà passé le célèbre test de Turing, nous serons de plus en plus incertains de savoir si la personne de l'autre côté du texte est un humain ou une IA.

Le Web 2.0 concernait souvent la collecte d'informations sur vos habitudes de visionnage, d'achat ou personnelles, puis l'utilisation de ces données pour cibler davantage de publicités pour des produits que vous pourriez acheter. Cela s'est amélioré jusqu'à des suppositions ou des besoins presque choquamment précis. Le Web 3.0 ne consistera pas seulement à collecter des données vous concernant, mais à partir de vous. Cela signifie un corpus plus large et plus détaillé de votre discours et de vos pensées, le tout pour alimenter la future machine divine.

Comme dans le Web 2.0, vos données seront utilisées individuellement d'une manière probablement proche de l'anonymat ; en agrégat, nos données seront utilisées pour former des modèles. Au lieu de collecter des informations vous concernant, elles collecteront des informations à partir de vous. C'est le changement crucial. Ce troll qui vous énerve et qui a une altercation sur Facebook à propos d'être dans l'erreur pourrait être un bot IA conçu pour vous garder engagé pour obtenir davantage de données d'entraînement.

Je pense qu'il est juste de dire que le Web 2.0 ressemblera probablement à une belle version idéalisée du passé, et que la relative liberté et utilité de l'Internet seront considérées comme l'une des périodes les plus grandes et les plus naïves de notre vie technologique. Nous avons créé, gambadé et échangé des informations librement. Il n'y avait pas de miroir sombre nous regardant de l'autre côté, et maintenant nous ne pouvons pas être sûrs de qui est humain.

Alors, jetons un coup d'œil au Web 3.0. Je n'ai aucune idée de ce que l'avenir sera, mais j'ai quelques opinions fortes et spécifiques. L'une est que l'Internet futur sera le terrain de jeu des humains et de l'IA.

E0

Ei0110

il y a 7 mois

J'y fu

SL

SodomieLetale

il y a 7 mois

 *prout*
J'ai pété sur ton topic l'opax https://image.noelshack.com/fichiers/2022/14/1/1649074102-vieuxahi.png

LM

LaMereDenis_

il y a 7 mois

mais personne va lire ça il a cru quoi lui

venez on parle d'autre chose, un truc intéréssant, pas comme la merde de l'op là

SL

SodomieLetale

il y a 7 mois

LaMereDenis_

il y a 7 mois


mais personne va lire ça il a cru quoi lui

venez on parle d'autre chose, un truc intéréssant, pas comme la merde de l'op là

this
fait un tiktok l'opax

FP

Freebox_Pop

il y a 7 mois

ça a l'air intéressant mais j'ai vraiment la flemme de lire désolé

OP
LZ

LekZo5

il y a 7 mois

Web 3.0 et IA :

SpoilAfficherMasquer

L'une des plus belles parties du Web 2.0 était de consommer du contenu humaindes mèmes sur d'autres expériences humaines, des moments extraordinaires partagés directement sur caméra, et des vidéos virales de choses se passant dans le monde entier. Le problème est que si vous avez utilisé l'internet en supposant que tout est généré par des humains, vous allez probablement passer un mauvais moment très bientôt.

Nous sommes déjà à un point où le texte et les images générés par l'IA peuvent passer pour du contenu généré par l'homme sans un examen intense. Et la plupart ne sont pas activement sur le web pour faire la différence. L'un de mes exemples préférés est une série entière de structures de bouteilles en plastique générées par l'IA qui semblent avoir des retours authentiques d'humains sur Facebook.

Il y a tout un fil sur Reddit sur de mauvaises photos d'IA partagées sur Facebook qui passent pour crédibles. À mesure que les modèles d'images s'améliorent, cela va devenir bien pire. Finalement, il sera presque impossible de distinguer ce qui est réel sur l'internet et ce qui est généré. Les articles de clickbait ont maintenant de puissants nouveaux moteurs pour le contenu et les images générés. Le mème selon lequel vous ne devriez croire rien de ce que vous lisez en ligne pourrait revenir en force.

Ceci est, bien sûr, une image générée par l'IA. Les images virales du futur passeront d'appâts Instagram à des images plus que réalistes. L'hypothèse que tout ce que vous voyez sera réel et non de l'IA sera remise en question à l'avenir. Dans le passé, le voir était probablement la barre la plus haute pour ce qui était réel. Comment saurons-nous que les dernières nouvelles d'une éruption de guerre ou d'une grande catastrophe environnementale sur Twitter sont même réelles La réponse est que, à l'avenir, nous pourrions ne pas le savoir.

Le Web 3.0 sera presque un jeu adversarial entre les humains et les machines. À ce stade, je soutiendrais que l'IA est aussi bonne que les humains pour créer du contenu et au moins quelques ordres de grandeur plus rapide. Les précieux yeux humains seront constamment convoités par des sources humaines et non humaines. Les pièges à clics seront de l'IA, les belles vues seront fausses, l'internet deviendra un simulacre de notre monde réel, et être capable de faire la différence sera presque impossible à mesure que les modèles s'améliorent.

C'est amusant parce que cela ressemble exactement à ce que le Metaverse avait promis d'être, mais je pense qu'il y avait au moins cette croyance qu'il serait créé par des humains dans cette représentation. Au lieu de cela, nous avons créé le modèle pour générer du contenu pour nous, et l'infinité de contenu généré en ligne va bientôt éclipser la capacité du monde réel à. J'ai écrit à ce sujet lorsque j'ai écrit sur la compression de la réalité à GTC cette année.

Le Web 3.0 sera vraiment un endroit étrange. Et comme nos vies sont toutes beaucoup plus en ligne qu'elles ne l'étaient, cela aura probablement de nombreuses conséquences imprévues qui sont difficiles à imaginer encore. Mais je peux dire une chose le Web 2.0 nous manquera. Humor me in one last goodbye.

L'ombre longue du Web 2.0, une nécrologie Je suis un enfant du Web 2.0. L'auteur Doug était extrêmement en ligne étant enfant, et j'ai trébuché sur FinTwit à 24 ans et Reddit à 15 ans. Je suis modérateur d'un subreddit. J'ai été profondément impliqué dans les forums Internet depuis que j'étais enfant et j'ai visité de nombreux coins profonds, sombres et étranges de l'Internet. Bien sûr, cela vient avec certains poisons de ce fait, mais je pourrais dire en toute confiance que tout ce avec quoi j'interagissais était fait par, partagé par, et lu par d'autres humains. À l'avenir, ce n'est pas une supposition sûre.

L'Internet était et est dangereux, mais d'une manière que l'humanité peut être dangereuse. Vous pourriez voir des choses très tordues ou perverses, mais elles étaient humaines. Le meilleur et le pire de l'humanité, mais maintenant nous ne sommes plus seuls sur l'Internet. Votre petite amie IA pourrait être amusante pour un jeune garçon sur l'Internet, mais elle sera également utilisée pour extraire des informations sur nous. Vous pourriez également ne pas savoir si elles sont réelles ou fausses ce qui est déjà un problème.

Que se passe-t-il lorsque le signal de l'humanité est tellement perdu dans le bruit du contenu généré Le coût de la recherche finira par dépasser le bruit peut-être que nous nous déconnecterons. Un autre résultat beaucoup plus probable et réaliste est que nous serons piégés dans des conversations avec notre miroir, que ce soit un LLM, une vidéo artificiellement générée, ou une photo. Pourquoi sortir si nous pouvons voir le monde entier en meilleure définition, par un temps parfait, et instantanément depuis notre accès à l'Internet C'est une compétition difficile.

Une autre chose dont je suis sûr est que l'Internet aura une ombre étrangement longue de cette période cruciale. La grande majorité du contenu généré par l'homme a été créée pendant cette période. À l'avenir, une grande partie des données sera générée avec l'aide de l'IA, ce qui signifie que l'ensemble de données d'entraînement de base humain sera principalement généré à partir de ce très bref moment dans le temps.

Je pense que l'issue ironique de cela est que peut-être, juste peut-être, cette période de l'histoire pourrait avoir une ombre beaucoup plus longue que prévu. Les modèles principaux et les ensembles de données d'entraînement de Commoncrawl et d'autres ensembles de données seront les plus humains de cette période.

Mon intuition est que beaucoup des mèmes, argots et motifs de cette période auront un effet de distorsion plus significatif à l'avenir. Alors que nous créons des données synthétiques à partir de cet ensemble de données, les modèles qui généreront les données de demain apprendront à partir des données d'aujourd'hui. Donc au revoir, Web 2.0. Tu nous manqueras, mais honnêtement, tes données ne seront jamais oubliées.