20
you are viewing a single comment's thread
view the rest of the comments
view the rest of the comments
this post was submitted on 22 Jan 2026
20 points (100.0% liked)
Technologie - 🤖
1013 readers
12 users here now
Ici concerne le champs de domaine large de la technologie : actualités sur l'informatique, partage de programme informatique et de code, montrer vos projets Arduino, ect.
-
Le pass BnF pour accéder à la presse : https://jlai.lu/post/4214444
-
https://archive.is/ pour accéder aux articles avec paywalls
-
!tipiak@anarchist.nexus pour les ISOs d'Ubuntu
founded 2 years ago
MODERATORS
Le problème:
De plus en plus de labos passent à des données dites synthétiques pour entraîner leurs LLMs, c'est à dire que ce sont des données produites par d'autres LLMs, dont on «ne sait pas» s'ils ont piraté des contenus pour être entraînés, mais les datasets synthétiques, c'est sur, y a zéro copyright dedans (car la sortie d'un modèle génératif n'est pas copyrightable, d'après une étrange décision de justice US).
C'est une perte de temps pour contourner techniquement un manquement législatif, ça rend assez amer, mais bon, le copyright s'est toujours pas adapté à l'existence d'internet, lui demander de s'adapter à l'IA, ça a peu de chances d'arriver avant 2080.
À noter que réinjecter un corpus synthétique réduit mécaniquement les performances d'un modèle
https://en.wikipedia.org/wiki/Model_collapse
On a eu plusieurs articles qui ont présenté ça comme une fatalité mais ça n'a pas l'air de se retrouver en pratique dans les LLMs
Pendant au moins une génération, ça s'explique assez bien: Dans les teratokens qui ont été injectés, y a beaucoup de trucs à jeter, y a des choses fausses, y a des redondances, des infos obsolètes, des textes de mauvaise qualité.
Un LLM qui a déjà effectué un apprentissage dessus a moyen de ressortir un dataset sans ces choses. C'est techniquement des infos qui ont disparues, peut être même certaines infos utiles filtrées par erreur, mais c'est aussi un dataset qui va aller à l'essentiel et retenir plus rapidement les choses importantes. La généralisation arrive plus vite.