submitted 2 weeks ago* (last edited 2 weeks ago) by inlandempire@jlai.lu to c/technologie@jlai.lu

6 comments fedilink hide all child comments

you are viewing a single comment's thread
view the rest of the comments

[-] RelativityRanger@jlai.lu 1 points 2 weeks ago

À noter que réinjecter un corpus synthétique réduit mécaniquement les performances d'un modèle
https://en.wikipedia.org/wiki/Model_collapse

[-] keepthepace@tarte.nuage-libre.fr 1 points 2 weeks ago

On a eu plusieurs articles qui ont présenté ça comme une fatalité mais ça n'a pas l'air de se retrouver en pratique dans les LLMs

Pendant au moins une génération, ça s'explique assez bien: Dans les teratokens qui ont été injectés, y a beaucoup de trucs à jeter, y a des choses fausses, y a des redondances, des infos obsolètes, des textes de mauvaise qualité.

Un LLM qui a déjà effectué un apprentissage dessus a moyen de ressortir un dataset sans ces choses. C'est techniquement des infos qui ont disparues, peut être même certaines infos utiles filtrées par erreur, mais c'est aussi un dataset qui va aller à l'essentiel et retenir plus rapidement les choses importantes. La généralisation arrive plus vite.

this post was submitted on 22 Jan 2026

20 points (100.0% liked)

Technologie - 🤖

1010 readers

15 users here now

Ici concerne le champs de domaine large de la technologie : actualités sur l'informatique, partage de programme informatique et de code, montrer vos projets Arduino, ect.

Mégafil ici

Le pass BnF pour accéder à la presse : https://jlai.lu/post/4214444
https://archive.is/ pour accéder aux articles avec paywalls
!tipiak@anarchist.nexus pour les ISOs d'Ubuntu

founded 2 years ago

MODERATORS