Le problème:
- Ils le font tous
- Y a pas d'autre moyens pour concurrencer ceux qui le font derrière des portes fermées
- NVidia publie ses datasets (ce qui est cool pour l'open-source!), donc est bien plus obligée de l'admettre
- J'ai aucun espoir que dans un climat aussi polarisé contre «l'IA» on arrive à trouver un créneau pour une tolérance des ayant-droits vis à vis de ces usages (Google a une époque faisait des partenariats avec des bibliothèques par exemple)
De plus en plus de labos passent à des données dites synthétiques pour entraîner leurs LLMs, c'est à dire que ce sont des données produites par d'autres LLMs, dont on «ne sait pas» s'ils ont piraté des contenus pour être entraînés, mais les datasets synthétiques, c'est sur, y a zéro copyright dedans (car la sortie d'un modèle génératif n'est pas copyrightable, d'après une étrange décision de justice US).
C'est une perte de temps pour contourner techniquement un manquement législatif, ça rend assez amer, mais bon, le copyright s'est toujours pas adapté à l'existence d'internet, lui demander de s'adapter à l'IA, ça a peu de chances d'arriver avant 2080.