Ces jeunes des petites villes qui étiquettent les grands modèles d'IA

Auteur : Sleepy.md

Datong, dans la province du Shanxi, cette ville qui s’est autrefois appuyée sur le charbon pour soutenir une grande partie de la prospérité du pays, a aujourd’hui secoué la poussière de charbon de ses vêtements, saisi un marteau-piqueur plus tranchant, et s’est mise à frapper lourdement une autre mine, invisible.

Dans les bureaux du centre international Jinmao, à Pingcheng, il n’y a plus de puits élévateur. Plus de camions à cargaison de charbon non plus. À la place, ce sont des milliers de postes informatiques étroitement alignés. Le centre de services de données intelligentes Shanghai Runxun Yunzhong Shigu, occupe carrément plusieurs étages. Des milliers de jeunes employés, casqués d’écouteurs, scrutent des écrans : ils cliquent, font glisser, encadrent.

Selon les données officielles, en date de novembre 2025, la ville de Datong a mis en service 745k serveurs, a fait entrer 69 entreprises de marquage et d’annotation de données, ce qui a permis de générer plus de 30k opportunités d’emploi à proximité, avec une valeur de production de 750 millions de yuans. Dans cette mine de chiffres, 94 % des personnes employées ont un domicile officiel local.

Pas seulement Datong. Dans les premiers centres d’annotation de données définis par la Data Bureau du pays, des villes du centre et de l’ouest du pays comme le comté de Yonghe, dans le Shanxi, Bijie, dans le Guizhou, et Mengzi, dans le Yunnan, figurent clairement sur la liste. Dans le centre d’annotation de données du comté de Yonghe, 80 % des employés sont des femmes. Elles sont pour la plupart des « mamans rurales », ou bien des jeunes qui sont retournés au village, faute d’avoir trouvé un emploi convenable.

Il y a un siècle, dans une usine de textile de Manchester, en Angleterre, des paysans avaient entassé les lieux, ayant perdu leurs terres. Et aujourd’hui, devant les écrans d’ordinateur de ces comtés reculés, se sont assis des jeunes qui ne trouvent pas leur place dans l’économie réelle.

Ils accomplissent un travail à la fois extrêmement futuriste et pourtant profondément primitif au forfait au nombre : ils produisent la nourriture de données indispensable à la formation des grands modèles, pour les géants de l’intelligence artificielle basés à Beijing, Shenzhen et dans la Silicon Valley.

Personne ne trouve que cela pose problème.

Nouvelle chaîne de production sur le plateau de lœss

L’essence du marquage de données, c’est d’apprendre aux machines à reconnaître le monde.

La conduite autonome doit reconnaître les feux tricolores et les piétons ; les grands modèles doivent distinguer ce qui est un chat et ce qui est un chien. La machine elle-même n’a pas de bon sens : il faut que les humains tracent d’abord un cadre sur l’image, en lui disant « c’est un piéton », puis, après avoir englouti des dizaines de millions d’images, elle apprend à se repérer et à reconnaître par elle-même.

Ce travail ne demande pas forcément de haut niveau d’études : il faut seulement de la patience, et un doigt capable de cliquer sans s’arrêter.

À l’époque « dorée » de 2017, un simple cadre 2D coûtait plus d’un dixième de yuan ; certaines sociétés proposaient même des prix de 0,5 dixième de yuan. Les annotateurs au toucher rapide pouvaient, en une journée de plus de dix heures, gagner 5 ou 6 cents de yuans. Dans un comté, cela compte absolument comme un emploi bien payé et décent.

Mais avec l’évolution des grands modèles, le côté cruel de cette chaîne de production a commencé à se révéler.

En 2023, le prix unitaire de l’annotation simple d’images avait déjà été ramené à 3 à 4 dixièmes de yuan. La baisse a dépassé 90 %. Même pour des images de nuages de points 3D, plus difficiles : ces images, formées de points denses et nécessitant un grossissement pour voir correctement les contours, obligent aussi les annotateurs à tracer, dans l’espace tridimensionnel, un cadre 3D englobant la longueur, la largeur, la hauteur et l’angle de rotation, pour envelopper à la perfection le véhicule ou le piéton. Or, même ce cadre 3D complexe ne vaut que 5 dixièmes de yuan.

L’effet direct de l’effondrement des prix unitaires, c’est la montée en flèche de l’intensité du travail. Pour s’accrocher à ce salaire de base de 2 000 à 3 000 yuans par mois, les annotateurs doivent sans cesse, sans arrêt, augmenter leur vitesse de mouvement des doigts.

Ce n’est absolument pas un travail de bureau facile. Dans beaucoup de bases d’annotation, la gestion est si stricte qu’elle en devient suffocante : au travail, il est interdit de répondre au téléphone ; le téléphone doit être verrouillé dans un casier. Le système enregistre avec précision la trajectoire de la souris de chaque employé et le temps de présence : si l’on s’arrête plus de trois minutes, les avertissements en arrière-plan arrivent comme des coups de fouet.

Le plus insupportable, c’est le taux de tolérance à l’erreur. Dans l’industrie, la ligne de réussite est généralement au-dessus de 95 % ; certaines entreprises exigent même 98 %-99 %. Cela signifie : si vous dessinez 100 cadres, et que vous vous trompez seulement 2 fois, toute l’image sera renvoyée pour correction.

Les images vidéo consistent en une suite de trames : lorsqu’un véhicule change de voie, il est masqué ; l’annotateur doit les retrouver un par un en s’appuyant sur la déduction et l’inférence. Dans les nuages de points 3D, dès qu’un objet dépasse 10 points, il faut dessiner un cadre. Pour un projet complexe de place de parking, si la ligne est trop longue ou si vous oubliez une annotation, l’inspection qualité finira toujours par trouver une faute. Renvoyer une image pour correction quatre ou cinq fois, c’est monnaie courante. Au final, une fois le temps compté, ce ne sont que quelques dixièmes de yuan qui atterrissent dans la paume.

Une annotatrice de Hunan a publié, sur une plateforme sociale, son relevé de règlement : après une journée entière, elle a tracé plus de 700 cadres. Prix unitaire : 4 dixièmes de yuan. Revenu total : 30,2 yuans.

C’est un tableau profondément déchirant.

D’un côté, les grands pontes technologiques, brillants à la tribune, discutent de la manière dont l’AGI libérera l’humanité ; de l’autre, dans les comtés du plateau de lœss et des montagnes du sud-ouest, des jeunes fixent chaque jour l’écran huit à dix heures, tirent des cadres mécaniquement, des milliers, des dizaines de milliers, et même la nuit, dans leurs rêves, les doigts continuent de tracer dans l’air des lignes de voie.

Quelqu’un a déjà dit que l’apparence de l’intelligence artificielle, c’est une voiture de luxe qui rugit en passant ; mais quand vous ouvrez la portière, vous découvrez qu’à l’intérieur, cent personnes pédalent sur des vélos, en serrant les dents et en appuyant à fond sur les pédales.

Personne ne trouve que cela pose problème.

Travail au forfait pour « apprendre aux machines à aimer »

Quand le goulot d’étranglement de la reconnaissance d’images a été percé, les grands modèles ont connu une évolution plus profonde encore : ils doivent apprendre à penser, à dialoguer comme des humains, voire à faire preuve de « empathie ».

Cela donne naissance à l’étape la plus centrale et la plus coûteuse dans l’entraînement des grands modèles : RLHF (apprentissage par renforcement à partir des retours humains).

En termes simples : on fait noter par des humains les réponses produites par l’IA, afin de dire quelle réponse est meilleure et correspond davantage aux valeurs et aux préférences émotionnelles des humains.

Si ChatGPT donne l’impression d’être « comme un humain », c’est parce qu’en coulisses, d’innombrables annotateurs RLHF lui donnent des cours.

Sur les plateformes de crowdworking, ce type de tâche d’annotation est souvent affiché à prix fixe : 3 à 7 yuans par pièce. Les annotateurs doivent noter très subjectivement l’émotion des réponses de l’IA : décider si cette réponse est « chaleureuse », si elle « fait preuve d’empathie », si elle « prend en compte les émotions de l’utilisateur ».

Un ouvrier de base, payé deux ou trois mille yuans par mois, qui lutte sans répit dans la boue du réel, qui n’a même pas le temps de s’occuper de ses propres émotions, doit pourtant, dans le système, jouer le rôle de mentor émotionnel de l’IA et de juge des valeurs.

Ils doivent réduire en miettes, de force, des émotions humaines extrêmement complexes et subtiles, comme la chaleur et l’empathie, puis les quantifier en une note froide de 1 à 5. Si leur évaluation ne correspond pas aux réponses standards définies par le système, ils seront jugés comme n’atteignant pas le taux de justesse requis, et verront ainsi leur maigre salaire au forfait diminué.

C’est une forme d’extraction des facultés cognitives. Les émotions complexes et délicates, la morale et la compassion de l’être humain sont forcées d’être englouties dans une sorte d’entonnoir algorithmique. Dans le carcan froid de la quantification et de la standardisation, tout est pressé jusqu’à en épuiser la dernière once de chaleur. Quand vous vous émerveillez de constater que le monstre cybernétique à l’écran a déjà appris à écrire des poèmes et à composer de la musique, à réconforter et à prendre soin, et même à revêtir une enveloppe empreinte de mélancolie ; en dehors de l’écran, cette bande d’humains bien réels, eux, s’est transformée, jour après jour, en machines à noter sans émotion, sous la contrainte de jugements mécaniques.

C’est la face la plus secrète de toute la chaîne de l’industrie : elle ne se voit jamais dans l’actualité de levées de fonds ni dans les livrets techniques et livrets blancs.

Personne ne trouve que cela pose problème.

Masters 985 et jeunes de province

Le travail de tracé de cadres à la base est en train d’être écrasé par les chenilles de l’IA. Cette chaîne de production cyber se propage vers le haut : elle commence à engloutir du travail intellectuel de niveau supérieur.

L’appétit des grands modèles a changé. Ils ne se contentent plus de mâcher et broyer de simples connaissances communes : ils doivent avaler les connaissances professionnelles des humains et des logiques de haut niveau.

Sur les grandes plateformes de recrutement, des missions de freelance particulières commencent à clignoter de plus en plus souvent, comme « annotation de raisonnement logique pour grands modèles » ou « formateur en humanités IA ». Les exigences de ce job sont extrêmement élevées : elles demandent souvent « un diplôme de master 985/211 ou supérieur », et concernent des domaines professionnels comme le droit, la médecine, la philosophie, la littérature, etc.

Beaucoup d’étudiants en master issus de grandes écoles se laissent attirer et affluent dans ces groupes d’externalisation des grandes entreprises. Mais ils découvrent très vite que ce n’est pas du tout une gymnastique intellectuelle facile : c’est un véritable supplice mental.

Avant d’accepter officiellement les commandes, ils doivent lire des documents pouvant atteindre plusieurs dizaines de pages sur les dimensions de notation et les critères d’évaluation, puis effectuer deux à trois cycles d’essai d’annotation. Une fois les critères atteints, pendant l’annotation officielle, si le taux de justesse est inférieur à la moyenne, ils perdent leur éligibilité et se font exclure du groupe.

Ce qui étouffe le plus, c’est que ces standards ne sont même pas fixes. Face à des questions et des réponses similaires, si l’on note avec la même manière de penser, le résultat peut être totalement opposé. C’est comme remplir un questionnaire qui n’a jamais de fin, sans même de véritable corrigé standard. On ne peut pas améliorer le taux de justesse par des efforts personnels ou par l’apprentissage : on reste sur place à tourner en rond, en consommant sans cesse de la puissance cérébrale et de la force physique.

C’est là la nouvelle exploitation à l’ère des grands modèles : le repli des classes.

Le savoir, cette passerelle en or qu’on a autrefois considérée comme un moyen de briser les barrières et de grimper vers le haut, est aujourd’hui devenu une ration numérique offerte à l’algorithme, plus complexe encore à mâcher. Face au pouvoir absolu des algorithmes et des systèmes, les masters 985 enfermés dans leur tour d’ivoire et les jeunes de province du plateau de lœss se retrouvent engagés dans la convergence la plus bizarre de voies divergentes.

Ils tombent ensemble dans cette mine cyber insondable ; on leur retire leur aura, on efface leurs différences, et ils deviennent tous des engrenages bon marché sur des chenilles, remplaçables à tout moment.

C’est pareil à l’étranger. En 2024, Apple a directement supprimé une équipe de 121 personnes chargée de l’annotation vocale par IA à San Diego. Ces employés étaient responsables d’améliorer le traitement multilingue de Siri. Ils pensaient être aux marges de l’activité centrale des grands fournisseurs, mais ils sont instantanément tombés dans un abîme de chômage.

Aux yeux des géants de la tech, qu’il s’agisse des mères au tracé dans les comtés, ou des formateurs en logique sortis de grandes écoles, ce sont, au fond, des « consommables » remplaçables à tout moment.

Personne ne trouve que cela pose problème.

Un Babel à mille billions, construit avec du sang versé pour quelques centimes

D’après les données publiées par le China Academy of Information and Communications Technology (CAICT), en 2023, la taille du marché chinois de l’annotation de données atteignait 6,08 milliards de yuans. En 2025, elle devrait atteindre 20 à 30 milliards de yuans ; selon les prévisions, d’ici 2030, le chiffre d’affaires mondial de l’annotation et des services de données grimpera en flèche jusqu’à 117,1 milliards de yuans.

Derrière ces chiffres, il y a une fête des valorisations à l’échelle de centaines de milliards, voire de milliers de milliards de dollars, menée par des géants technologiques comme OpenAI, Microsoft et ByteDance, entre autres.

Mais cet argent ne s’est pas déversé vers ceux qui « nourrissent » vraiment l’IA.

L’industrie chinoise de l’annotation de données présente une structure typique d’externalisation en forme de pyramide inversée. Au sommet, ce sont les géants technologiques qui gardent fermement les algorithmes clés. À l’étage suivant, des fournisseurs de services de données de grande taille. En troisième couche, des bases d’annotation réparties partout et des sociétés d’externalisation de petite et moyenne taille. Tout en bas, seulement alors, il y a les annotateurs de la terre, ceux qui gagnent au forfait.

À chaque couche d’externalisation, on prélève brutalement une part des graisses et de l’argent. Quand le grand fabricant fixe un prix unitaire de 5 dixièmes de yuan, après avoir subi toutes les ponctions, le montant qui retombe entre les mains des annotateurs du comté peut n’être même pas 5 centièmes de yuan.

L’ancien ministre grec des finances, Yanis Varoufakis, dans son livre « Techno-feudalisme », a proposé une idée très percutante : aujourd’hui, les géants de la tech ne sont plus des capitalistes au sens traditionnel, mais des « seigneurs du cloud » (Cloudalists).

Ils ne possèdent pas des usines ni des machines, mais des algorithmes, des plateformes et de la puissance de calcul : ce sont des territoires numériques de l’ère cyber. Dans ce nouveau système féodal, les utilisateurs ne sont pas des consommateurs : ce sont des fermiers numériques. À chaque like, commentaire ou consultation sur les réseaux sociaux, nous fournissons gratuitement des données aux seigneurs du cloud.

Et les annotateurs de données, disséminés sur les marchés « en bas », sont, dans ce système, les esclaves numériques de la base. Ils ne produisent pas seulement des données : ils doivent aussi nettoyer, classer et noter une masse énorme de données brutes afin de les transformer en aliments de haute qualité que les grands modèles peuvent digérer.

C’est une action secrète de reconquête des territoires cognitifs. Comme le mouvement des enclosures en Angleterre au 19e siècle a chassé les paysans vers les usines textiles, aujourd’hui, la vague d’IA pousse ceux qui ne trouvent pas de place dans l’économie réelle vers l’écran.

L’IA n’a pas effacé la fracture entre les classes ; au contraire, elle a construit une « bande transporteuse de données et de sueur », allant des comtés du centre et de l’ouest de la Chine jusqu’aux sièges des géants de la tech à Beijing, Tianjin, Shanghai, Guangzhou et Shenzhen. Le récit de révolution technologique est toujours grandiose et flamboyant, mais sa teinte de fond, elle, reste toujours une consommation à grande échelle de main-d’œuvre bon marché.

Personne ne trouve que cela pose problème.

Plus besoin d’un demain humain

L’issue la plus cruelle arrive bientôt, de plus en plus vite.

À mesure que les capacités des grands modèles bondissent, les tâches d’annotation qui nécessitaient autrefois que des humains travaillent nuit et jour sont en train d’être reprises par l’IA elle-même.

En avril 2023, Li Xiang, fondateur de Ideal Auto, a révélé des données sur un forum : auparavant, Ideal devait faire environ 10 millions de trames d’annotation humaine pour l’imagerie de conduite autonome par an. Le coût d’externalisation approchait 8B de yuans. Mais une fois qu’ils ont utilisé des grands modèles pour automatiser l’annotation, ce qui nécessitait auparavant une année peut être accompli, en gros, en seulement 3 heures.

L’efficacité est 1000 fois celle de l’homme, et en plus c’était déjà en 2023. Juste au cours du mois de mars qui vient de s’achever, Ideal a publié le nouveau moteur d’annotation automatique MindVLA-o1.

Dans l’industrie, on entend une boutade d’autodérision extrêmement vraie : « Il y a autant d’intelligence qu’il y a d’humain. » Mais désormais, les investissements des grands fabricants pour l’externalisation d’annotations de données ont déjà chuté de 40 % à 50 % d’un seul coup.

Ces jeunes de province, qui ont passé d’innombrables journées et nuits assis devant leur ordinateur, au point d’avoir les yeux rouges à force de veiller, ont nourri de leurs propres mains un monstre. Et maintenant, ce monstre se retourne et renverse leur gagne-pain.

À la tombée de la nuit, les immeubles de bureaux de Pingcheng, à Datong, restent blancs comme en plein jour. Dans les salles d’ascenseur, les jeunes qui passent le relais se remplacent en silence, échangeant leurs corps épuisés. Dans cet espace replié, emprisonné par des dizaines de milliers de cadres polygonaux, personne ne se soucie de savoir quelle nouvelle transgression épique vient de nouveau se produire de l’autre côté de l’océan, ni personne n’arrive à comprendre le rugissement de la puissance de calcul cachée derrière des milliards de paramètres.

Leur regard est fixé seulement sur cette barre de progression rouge et verte, celle qui représente « la ligne de réussite », dans le back-end. Ils calculent si les quelques points et quelques dixièmes de yuan du forfait pourront se rassembler pour offrir une vie décente à la fin du mois.

D’un côté, le carillon de la cloche au Nasdaq et les montagnes d’articles des médias technologiques : les géants lèvent leurs verres en célébration de l’arrivée de l’AGI ; de l’autre, ces esclaves numériques, nourris morceau par morceau par leur propre chair, n’ont plus qu’à trembler et attendre, dans des rêves douloureux et acides, que le monstre qu’ils ont eux-mêmes élevé de leurs propres mains, un matin apparemment ordinaire, leur donne un coup de pied, détaché et indifférent, en faisant voler leur gagne-pain.

Personne ne trouve que cela pose problème.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler