Erreur de gestion de l'encodage dans tabular-api.data.gouv.fr et explore.data.gouv.fr

oliezekat · Avril 12, 2025, 5:40

Bonjour,
J’ai toujours déposé mes CSV encodés en UTF-8, et divers outils d’édition ou tableur le détecte automatiquement.

Pourtant après certaines mise-à-jour je constate que tabular-api.data.gouv.fr et explore.data.gouv.fr ont ré-encodé mes textes comme si ils n’étaient pas en UTF-8.

Ma mise à jour du 12 avril est totalement caviardée alors que les 2 précédentes étaient correctes :

Pierlou_Ramade · Avril 14, 2025, 3:19

Bonjour, nous avons bien une détection automatique de l’encodage des fichiers dans notre pipeline d’APIfication, mais le script semble perturbé par la présence des émojis dans votre fichier, ce qui l’amène à considérer que l’encodage est « ISO-8859-1 » (avec un taux de confiance faible, qui pourrait expliquer pourquoi il a pu détecter le bon encodage auparavant). Vous pouvez comparer le résultat avec un autre fichier avec des caractères accentués, pour lequel la détection se passe sans problème.

oliezekat · Avril 14, 2025, 7:14

Bonjour,
un peu sceptique que les émojis soient la cause ; les précédentes versions (depuis le 30 mars inclus) avaient déjà des émojis…

Je viens de déposer un nouveau fichier ayant 33 nouvelles lignes ajoutées au début qui est bien géré en UTF-8 et les émojis s’affichent.
Aussi essayé le fichier sans les 33 lignes ajoutées qui passe aussi, tandis que celui 12 avril échoue à chaque fois.

Voulez-vous mes anciennes versions du fichier pour investiguer ?