Aucune API : API tabulaire?

Bonjour,

Je suis tombé sur deux sources de données.

Cependant, aucune API ne semble disponible, et j’ai cru comprendre que toutes les sources de données publiées sont à minima disponible via l’api tabulaire.

Est-ce un oubli ?
Est-ce qu’on peut récupérer les données quand même via l’API tabulaire ?
Est-ce que c’est le fait que l’API tabulaire est en bêta donc tout n’est pas présent ?

Je vous remercie d’avance pour votre aide.

Bonjour, nous avons constaté un problème similaire depuis quelques jours voire semaines sur le fonctionnement de cette API, sur les jeux de donnés format csv.gz de cette page Jeu de données - Dépassements de seuils règlementaires en pesticides dans les cours d'eau (diagnostics territoriaux stratégie Ecophyto 2030) | data.gouv.fr .

L interface de l API a changé (moins conviviale), on ne peut par exemple plus tester la console Swagger en direct sur la page, voir ci-dessous :

Et le renvoi vers Swagger UI via « Ouvrir dans Swagger UI » est dysfonctionnel, cela et indique « Failed to load API definition." puis renvoie le message d erreur suivant :

Errors

Fetch error
NetworkError when attempting to fetch resource. https://tabular-api.data.gouv.fr/api/resources/1b568ade-508c-4268-9fd4-61c7a228c4f3/swagger/
Fetch error
Possible cross-origin (CORS) issue? The URL origin (https://tabular-api.data.gouv.fr) does not match the page (https://petstore.swagger.io). Check the server returns the correct ‹ Access-Control-Allow-* › headers.

En conséquence il est désormais impossible d interroger les jeux de données par API.

De plus, sur la page demo.data.gouv.fr (voir exemple du même jeu de données que ci-dessus sur lequel nous avons déposé pour l instant uniquement sur demo.data.gouv de nouveaux fichiers csv.gz la semaine dernière : Jeu de données - Dépassements de seuils règlementaires en pesticides dans les cours d'eau (diagnostics territoriaux stratégie Ecophyto 2030) | data.gouv.fr ), les nouveaux fichiers déposés ne disposent plus d aucune fonctionnalité (à part Métadonnées et Téléchargement pourtant auparavant disponible à savoir Carte, Aperçu, Structure des données et Swagger) , voir au lien suivant : Jeu de données - Dépassements de seuils règlementaires en pesticides dans les cours d'eau (diagnostics territoriaux stratégie Ecophyto 2030) | data.gouv.fr

Merci par avance pour votre retour et la résolution du problème.

Bien à vous.

Bonjour, les deux sujets sont très différents, voici la réponse à la première question : les jeux de données en question ne contiennent pas de données tabulaires (csv/excel/parquet) et ne sont donc pas éligibles à l’APIfication automatique. Vous pouvez retrouver toutes les modalités dans la documentation

Pour le second message, plusieurs points :

  • nous avons effectivement récemment revu l’onglet Swagger, qui est présent dans le cas où la ressource est disponible via l’API tabulaire. Si l’interface vous semble moins intuitive, nous serions preneurs de retours sur ce que vous vous attendriez à trouver dans cet onglet. Nous organisons régulièrement des ateliers de retours utilisateurs pour améliorer la plateforme
  • même si le swagger a changé et qu’il n’est plus possible de requêter l’API tabulaire dans l’onglet, elle reste accessible via un navigateur ou du code
  • sur la plateforme demo, les seuils de tailles maximales pour que l’API tabulaire soit disponible sont plus bas, afin de ne pas consommer des ressources « inutilement ». Si vous avez des besoins de consommation de l’API tabulaire sur des fichiers non-APIfiés sur démo, vous pouvez nous en faire la demande sur notre support

Bonjour,

Merci pour vos réponses.

Et par exemple pour un jeu de données c’est indiqué API disponible.

Si je prends le premier fichier j’ai l’id, mais l’url que je forme est invalide.

Cordialement

La mention de l’API tabulaire dans l’onglet « réutilisations et API » d’un jeu de données devrait être présente si au moins une de ses ressources est APIfiée, ce qui n’est pas le cas ici, nous allons investiguer.

Bonjour, et merci pour votre réponse très rapide.

Avez-vous des nouvelles ?

Bien à vous.

Modification après envoi :

Je crois que j’ai trouvé la réponse à ma question concernant le jeu de données sur l’API tabulaire disponible qui ne fonctionne pas.

En effet, tous les fichiers sont plus gros que 100 mo pour des CSV sauf potentiellement le dernier, qui fait 80,2 Mo mais une fois décompressé il fait 447 mo.

Ainsi, je me demande si l’API tabulaire prend en compte l’archive ou la taille des fichiers CSV (j’imagine qu’elle prend la taille du fichier CSV car 400 Mo wooooww, et ça expliquerait pourquoi l’API tabulaire ne fonctionne pas sur ces jeux de données)

Donc dans API et réutilisation, pour moi, il ne devrait pas y avoir l’api tabulaire.

Bonjour, c’est bien la taille avant décompression potentielle qui est regardée, cependant il est fort probable qu’un des fichiers du jeu de données ait été APIfié à un moment donné, mais ait ensuite dépassé la taille maximale, et que l’API tabulaire ait disparu, mais n’ait pas été retirée de l’onglet en question. Nous investiguons cela.

Bonjour,

Merci pour votre réponse et désolé du délai de mon côté (je n avais pas reçu les notifications).

  • Sur la prise en main de l interface de l onglet Swagger, la configuration précédente nous convenait parfaitement, j imagine que les modifications effectuées prennent en compte des contraintes dont nous n avons pas forcément conscience, mais est-il envisagé de revenir à la version précédente de l interface (où il était possible de tester directement les endpoints et donc de connaitre la nomenclature des filtres applicables) ?

  • Ok pour l accessibilité à l interface mais dans ce cas serait-il possible de consolider la documentation d utilisation de l API (ou bien indiquer clairement où on peut trouver celle-ci depuis l onglet Swagger ? Par exemple donner des exemples de nomenclature de filtres à appliquer), en effet ce devrait être accessible via le lien * Ouvrir dans Swagger UI mais en cliquant dessus j ai toujours cette erreur :

  • Merci pour les précisions/rappels sur les seuils qui diffèrent entre la plateforme de demo et celle de prod. Pouvez-vous me rappeler quel est le seuil sur la demo svp ? En effet je constate que cela ne fonctionne pas y compris pour des fichiers CSV.GZ relativement légers (12.6 MO pour * resume_sta_param_annee_2019.csv.gz par exemple). Serait-il possible d augmenter cette limite par fichier à 120 MO pour les fichiers * de cette page svp ? En effet nous y avons des fichiers qui atteignent une taille max d environ 118 MO.

Bien cordialement.

Bonjour,

  • le design de l’interface, notamment l’intégration de l’API tabulaire, continue d’évoluer, j’ai remonté le sujet en interne pour les prochaines itérations.
  • nous avons un problème de CORS pour les swaggers, ce qui empêche son affichage dans l’interface. Un correctif est en cours d’élaboration.
  • sur démo les seuils sont actuellement :
    • 10Mo pour les csv et csv.gz
    • 5Mo pour les xls
    • 1,25Mo pour les xlsx

Nous pouvons passer des fichiers en exception au cas par cas, je suis preneur de plus de contexte si vous souhaitez en bénéficier : quelles sont ces données ? Quel usage avez-vous de l’API tabulaire sur ces fichiers ? Quand seront-ils publiés en production ?

Bonjour,

Merci pour les précisions sur tous ces points, pour répondre à vos questions :

  • Il s agit de données issues de la base Naïades de suivi de la qualité des cours d eau en France, qui ont été interrogées via l API Hub Eau dédiée ( Qualité des cours d'eau | Hubeau ) puis sur lesquelles des règles métier ont été appliquées pour déterminer quelles parties des cours d eau présentent des pollutions aiguës ou chroniques aux pesticides (comparaison à des seuils de concentrations présentant un risque avéré pour l environnement). Initialement elles ont été produites pour alimenter les diagnostics régionaux de la stratégie Ecophyto (politique publique de réduction des usages et risques des pesticides en France) pour y mettre en évidence les zones de cours d eau les plus sujettes à pollution.
  • Désormais nous souhaitons réutiliser ces données pour développer une application permettant de localiser les cours d eau les plus pollués et pour quelles substances à la commune (commune qui sera à renseigner par l utilisateur). Pour ce faire nous avons du reprendre nos scripts initiaux pour modifier certains champs (en ajouter et en renommer) et la structure des données diffusées (fichiers France entière par année plutôt que par région sur une période pluriannuelle) afin de les interroger via l API tabulaire. Ce sont les fichiers adoptant ce nouveau format qui sont actuellement en recette donc sur demo.data.gouv.fr (sur la prod, nous conservons pour l instant les fichiers initiaux développés pour Ecophyto)
  • Ces fichiers seront publiés en production courant 2026, nous aurions souhaité attendre de tester que leur interrogation par l API tabulaire fonctionne correctement sur demo.data.gouv. Pour cela nous aurions besoin de pouvoir faire des tests sur les 2 fichiers de l année 2024 à savoir :

Serait-il possible d augmenter le seuils de taille pour ces deux fichiers ?

J en profite pour ajouter une question concernant les seuils de poids max (en demo et en prod) pour les fichiers déposés format parquet ? En effet, nous envisageons à terme de déposer les fichiers sous ce format pour ce jeu de données.

Bonjour, merci pour ces précisions.
Nous venons de passer les deux ressources en question en exceptions, l’API tabulaire est en place pour les deux (NB : sur demo, l’URL est https://tabular-api.preprod.data.gouv.fr/api/resources/<resource_id>/data/). Pour rebondir sur votre dernier point : il ne vous est pas nécessaire de publier en parquet, datagouv fait automatiquement la conversion csv => parquet en plus de l’APIfication (cf l’onglet Téléchargement des ressources en question). Si vous souhaitez tout de même publier en parquet, la taille maximale pour la mise en place automatique de l’API tabulaire est 50Mo (sur demo et en prod).
Cela pose cependant la question de l’articulation entre le moissonnage de la plateforme de l’OFB et votre dépôt de données directement sur datagouv. Si cela ne pose pas de problème techniquement, cela peut devenir confusant quant à la source de vérité des données. Comment envisagez-vous cela ?

Super merci pour ce retour, je confirme qu’il est possible de tester l’API via la console en important l’URL type

https://tabular-api.preprod.data.gouv.fr/api/resources/<resource-id>/swagger/

(exemple: https://tabular-api.preprod.data.gouv.fr/api/resources/c983d9a0-5620-4c12-9316-a621a3001a22/swagger/) dans https://editor.swagger.io/

Pour l’instant, en production nous comptons toujours procéder par un dépôt sur data.ofb.fr qui sera ensuite moissonné automatiquement par data.gouv.fr