Bonjour, Je souhaiterais savoir s’il est possible d’être notifié à la mise à jour d’un jeu de données.
Je suis consommateur des données dvf : Demandes de valeurs foncières (DVF) - data.gouv.fr
Et je voudrais être notifié à la mise à disposition d’un nouveau jeu de données (dépôt fichier .csv).
Par email par exemple, flux rss, api, ou n’importe quel autre moyen.
Merci d’avance
1 « J'aime »
Bonjour,
ploussin à cette demande,
au moins pour avoir une API dédiée à une ressource d’un dataset…
Perso, je bricolais comme suit ;
- Interroger le dataset
ex: https://www.data.gouv.fr/fr/organizations/sante-publique-france/datasets-resources.csv
on obtient un fichier CSV dont le nom contient la date et heure de mise-à-jour dans le dataset
- parser le CSV et chercher la ligne de la ressource souhaitée
- exploiter le champ « modified »
Remarque: quand le jeu supporte l’API tabulaire, on a des API pour obtenir les ressources et leurs infos. Mais ça serait un peu le serpent qui se mord la queue de l’interroger sauf si on exploite uniquement l’API tabulaire.
Nb: je remarque un champ « extras » dans le CSV avec des infos en JSON. Serait-ce le rapport d’analyse de l’API tabulaire ?
1 « J'aime »
bonjour , merci pour votre réponse
de mon côté je vois que les fichiers disposent d’une url stable Demandes de valeurs foncières (DVF) - data.gouv.fr
par exemple pour ce jeu de données, les données de 2024 ont l’url stable suivante: https://www.data.gouv.fr/fr/datasets/r/5ffa8553-0e8f-4622-add9-5c0b593ca1f8
à mon avis le plus simple est de programmer une requête HEAD et de récupérer le champ « last-modified » dans le header qui correspond à la date de dernière màj du fichier
en espérant que ça soit utile
oui et en pratique si on utilise wget il suffit de rajouter l’option -N à la fin de la ligne. Par exemple avec l’adresse de l’exemple ci-dessus :
wget https://www.data.gouv.fr/fr/datasets/r/5ffa8553-0e8f-4622-add9-5c0b593ca1f8 -N