Bonne pratique publication d'un jeu de données mis à jour quotidiennement

Bonjour
Au sein de mon organisation, je compte publier un jeu de données OpenData destinées au public. Les données correspondent aux trajectoires de mobiles dans des zones précises et ceci jour par jour avec une mise à jour quotidienne
Il y a donc une couverture geographique et temporelle
Que me conseillez vous en termes de publication et de mise à disposition d’historique ?
Est-ce qu’on crée plutôt une ressource par jour contenant chacune les données sur une journée différente avec un nommage contenant la date ?
Est-ce qu’il vaut mieux créer une seule ressource contenant par exemple le trafic depuis le début de l’année et chaque mise à jour quotidienne vient remplacer le fichier de la ressource unique et contient l’historique + mise à jour du jour ?
Sachant que potentiellement le choix de l’un ou de l’autre aura un impact sur la fonctionnalité et la simplicité d’exploitation des données publiées automatiquement par API de data.gouv.fr
Merci de votre retour

1 « J'aime »

Bonjour,
En termes de programmation d’une application qui utiliserai ce jeu de données j’ai une nette préférence pour une ressource unique dans laquelle je peux filtrer sur le critère date d’apport ou de mise à jour de la donnée.
Donc
« une seule ressource contenant par exemple le trafic depuis le début et chaque mise à jour quotidienne vient remplacer le fichier de la ressource unique et contient l’historique + mise à jour du jour » et même pas s’emmerder a séparer les années sauf si problème de volumétrie ?
Bien cordialement
Michel

Bonjour Michel
Merci pour le retour !
Mes réflexions sont arrivées aux mêmes conclusions et aux mêmes critères
J’attends d’avoir une estimation de la taille des données sur une années
ça m’a fait dire que data.gouv.fr ne donne pas vraiment de contraintes/bonnes pratiques du genre, « un jeu de données ne doit pas dépasser le Go », et dans le même esprits, « Si 1 Go penser à séparer les données par période temporelle »…
En tous cas je n’ai pas trouvé
De l’autre le fait que la fonctionnalité de publication API automatique est vraiment intéressante et plus facile à exploiter si il y a beaucoup de données dans une meme ressources et/ou si les séparations sont claires
Si les données sont pas très grosses, je proposerai sûrement une seule ressource qui cumule les données avec une période tournante sur X années pour ne pas arriver inéluctablement à des problèmes de taille de ressource

Bonjour, il n’y a priori pas de limite de taille pour une ressource sur datagouv, mais en effet la question de la facilité de réutilisation se pose (un fichier csv de 5Go sera beaucoup moins facile à utiliser pour un novice, mais a contrario sûrement beaucoup plus pratique pour une personne expérimentée). Nous sommes en revanche attentifs à ce que le nombre de ressources dans un jeu de données reste limité pour des questions de lisibilité et de performances du chargement du jeu de données, donc l’option « un fichier de plus par jour » est à proscrire.
Avec ces considérations en tête, plusieurs solutions sont possibles :

Dans les deux cas, les réexpositions automatiques devraient être disponibles (exposition par API via l’API tabulaire, et conversion en parquet), n’hésitez pas à nous solliciter si ce n’est pas le cas.

Bonjour
Merci pour le retour @Pierlou_Ramade
Je viens d’avoir plus d’informations. Les données sont d’environ 10Mo par jour format CSV, soit ~300Mo pour 1 mois et donc ~3,6Go par année

Une solution pour limiter la taille serait de zipper les données CSV, mais je pense que dans le cas du zip, la mise en API ne détectera pas des données tabulées et ne sera donc pas disponible ?

Un fichier par an semble donc approprié vu les ordres de grandeur. Vous pouvez gunzipper les fichiers pour gagner en volume, nos applicatifs acceptent les csv.gz.
Si vous jugez que pouvoir accéder à tout ou partie des données d’un coup peut être utile, la publication d’un fichier complet en parquet pourrait être pertinente.