Artelys x CodaLab : optimisation du stockage des données de compétitions de Data Science

6 octobre 2022

— CodaLab Competitions est une plateforme publique open source pour organiser des compétitions nécessitant une soumission et évaluation automatique de code des participants, généralement sur des sujets de Data Science et d’optimisation.

Depuis la version 1.5, les organisateurs peuvent déporter les calculs d’évaluation de code sur leur propre parc de machines, ouvrant la porte aux compétitions Big Data. Le projet souhaite désormais expérimenter de nouveaux protocoles de compétition respectant la confidentialité des données et supportant les compétitions de Big Data à destination de l’industrie et des start-ups.

C’est plus de 1 000 compétitions qui ont été créées sur la nouvelle version depuis sa mise en production en novembre dernier et les énormes volumes de données des compétitions historisées depuis l’origine de Codalab sont de l’ordre de plusieurs dizaines de To. Ces données sont issues des soumissions de solutions par plus de 25 000 participants à ce jour et du stockage du jeu de données nécessaire à chacune des compétitions. Le succès de la plateforme a mené à la nécessité d’avoir un système de stockage adapté à la demande afin d’éviter la saturation. Plutôt que d’entrer dans une logique de payer plus pour avoir plus de stockage, l’idée a été de travailler sur l’optimisation des ressources existantes.

Launching Meeting of the Event, Athens, Greece

Artelys a accompagné CodaLab dans la maintenance et l’amélioration des plateformes déployées. En procédant par étapes et en commençant par réaliser un état des lieux avant de fournir des solutions, il s’est avéré qu’un Dashboard de Storage Analytics permettait d’identifier les causes du surstockage. Certaines solutions mises en place prennent en compte la recherche de données obsolètes ou redondantes, la limitation du nombre de soumissions par les participants et de la taille des jeux de données initiaux pouvant être déposés par les organisateurs ou encore la recherche d’usages inadaptés de la plateforme. La configuration d’un système de stockage distribué avec MinIO a également permis l’interfaçage automatique des différents systèmes de stockage afin de faciliter le management de ces données. La combinaison de ces approches participe efficacement au bon fonctionnement des serveurs de CodaLab.

L’hébergement des compétitions de Data Science est de plus en plus demandé par divers acteurs souhaitant valoriser leurs données et l’apport continu d’Artelys à la plateforme CodaLab permet d’avoir une vision optimale du stockage en cours. Cette approche proactive pérennise la quantité de stockage disponible rendant la plateforme toujours plus disponible pour des compétitions futures.

Si vous voulez en savoir plus sur la plateforme CodaLab, vous pouvez nous contacter ou visiter leur site web.

Abonnez-vous à notre newsletter

Les données collectées seront exclusivement traitées par la société Artelys dans le but de vous tenir informé(e) des services et produits commercialisés par notre entreprise.

🛈

© ARTELYS • Tous droits réservés • Mentions légales

Pin It on Pinterest

Share This