ZENITH: Gestion de données scientifiques

Zenith s’attaque aux défis posés par la gestion (stockage, partage, traitement, recherche analyse) des données massives (big data, données scientifiques). Ces défis (correspondant aux trois big V : Volume, Velocity, Variety) peuvent se résumer ainsi:

1. très grande échelle (big data, big analytics) ;

2. données en continu (produits par des capteurs, des appareils mobiles, …) ;

3. hétérogénéité et complexité des données (différences sémantiques, données incertaines ou multi-échelles, …).

Notre objectif est d’apporter des solutions innovantes, en démontrant des avantages en termes de passage à l’échelle, fonctionnalité, facilité d’usage et performance, dans des environnements distribués et parallèles (P2P, grid, cloud).

Nous cherchons à produire des résultats fondamentaux et algorithmiques, que nous pouvons implémenter dans des environnements spécifiques, par ex. Grid5K. Pour valider nos solutions, nous collaborons avec des partenaires scientifiques (INRA, CIRAD, IRD, etc.) et industriels (Data Publica, Bull, EDF, Orange, Microsoft, MonetDB, Sparsity, etc.).

Membres

Permanents

Non permanents

Collaborateurs réguliers

  • Michel Riveill

Thématiques de recherche

Le projet Zenith est organisé en trois thèmes complémentaires :

1. Gestion de données et métadonnées : gestion et intégration de données et métadonnées (schémas, ontologies) à grande échelle, en particulier, stockage de big data, résolution d’entités incertaines et traitement de requêtes probabilistes.

2. Partage de données et processus : gestion des données et processus scientifiques dans des environnements distribués et parallèles, avec partage de données en P2P, recommandation dans les communautés en ligne et support des workflows scientifiques.

3. Analyse de données : fouille de données et recherche de données par contenu en exploitant le parallélisme du cloud et les nouvelles technologies NoSQL et MapReduce.

Ces trois thèmes reflètent le continuum qui va de la capture des données, en passant par leur intégration, gestion et partage, jusqu’à leur analyse, afin de produire informations et connaissances.

Publications majeures

R. Akbarinia, P. Valduriez, G. Verger, Efficient Evaluation of SUM Queries Over Probabilistic Data. IEEE Transactions on Knowledge and Data Engineering, Data. Vol. 25, No. 4, 764-775, 2013.

M. El Dick, E. Pacitti, R. Akbarinia, B. Kemme, Building a Peer-to-Peer Content Distribution Network with High Performance, Scalability and Robustness, Information Systems, Vol. 36, No 2, p. 222-247, 2011.

P. Letessier, O. Buisson, A. Joly, N. Boujemaa, Scalable Mining of Small Visual Objects, ACM Multimedia Conf.,  2012.

E. Ogasawara, D. De Oliveira, P. Valduriez, J. Dias, F. Porto, M. Mattoso, An Algebraic Approach for Data-Centric Scientific Workflows, Proceedings of VLDB, Vol. 4, No 11, p. 1328-1339, 2011. 

F. Petitjean, F. Masseglia, P. Gançarski, G. Forestier, Discovering Significant Evolution Patterns from Satelllite Image Time Series, International Journal of Neural Systems, Vol. 21, No 6, 475-489, 2011.

Toutes les publications

Mots-clés

Big data, Données scientifiques, Gestion de données distribuées et parallèles, Analyse et fouille de données, Recommandation et recherche de contenus, Communautés en ligne, Workflows scientifiques, Intégration, Confidentialité, Recherche d’information par contenu, P2P, Grid, Cloud

Dernière mise à jour le 06/11/2017