Evolution des systèmes de gestion de données

Besoin d'aide ?

(Nombre de téléchargements - 0)

Description

Questions ? contacter notre assistance par E-mail : support@clepfe.com

Table des matières

INTRODUCTION GENERALE
CONTEXTE
PROBLEMATIQUE
CONTRIBUTION
PROBLEMATIQUE
CONTRIBUTION
ORGANISATION DE LA THESE
PARTIE A : L’ÈRE DU BIG DATA ET CLOUD COMPUTING
INTRODUCTION
CHAP I : BIG DATA ET CLOUD COMPUTING
I.1 BIG DATA
I.1.1 Evolution des systèmes de gestion de données
I.1.1.1 Vague 1 : Création de systèmes de gestion de données
I.1.1.2 Vague 2 : Web et gestion de contenu
I.1.1.3 Vague 3 : Gestion de Big Data
I.1.2 Définition
I.1.2.1 Volume
I.1.2.2 Vélocité
I.1.2.3 Variété
I.1.2.4 Valeur
I.1.2.5 Véracité
I.1.3 Architecture Big Data
I.1.3.1 Infrastructure physique redondante
I.1.3.2 Sécurité d’infrastructure
I.1.3.3 Avantages de l’architecture Big Data
I.1.4 Sources et types de données
I.1.4.1 Sources de données structurées
I.1.4.2 Sources de données non structurées
I.1.5 Processus de collecte et chargement de données
I.1.6 Principaux acteurs
I.1.7 Big Data et Informatique distribuée
I.1.8 Big Data et Data Warehouse
I.1.9 Stockage de données et virtualisation
I.2 CLOUD COMPUTING
I.2.1 Définition
I.2.2 Modèles de services
I.2.2.1 SaaS (Software as a Service)
I.2.2.2 PaaS (Plateforme as a Service)
I.2.2.3 IaaS (Infrastructure as a Service)
I.2.3 Modèles de déploiement
I.2.3.1 Cloud Public
I.2.3.2 Cloud Privé
I.2.3.3 Cloud Communautaire
I.2.3.4 Cloud Hybride
I.2.4 Secrets du succès du Cloud
I.2.5 Caractéristiques et avantages4
I.2.6 Inconvénients majeurs
I.2.7 Accord de niveau de service (SLA)
I.2.8 Solutions Cloud existantes
I.2.8.1 Solutions propriétaires
I.2.8.2 Solutions libres
I.2.9 Simulateurs Cloud
I.2.10 Le Cloud Computing dans le contexte du Big Data
I.2.11 Bases de données dans le Cloud Computing
I.2.11.1 Modes de déploiement des bases de données dans le Cloud
I.2.11.2 Caractéristiques communes aux bases de données en tant que service
I.2.11.3 Modèles de données utilisés
I.2.11.4 Avantages et inconvénients des bases de données dans le Cloud
CHAP II : LIMITES DES SYSTEMES RELATIONNELS ET MOUVANCES NOSQL ET NEWSQL
II.1 LES SYSTEMES RELATIONNELS ET LEUR LIMITES ATTEINTES
II.1.1 Propriétés ACID
II.1.1.1 Atomicity (Atomicité)
II.1.1.2 Cohérence (Consistency)
II.1.1.3 Isolation (Isolation)
II.1.1.4 Durabilité (Durability)
II.1.2 Contrainte de Cohérence dans un environnement distribué
II.1.3 Limites des systèmes relationnels dans le Cloud et extension aux clusters
II.1.3.1 Application des propriétés ACID en milieu distribué
II.1.3.2 Scalabilité limitée
II.1.3.3 Requête de jointure non optimale
II.1.3.4 Gestion des objets hétérogènes
II.1.3.5 Types de données limités
II.1.3.6 Langage de manipulation
II.1.3.7 Pauvreté sémantique
II.2 LE NOSQL
II.2.1 L’émergence du NoSQL
II.2.2 Définition et concepts de base
II.2.3 Intérêts
II.2.3.1 Scalabilité horizontale au lieu de scalabilité verticale ?
II.2.3.2 Gestion de gros volume de données
II.2.3.3 Performance en écriture
II.2.3.4 Types de données flexibles
II.2.3.5 Structure dynamique
II.2.3.6 Migration de données
II.2.3.7 Acidité relative
II.2.3.8 Economie
II.2.3.9 Simplicité de développement
II.2.4 Caractéristiques
II.2.5 Du SQL vers le NoSQL
II.2.6 Théorème CAP et ses critiques
II.2.7 Propriétés BASE
II.2.8 Différents modèles NoSQL
II.2.8.1Bases de données clé-valeur (Key-value store)
II.2.8.2 Bases de données orientées colonnes (Column family)
II.2.8.3 Bases de données orientées documents (Document store)
II.2.8.4 Bases de données orientées graphes (Graph store)
II.3 LA CONTRE-ATTAQUE DU NEWSQL
II.3.1 Définition
II.3.2 Architecture
II.3.3 Caractéristiques
II.3.4 Leaders de la technologie NewSQL
II.3.5 Avantages et inconvénients
CHAP III : SOLUTIONS NOSQL ETUDIEES
III.1 CLASSEMENT DE POPULARITE DES SYSTEMES NOSQL
III.2 MONGODB
III.2.1 Description
III.2.2 Modèle de données
III.2.3 Architecture
III.2.3.1 Single
III.2.3.2 Replication Master / Slave
III.2.3.3 Replica Set
III.2.3.4 Sharding
III.2.4 Manipulation des données
III.3 CASSANDRA
III.3.1 Description
III.3.2 Caractéristiques
III.3.2.1 Tolérance aux pannes
III.3.2.2 Décentralisé
III.3.2.3 Modèle de données riche
III.3.2.4 Elastique
III.3.2.5 Haute disponibilité
III.3.3 Architecture
III.3.4 Modèle de données
III.3.5 Partitionnement des données dans un cluster Cassandra
III.3.6 Réplication des données
III.3.7 Cohérence des données
III.4 REDIS
III.4.1 Description
III.4.2 Stockage en mémoire vive
III.4.3 Architecture
III.4.3.1 Maître / Esclave
III.4.3.2 Sentinel
III.4.3.3 Cluster
III.4.3.4 Réplication
III.5 HBASE
III.5.1 Description
III.5.2 Modèle de données
III.5.3 Architecture
III.6 COUCHBASE
III.6.1 Description
III.6.2 Architecture
III.6.3 Data Manager (Gestionnaire de données)
III.6.4 Data Cluster Management (Gestion du cluster)
III.6.5 Buckets (Seaux)
IV.6.6 Views (Les vues)
III.7 ORIENTDB
III.7.1 Description
III.7.2 Modèle orienté document
III.7.3 Modèle orienté graphe
III.7.4 Modèle orienté clé / valeur
CHAP IV : ETUDE COMPARATIVE
IV.1 BENCHMARK UTILISE ET CHARGES DE TRAVAIL
IV.2 RESULTATS EXPERIMENTAUX
IV.2.1 Chargement des données (LoadProcess)
IV.2.2 Workload A (50% Read – 50% Update)
IV.2.3 Workload B (95% Read, 5% Update)
IV.2.4 Workload C (100% Read
IV.2.5 Workload F (50% Read, 50% Read-Modify-Write)
IV.2.6 Workload G (5% Read, 95% Update)
IV.2.7 Workload H (100% Update)
IV.2.8 Workload D (5% Insert, 95% Read)
IV.2.9 Workload E (95% Scan, 5% Insert)
IV.2.10 Temps d’exécution global de l’ensemble des Workloads
IV.2.11 Evaluation globale pour les opérations de lecture et mise à jour
IV.3 SYNTHÈSE DES RÉSULTATS
CONCLUSION
PARTIE B : HADOOP, HDFS & MAPREDUCE
INTRODUCTION
CHAP I : SYSTEMES DE GESTION DE FICHIERS
I.1 SYSTEME DE FICHIERS LOCAL (SFL)
I.2 SYSTEMES DE FICHIERS DISTRIBUES (SFD)
I.3 SYSTEMES DE FICHIERS PARTAGES (SFP)
I.4 SYSTEMES DE FICHIERS PARALLELES (SFP)
CHAP II : CLOUDS DE STOCKAGE ET L’ECOSYSTEME HADOOP
II.1 CLOUDS DE STOCKAGE
II.1.1 Relation Client-Serveur : Concepts et objectifs différents
II.1.2 Mise en oeuvre des Clouds de stockage
II.1.3 Implantation des Clouds de stockage
II.1.3.1 Niveaux d’implantation
II.1.3.2 Architectures
II.2 HADOOP
II.2.1 Présentation générale
II.2.2 Hadoop et l’infrastructure de stockage de données
II.2.3 MapReduce
II.2.3.1 Présentation
II.2.3.2Principe
II.2.3.3Architecture fonctionnelle
II.2.3.4 Hadoop MapReduce 2.x: YARN
II.2.4 Hadoop Distributed File System
II.2.4.1 Caractéristiques
II.2.4.2 Architecture
II.2.4.3 MapReduce et HDFS
II.2.4.4 Lecture d’un fichier HDFS
II.2.4.5 Ecriture dans un fichier HDFS
II.2.4.6 HDFS et tolérance aux fautes
II.2.4.7 Service de métadonnées séparé
II.2.5 Ecosystème d’Hadoop
II.2.5.1 Outils de Requêtage et de scripting des données
II.2.5.2 Outil d’intégration SGBDRelationnel
II.2.5.3 Outils de gestion et de supervision du cluster Hadoop
II.2.5.4 Outil d’ordonnancement et de coordination
II.2.5.5 Outil de collecte et d’agrégation de fichiers logs
II.3 TRAITEMENT DES METADONNEES
II.3.1 Classification des métadonnées
II.3.1.1 Métadonnées propres aux données
II.3.1.2 Métadonnées propres au système
II.3.1.3 Métadonnées propres à l’application
II.3.1.4 Les informations sur le stockage
II.3.2 Séparation des voies de données et de métadonnées
II.3.3 Influence du traitement des métadonnées sur la performance
CHAP III : APPROCHE HYBRIDE
III.1 PARALLELISME MODERE DES METADONNEES
III.2 DESCRIPTION DE L’APPROCHE
III.2.1Métadonnées communes
III.2.2 Métadonnées spécifiques
III.2.3 Fonctions reconduites de l’aiguilleur des tâches
III.2.4 Nouvelles fonctions de l’aiguilleur des tâches
III.3 ALGORITHME : MODPARA
III.4 ARCHITECTURE
III.4.1 Architecture du modèle proposé
III.4.2 Architecture fonctionnelle
III.5 TRAVAUX CONNEXES
CONCLUSION
CONCLUSION GENERALE
PERSPECTIVES
ANNEXES : DEPLOIEMENT DE L’ENVIRONNEMENT SOFT
ANNEXE 1 : YCSB
ANNEXE 2 : MONGODB
ANNEXE 3 : COUCHBASE
ANNEXE 4 : CASSANDRA
ANNEXE 5 : HADOOP ET SES COMPOSANTS
ANNEXE 6 : REDIS
ANNEXE 7 : ORIENTDB
ANNEXE 8 : WORKLOAD A
ANNEXE 9 : WORKLOAD B
ANNEXE 10 : WORKLOAD C
ANNEXE 11 : WORKLOAD D
ANNEXE 12 : WORKLOAD E
ANNEXE 13 : WORKLOAD F
ANNEXE 14 : EXEMPLE D’UN PROGRAMME MAPREDUCE
TABLE DES FIGURES
LISTE DES TABLEAUX
REFERENCES BIBLIOGRAPHIQUES