Outils logiciels pour les cours Paris II

Cours Paris II

edit SideBar

Master Marketing

La Science des Données recouvre deux parties distinctes: l'analyse de données pour connaitre par exemple la répartition des ventes par région dans un système d'Information, et l'analyse de flux de données dans un réseau social pour mieux connaitre ses clients.

Les données se trouvent sur le cloud dans les deux cas. Dans le premier cas, on a une base données qui évolue dans le temps. Dans le deuxième cas, on a des flux de données.

  • Séance 1: Introduction à la science des Données. Le monde classique et le monde des Mégadonnées (les 4 Vs: Volume, Velocity, Veracity, Variety).
  • Séance 2: Le monde classique. Schéma relationnel et schéma Olap en Bases de données (Mysql et Jpivot), requêtes OLAP: voir http://www.up2.fr/M1 pour les outils et fichiers. Visualisation des requêtes Olap en Piechart multidimensionnels et interprétation des résultats. Bases de Données NoSQL (XML et key-value). Prédiction avec un arbre de décision. Un compte Mysql/Jpivot est fourni à chaque étudiant.
  • Séance 3: Réseaux sociaux. Analyse Twitter sur des mots clés (Gephi). Voir http://www.up2.fr (Flux Twitter) pour la méthode à suivre pour avoir un compte "développeur" sur Twitter et configurer Twitter avec les bons modules. Taille du graphe, distribution des degrés, distribution des Pageranks, composantes connexes, modules. Visualisation avec spatialisation et communautés. Challenge: corréler plusieurs sources de données (streaming et datawarehouse).

Polycopié du monde classique

Polycopié Mégadonnées

Compléments: le livre Networks, Crowds and Markets de Kleinberg: http://www.cs.cornell.edu/home/kleinber/networks-book/

Référence cours Mining Massive Data Sets, Livre Mining Massive Data Sets.

What is bigdata ?

Logiciels à télécharger: Gephi 0.9.

Quizz et Evaluation:

  1. Qu'est ce qu'un schéma E-R (Entités-Relations)?
  2. Qu'est ce qu'un schéma Relationnel?
  3. Qu'est ce que SQL ? Jointure, dépendance fonctionnelle?
  4. Qu'est ce qu'un schéma OLAP?
  5. Qu'est ce qu'une requête OLAP?

  1. Qu'est ce qu'un réseau social?
  2. Qu'est ce qu'un graphe aléatoire? Une composante géante?
  3. Qu'est ce qu'un Reservoir sampling?
  4. Qu'est ce qu'un profil sur un réseau social?
  5. Comment utiliser les réseaux sociaux pour le Marketing?
  • Version Luxembourg

Objectifs : acquérir les connaissances fondamentales en système d’information et data science : Bases de données et Flux de données prédiction à partir des données (Data Mining, Apprentissage)

Descriptif du module. Les systèmes d’information décrivent des données dans des tableaux. Un Schéma relationnel décrit la structure de ses tables et le langage SQL permet la création de schémas et de requêtes. L’analyse de données permet d’avoir des représentations graphiques selon des dimensions d’analyse. On utilise MySql comme environnement de Bases de données et Jpivot comme environnement d’analyse de requêtes OLAP: voir http://www.up2.fr/M1 pour les outils et les fichiers, à partir d’un compte personnalisé.

Les flux de données, comme la liste de tweets de Twitter sur un sujet précis sont des nouvelles sources de données dans le cadre des réseaux sociaux. On utilise Gephi pour visulaliser les graphes sociaux que l’on peut ainsi observer. Suivre http://www.up2.fr puis Flux Twitter pour ouvrir un compte développeur.

La prédiction pour les bases de données cherche à connaître des données non explicites et permet de faire des recommandations aux usagers. Pour les flux de données, on peut prédire des valeurs économiques (valeurs boursières, cryptomonnaies) à partir des communautés des graphes. Les deux types de sources d’information sont complémentaires pour affiner les prédictions.

UP2