Outils logiciels pour les cours Paris II

Cours Paris II

edit SideBar

BD 2

  HADOOP et Mapreduce 
  • HDFS: Hadoop Distributed File System)
    • Décomposer les fichiers en blocs
    • Dupliquer les blocs sur plusieurs serveurs (noeuds)
    • Si un serveur est en panne, le fichier peut être lu

Compte sur AWS (Amazon Web Services): http://www.awseducate.com

  • Map-Reduce
    • Schéma général
  • Wordcount

https://medium.com/@rrfd/your-first-map-reduce-using-hadoop-with-python-and-osx-ca3b6f3dfe78

  • Hamming distance

Contexte des Mégadonnées: x et y sont de taille 109 et bruitées 0.1% d'erreur (Volume et Véracité). Comment calculer la distance de Hamming?

  • Edit distance:
    • Aucun gain avec Mapreduce
    • O(n2)
    • Difficile à approximer
UP2