Gestion de données massives

- 21 Sep 2011 -

La Stanford university a publié un ensemble de textes sur la gestion des données massives. Ce point est de plus en plus problématique pour les entreprises. Quelque soit le secteur d’activité, il devient de plus en plus stratégique de donner du sens aux données de l’entreprise. Malgré les efforts fait sur les matériels, l’analyse de celles-ci lorsqu’elles sont volumineuses, reste complexe et long. Les algorithmes de traitement, jusqu’alors utilisées dans les domaines du data-mining et de la business intelligence, rencontrent leurs limites.

Afin de gérer de grands volumes de données, de plus en plus d’équipes se tournent vers les pratiques NoSQL Not Only SQL, parfois pour les mauvaises raisons. Pour le traitement massif de données, on peut aussi citer MapReduce. MapReduce permet de répartir et de paralléliser des calculs sur de volumineux corpus de données. Par exemple, pour le calcul de la fréquence d’apparition de termes dans des textes ou co-occurence (cas de l’algorithme TF-IDF).

Tags

Business Intelligence, BigData .

Commentaires (par Disqus)

blog comments powered by Disqus