Le problème est d’homogèneiser les clusters. Si un temps contient beaucoup de clusters, un cluster de même taille dans ce temps là sera plus petit. Par conséquent, il faut qu’ils restent à l’échelle.
Le but est de mettre en forme les données afin de pouvoir les envoyer à dbscan. Le problème est que les données sont dispersées dans le temps. Par conséquent, afin que dbscan fonctionne correctement, il faut rassembler les transactions dans des ensemble de temps afin que dbscan puisse détecter les similarités. Il faut donc pré-parser les données suivant un intervalle de temps.
generateClusters fait plusieurs taches (prépare les levels2 et fait les itemsets)