DIS(Blatt8) Data Mining - A priori Algorithmus
2011-07-04 12:30
Threadstarter
Moin.
Hat vielleicht einer der diesjähirgen DIS Teilnehmer bereits das 8te Blatt bearbeitet? Oder vielleicht erinnern sich auch einpaar ältere Hasen daran?!?
Kann es sein, dass der im Titel erwähnte Algorithmus unfassbar viel Zeit braucht oder habe ich ihn (bzw. den ersten Schritt) so dermaßen schlecht implementiert?
Im ersten Schritt bilde ich quasi einelementige Tupel für jeden Artikel und zähle ihr vorkommen in den Transaktionen. Es gibt 866 verschiedene Artikel und 10000 Transaktionen die jeweils (im Schnitt) 6 Artikel beherbergen.
Um jetzt die Anzahl der Tupel zu ermitteln muss ich ja für jeden Artikel/jedes Tupel alle 10000 Transaktionen a 6 Artikel überprüfen. Das sind ca 866*10000*6 Abfragen - was schon über eine halbe Stunde braucht.
Im zweiten Schritt muss ich dann zweielementige Tupel bilden und nach diesen in allen Transaktionen suchen - was pro Transaktion hier mehr Rechenaufwand erfordert und ergo noch länger dauert. Es werden zwar einpaar von denen durch minsupp fallen, aber kA wieviele das sind.
Kann das alles denn überhaupt sein oder tappe ich immer weiter in die Dunkelheit hinaus?
Danke im Vorraus.
Hat vielleicht einer der diesjähirgen DIS Teilnehmer bereits das 8te Blatt bearbeitet? Oder vielleicht erinnern sich auch einpaar ältere Hasen daran?!?
Kann es sein, dass der im Titel erwähnte Algorithmus unfassbar viel Zeit braucht oder habe ich ihn (bzw. den ersten Schritt) so dermaßen schlecht implementiert?
Im ersten Schritt bilde ich quasi einelementige Tupel für jeden Artikel und zähle ihr vorkommen in den Transaktionen. Es gibt 866 verschiedene Artikel und 10000 Transaktionen die jeweils (im Schnitt) 6 Artikel beherbergen.
Um jetzt die Anzahl der Tupel zu ermitteln muss ich ja für jeden Artikel/jedes Tupel alle 10000 Transaktionen a 6 Artikel überprüfen. Das sind ca 866*10000*6 Abfragen - was schon über eine halbe Stunde braucht.
Im zweiten Schritt muss ich dann zweielementige Tupel bilden und nach diesen in allen Transaktionen suchen - was pro Transaktion hier mehr Rechenaufwand erfordert und ergo noch länger dauert. Es werden zwar einpaar von denen durch minsupp fallen, aber kA wieviele das sind.
Kann das alles denn überhaupt sein oder tappe ich immer weiter in die Dunkelheit hinaus?
Danke im Vorraus.