数日前、オレンジニュースで「2008年度人工知能学会の発表資料「頻出パターン発見アルゴリズム入門 −アイテム集合からグラフまで−」(PDF)が紹介されてました。データマイニングに興味があったので読んでみると、タイトルどおりのわかりやすい入門記事だったのでコードを書いて遊んでみました。 3000件ちょいのデータを使って頻出集合を求めてみたところ、はじめは5分もかかってげんなりしたけど、入門記事の高速化の方法をいくつか試していくと3分40秒になり、あるところで突然1秒を切り、現在は0.1秒程度にまで速くなりました!これは楽しすぎ!プログラマにとって中毒性ありですw 頻出集合 データマイニングは紙おむつを買った人はビールも一緒に買う人が多いという神話でおなじみのあれ。頻出集合とはデータマイニングの基本で、例えば一人一人の買った物のデータからある回数以上一緒に買われたものの集合のことです。{1,2