データマイニングのビジネスモデルと、アイドルの卵。

データマイニング技術をスパムブログ検出に用いる事例が増えているのでしょうか?

今週は2度もそういったビジネスの話を聞く機会がありました。僕も大学院でデータマイニングの研究をかじったので、ちょっと親近感が沸きました。

僕がやってたのは単純な数値データのクラスタリングなので、テキストタイプのデータマイニングはあまりよく知りませんが、話を聞いた感じだと

  1. 大量のテキストデータから似ている部分を探し出し
  2. それらに類似度を付けた上でグルーピング化し
  3. 一定の閾値を超えたものをスパムとする

という感じなのかな?

Read more