2008.02.06

Research

データマイニングのビジネスモデルと、アイドルの卵。

データマイニング技術をスパムブログ検出に用いる事例が増えているのでしょうか?

今週は2度もそういったビジネスの話を聞く機会がありました。僕も大学院でデータマイニングの研究をかじったので、ちょっと親近感が沸きました。

僕がやってたのは単純な数値データのクラスタリングなので、テキストタイプのデータマイニングはあまりよく知りませんが、話を聞いた感じだと

  1. 大量のテキストデータから似ている部分を探し出し
  2. それらに類似度を付けた上でグルーピング化し
  3. 一定の閾値を超えたものをスパムとする

という感じなのかな?


前処理として特定のキーワード列を生成したりルールを指定したりということは必要無く、かつスパムブログの検出率はかなり高いようで、結構「使えそう」でした。

これから一般ユーザには見えないいろいろな場面でこういった技術が役に立つようになるのでしょうか?

ただ、ブラックボックス的にスパムブログリストを出されてもなかなか自動でアカウント削除などは難しいので、できればスパムブログを大量に生成しているIPを探り当てたりとかそういったところに落とし込んでもらえると、もっと使いやすいと思いました。

その後のブログ運営者側のコストまで想定してビジネスプランに落とし込んだら、結構ニーズは出てくるのでは?データマイニング技術を応用して徹底的にコストダウンしたサポートヘルプデスクとかまで行くと...って、そういうのも既にありそうですけどね(汗




ところで、最近はスパムブログを生成する側もデータマイニング技術を使う事例が増えて来ている気がしますが、それを抑える方もデータマインング使ってるってのは、なんとも不思議な光景ですね。

なんだか、with entertainmentではない...




ヤプログが始まった当初の段階で、しょこたんがブレークする前兆を捉えられるような、そんなデータマイニング技術を発展させていけたりすると楽しそうだなぁ〜


そうそう、話はデータマイニングからアイドルの卵(?)に移りますが、最近「アスブロ:明日を企てる学生の就活ブログコミュニティ」にも、

ブレークしそうな子

が一人いるのですよ。誰だと思いますか?







答えは「アスブロ」で探してください(笑

ヒントは、

♡ぴこぴこ◯○ぴ♡