Sings to me... on YouTubeより

YouTubeって知ってる!?
まだ知らない人は、まぁミスチルでも聞いてみてよ。
ちょっと手を休めてさ。

ついでに小田和正の歌うTomorrow Never Knowsも聞いとく??

Mr.ChildrenのPVならSings to me... on YouTube

遺伝的アルゴリズムを用いたクラスタリングはどうあるべきか?

今年一年は遺伝的アルゴリズム(Genetic Algorithm: GA)を用いたクラスタリングの研究を行う。
最近は電車の中で英語の論文を読む生活にも慣れてきた。

2000年ごろの論文を読んでいるとあまりK-means法と変わらないアルゴリズムが用いられている。
こういった手法はK個のクラスタの中心を設計変数として、クラスタ評価の際にどのデータアイテムがどのクラスタに属するかを決定する。
当然距離関数としてユークリッド距離を用いた場合、すべてのクラスタは任意の2つの中心の垂直2等分線で分割される。
このようなモデル化は大量のデータを扱う為には必要であるが、複雑なデータは扱えない。

一方で2004年ごろのアルゴリズムを見ると、データアイテム自体が設計変数となっている。
当然そのままでは1,000〜10,000個くらいのデータアイテム数レベルでGAの処理能力を超えてしまうだろう。

2000年から2004年までで、遺伝的アルゴリズムによるクラスタリングの研究は下記のような点で進化してきた。
 1. クラスタ境界が非線形な問題も扱えるようになった
 2. 大小様々な部分解の存在確率を挙げるモデル化が行われるようになった
 3. クラスタ数Kを決定しなくても良い方法が考案されてきた
次は
 4. 大容量のデータを実時間内に扱えるようになる
 5. リアルタイムに増加するデータに合わせて進化する
とかができるといいなぁ〜。

ってか2000CPU使えるようになれば30歳で年収2000万なら、1億データ扱えるようになれば...

Read more