word2vecとPMIが等価

Next: EMNLP 2014 参加報告

2014/10/08 (Wed.)
    NIP2014に出てくるLevyさんの論文 ``Neural Word Embedding as Implicit Matrix Factorization'' がTwitterなどで話題になっている. なぜかというと, word2vec の中の Skip-Gram をNegative Sampling (SGNS) で学習するとShifted PMI (SPMI) の行列を暗に分解しているのと同じなんだ, ということが示されたからだ. しかし, 安易に「word2vecとPMIが等価である」などというのは言い過ぎなのではないかと思う. そもそもSPMIの導出はword2vecのモデルのひとつに理想的な過程をおいた場合であるし, 結果の良さはタスク依存. SPPMIをそのまま使うのでは次元が大きすぎてDeep Learningの下に着けたりするのは難しいし, かといってSVDでやればいいってわけでもない. なので, PMIでできるのでニューラルネットでやる意味あるの?とまでは到底いかないと思われる (少なくとも今は). 論文では, SPPMIのSVDとSGNSの利点欠点のようなものにそれぞれ言及している. ちなみに, 全く同じ理由で, paragraph vector の論文のPV-DBOWも, negative samplingで学習すれば, term-document行列のSPMI版を分解していることになるのだろう.
    個人的には, 個別の流派 (?) のようになっていた行列分解 (テンソル分解) 組とニューラルネット組の接点が見えたことが嬉しいことだと思う (単に自分の理解不足だっただけなのかもしれませんが). 今まで行列分解 (テンソル分解) でやっていたものも実はニューラルネット的なアプローチでやり直したりできるのでは, といった新たな視点で今までの研究を見直すことができそう. その際には, もちろんPMIなどの従来手法とニューラルネットの手法を比較する必要は生じるに違いない. しかしいずれにしても, どうせタスク依存になりそうな気がするので, まだまだ先は長そうである.