ニコニコ動画のタグの類似度の二次元可視化

Next: マルチリンガルなParagraph Vector

2014/02/14 (Sat.)
    研究室の後輩の研究

マルチメディアデータに対する周辺情報を用いた Latent Dirichlet Allocation によるタグ付け支援
津田覚之, 三輪誠, 鶴岡慶雅, 近山隆
言語処理学会 第20回年次大会 (NLP 2014)
[論文]

の実験データをもらって, 1年半ほど前に作ったニコニコ動画のタグの類似度を二次元で可視化したものが残っていた:

詳しくは上記の論文に書いてあるが, これは流行のword2vecなどを使ったわけではなく, タグがもつトピック分布のようなものをタグのベクトルとみなしているだけである. ただし, word2vecのSkip-gramモデルを使えばタグの共起でタグのベクトルは学習できる. 久しぶりにこういうのを見てみると, やはりword2vecなどで単語レベルで扱うよりも, ニコニコ動画のタグのようにある程度まとまった表現で扱う方が見ていておもしろい. あと, やはり自分は日本人なので日本語を見ているほうが楽しい!
    可視化したものを見てみると, わかりやすいものはわかりやすくかたまっていることがわかる. 論文には載せにくいようなものが多いが, 遊びで可視化しているだけなので問題ない. 自分もD進して3年間もまた使えるのだから, 何か日本語でやりたい...