ネット小説の印象を自動推定(自動分類)する。

すでに1月末に提出済みですが,ようやく承認も得られたのでさっそくblogにはupしてしまいます。いずれ論文投稿したら削除するかもしれませんが…。

http://www.slis.keio.ac.jp/~koki.h/search-by-emotion.pdf :『機械学習手法を応用したネット小説の「印象」の自動推定』(本体部分のみ)

ただ,指摘されたのですが,どうも類似した先行研究を丸ごと書いていなかったようです。たしかにプレゼン時には用いた研究をいれていない…(^_^;)それ以外も…どうも先行研究調べるのは下手です。専攻的にも,院生としても,次期社会人としてもまずい訳ですが…。

論文概要:
本研究では,自動的にネット小説の「印象」を推定可能か試みた。ネット小説とは,「インターネット上に公開されている,主にアマチュアの作家により執筆された小説」と定義する。「印象」とは,「著者が意図した,読者が感じるであろう作品に対する読後の感覚,雰囲気,気分」と定義する。本研究では特に,1)ネット小説の「印象」推定において,テキスト自動分類手法が適用可能か,2)分類にはどのような素性が有効であるか,3)分類にはどのようなアルゴリズムが適しているか,について明らかにしたい。
「印象」の推定には,機械学習手法を用いた。素性として,bi-gram,各品詞,感情表現辞書の語句を用い,最良の組み合わせを探った。
実験対象には「小説を読もう!」,及び「HONなび」の両ウェブサイトに登録されているネット小説を用いた。データセットは543作品から構成される。
実験から,最大で精度51.5%,再現率28.3%,F1値30.0%,正解率43.1%という結果が得られた。さらに,1作品に対して複数のカテゴリを出力した場合,49.2%の正解率で上位5カテゴリ内に正解が含まれた。
以上から,1)機械学習に基づくテキスト自動分類手法は,ネット小説の「印象」を自動的に推定する場合に一定の有効性を見いだせた。また,2)素性として,全形態素を用い,3)学習アルゴリズムにナイーブベイズ用いることで分類性能を最も高めることができた。
しかし,一般的なテキスト自動分類研究と比較すると性能が低い。本研究では取り組んでいない構文解析などの手法を取り入れるなど、性能向上に向けた改善は今後の課題である。