KogoLab Research & Review

遊ぶように生きる。Vivi kiel Ludi.

【研究】日本教育心理学会研究委員会企画セミナー「テキストマイニング入門」を視聴

2023年2月19日(日)

2/18(土)13:00~17:00に日本教育心理学会研究委員会企画セミナー「テキストマイニング入門」をZoomで視聴しました。3人の講演で、石田先生(徳島大)がテキストマイニングの歴史、中西先生(桃山学院大)がKHCoder、倉本先生(聖徳大学)がワードマイナーの話題を提供しました。

私が面白いと思ったことをメモしておきます。

・感情分析という手法
ポジティブ/ネガティブについて数値をつけた辞書を使って、文章の数値化を行う。精度は辞書の出来に依存する。

・著者判別
テキストマイニングの初期の研究(20世紀中頃)では、文章の著者を判別するという目的で行われた。そのデータとして、文の長さなど。日本では読点「、」の打ち方に特徴が現れるので、それで大体わかりそう。

・単語分散表現
単語をN次元のベクトルで表現する。KingからManを引いて、Womanを足すとQueenが出力される。頻度ではなく意味のベクトル化。

・同義語の処理
KHCoderでは、前処理として、強制抽出語、無視する単語(「思う」、「考える」などの一般的な動詞)を設定することができる。しかし、同義語(例えば「先生」「教員」「教師」など)をまとめたいときは、文錦プラグインが必要。しかし、21万円と高額。なので、文章データの段階で、手作業で検索置換しておくのがいいか。

・PFスタディのような投影法でテキストマイニングを使うと面白いかも
これは蔵本先生の提案。やったわけではないけど、面白そうと。確かに。やってみたいですね。投影法の発話の解釈って恣意的なところもあるので、これを定量的に分析できるといいかも。