ツイッターの発言解析(2)

人の分類をするにも、身長や肌の色や体重といったようにいろいろな基準があるように、
確かにツイッターのユーザの分類はしてますが、いったいどういう基準で分類してるのですか?
と疑問を持たれるかもしれませんが、その答えは以下です。


発言時において、グラフ中の上に寄っている単語、例えば「の」「で」「を」、が多く、
逆に、グラフ中の下に寄っている単語、例えば単語「お昼」「ご飯」「夕飯」「食べる」、が少ないかどうか、
でユーザを分類しています。
「の」「で」「を」が多く、逆に「お昼」「ご飯」「夕飯」「食べる」が少ないと、先の8月3日のグラフで上の方に、
逆だと、下のほうに分類されます。
なお、「の」「で」「を」だけでなく「お昼」「ご飯」「夕飯」「食べる」の発言も多い人は、真ん中らへんに分類になるでしょう。


任意の単語の集合で、分類できますか?
今はできません。
解析手法に、PCAを使っており、勝手に分類の基準を作成します。
なので「東方」「チルノ」「⑨」の基準で分類して欲しいと言われてもできません。
そのうち、できるようにしたいと考えておりますが・・・。