#author("2019-03-04T04:25:18+00:00","","") [[R言語入門]] > * Rでテキストマイニング [#kdeb763d] #setlinebreak(on); #contents -- 関連 --- [[R言語入門]] --- [[Rでグラフ描画]] ** 概要 [#o76388d8] #html(<div style="padding-left:10px">) #html(</div>) ** インストール [#rf88e84e] #html(<div style="padding-left:10px">) *** MeCabのインストール [#i119ae71] #html(<div style="padding-left:10px">) MeCab 及び 辞書をインストール #myterm2(){{ # Macの場合 brew install mecab brew install mecab-ipadic }} ※ http://taku910.github.io/mecab/ #html(</div>) *** RMeCabのインストール [#he76b4dc] #html(<div style="padding-left:10px">) #myterm2(){{ # Mac、Linux の場合 > install.packages("RMeCab", repos = "http://rmecab.jp/R", type = "source") }} ※ http://rmecab.jp/wiki/index.php?RMeCab #html(</div>) #html(</div>) ** RMeCabによる形態素解析 [#uf332ed0] #html(<div style="padding-left:10px">) #myterm2(){{ > library(RMeCab) > RMeCabC("RMeCabで簡単な文章を解析する") [[1]] 名詞 "RMeCab" [[2]] 助詞 "で" [[3]] 名詞 "簡単" [[4]] 助動詞 "な" [[5]] 名詞 "文章" [[6]] 助詞 "を" [[7]] 名詞 "解析" [[8]] 動詞 "する" }} #html(</div>) ** wordcloudで形態素解析の結果を可視化してみる [#x3fabef6] #html(<div style="padding-left:10px">) *** wordcloudのインストール [#x64774fb] #html(<div style="padding-left:10px">) #myterm2(){{ install.packages("wordcloud", dependencies=T) }} #html(</div>) *** 結果を可視化してみる [#d5a300b7] #html(<div style="padding-left:10px">) #myterm2(){{ library(wordcloud) result <- unlist(RMeCabC("........................")) wordcloud(result, min.freq=2, random.order=F) }} #html(</div>) #html(</div>) ** 単語の頻度分析 [#c2d94b9b] #html(<div style="padding-left:10px">) #TODO #html(</div>) ** XXXX [#v94fd5d3] #html(<div style="padding-left:10px">) #TODO #html(</div>) ** XXXX [#d678d346] #html(<div style="padding-left:10px">) #TODO #html(</div>) ** 覚え書き [#t29ef873] #html(<div style="padding-left:10px">) - データの作成 -- 母集団の決定 -- データの収集 --- 全数調査と標本調査 --- 単純無作為抽出法 --- 層化無作為抽出法 (母集団をいくつかのグループに分けてそれぞれのグループから無作為に抽出) --- 比例分配法 ... グループの大きさに比例した数を抽出する --- 標本から得られた値から母集団における値を推定する際の精度は、標本の大きさの平方根に比例する。 - データの分析 -- 自然言語処理 --- 形態素解析 単語分割、品詞情報の付与、単語の原型の復元を行う --- 構文解析 文章中の単語の係り受け関係を明確にする処理。 -- データマイニング --- 頻度集計 --- 統計処理 --- 視覚化 - テキストマイニングのアプローチ -- 仮設発見型と仮設検証型 - 分析対象となる品詞 -- 名詞、動詞、形容詞、副詞、接続詞、代名詞、助詞、助動詞など - 分析対象となる情報 -- 読点、文字種、語種、文の長さ - その他 -- ポジティブ/ネガティブを判定する評判分析 #html(</div>)