#author("2019-03-04T02:57:08+00:00","","") [[R言語入門]] > * Rでテキストマイニング [#kdeb763d] #setlinebreak(on); #contents -- 関連 --- [[R言語入門]] --- [[Rでグラフ描画]] ** テキストマイニングの手順 [#q3016a78] #html(<div style="padding-left:10px">) #TODO - データセットの構築 #html(</div>) ** XXXX [#j0a9492e] #html(<div style="padding-left:10px">) #TODO #html(</div>) ** XXXX [#w174f709] #html(<div style="padding-left:10px">) #TODO #html(</div>) ** XXXX [#v94fd5d3] #html(<div style="padding-left:10px">) #TODO #html(</div>) ** XXXX [#d678d346] #html(<div style="padding-left:10px">) #TODO #html(</div>) ** 覚え書き [#t29ef873] #html(<div style="padding-left:10px">) - データの作成 -- 母集団の決定 -- データの収集 --- 全数調査と標本調査 --- 単純無作為抽出法 --- 層化無作為抽出法 (母集団をいくつかのグループに分けてそれぞれのグループから無作為に抽出) --- 比例分配法 ... グループの大きさに比例した数を抽出する --- 標本から得られた値から母集団における値を推定する際の精度は、標本の大きさの平方根に比例する。 - データの分析 -- 自然言語処理 --- 形態素解析 単語分割、品詞情報の付与、単語の原型の復元を行う --- 構文解析 文章中の単語の係り受け関係を明確にする処理。 -- データマイニング --- 頻度集計 --- 統計処理 --- 視覚化 - テキストマイニングのアプローチ -- 仮設発見型と仮設検証型 - 分析対象となる品詞 -- 名詞、動詞、形容詞、副詞、接続詞、代名詞、助詞、助動詞など - 分析対象となる情報 -- 読点、文字種、語種、文の長さ - その他 -- ポジティブ/ネガティブを判定する評判分析 #html(</div>)