- 追加された行はこの色です。
- 削除された行はこの色です。
#author("2019-03-04T04:25:18+00:00","","")
#author("2019-03-04T21:53:25+00:00","","")
[[R言語入門]] >
* Rでテキストマイニング [#kdeb763d]
#setlinebreak(on);
#contents
-- 関連
--- [[R言語入門]]
--- [[Rでグラフ描画]]
-- 参考
--- http://taku910.github.io/mecab/
--- http://rmecab.jp/wiki/index.php?RMeCab
--- http://rmecab.jp/wiki/index.php?RMeCabFunctions
** 概要 [#o76388d8]
#html(<div style="padding-left:10px">)
#html(</div>)
** インストール [#rf88e84e]
#html(<div style="padding-left:10px">)
*** MeCabのインストール [#i119ae71]
#html(<div style="padding-left:10px">)
MeCab 及び 辞書をインストール
#myterm2(){{
# Macの場合
brew install mecab
brew install mecab-ipadic
}}
※ http://taku910.github.io/mecab/
#html(</div>)
*** RMeCabのインストール [#he76b4dc]
#html(<div style="padding-left:10px">)
#myterm2(){{
# Mac、Linux の場合
> install.packages("RMeCab", repos = "http://rmecab.jp/R", type = "source")
}}
※ http://rmecab.jp/wiki/index.php?RMeCab
#html(</div>)
#html(</div>)
** RMeCabによる形態素解析 [#uf332ed0]
#html(<div style="padding-left:10px">)
#myterm2(){{
> library(RMeCab)
> RMeCabC("RMeCabで簡単な文章を解析する")
[[1]]
名詞
"RMeCab"
[[2]]
助詞
"で"
[[3]]
名詞
"簡単"
[[4]]
助動詞
"な"
[[5]]
名詞
"文章"
[[6]]
助詞
"を"
[[7]]
名詞
"解析"
[[8]]
動詞
"する"
}}
#html(</div>)
** wordcloudで形態素解析の結果を可視化してみる [#x3fabef6]
#html(<div style="padding-left:10px">)
*** wordcloudのインストール [#x64774fb]
#html(<div style="padding-left:10px">)
#myterm2(){{
install.packages("wordcloud", dependencies=T)
}}
#html(</div>)
*** 結果を可視化してみる [#d5a300b7]
#html(<div style="padding-left:10px">)
#myterm2(){{
library(wordcloud)
result <- unlist(RMeCabC("........................"))
wordcloud(result, min.freq=2, random.order=F)
}}
#html(</div>)
#html(</div>)
** 単語の頻度分析 [#c2d94b9b]
#html(<div style="padding-left:10px">)
#TODO
#html(</div>)
** XXXX [#v94fd5d3]
#html(<div style="padding-left:10px">)
#TODO
#html(</div>)
** XXXX [#d678d346]
#html(<div style="padding-left:10px">)
#TODO
#html(</div>)
** 覚え書き [#t29ef873]
#html(<div style="padding-left:10px">)
- データの作成
-- 母集団の決定
-- データの収集
--- 全数調査と標本調査
--- 単純無作為抽出法
--- 層化無作為抽出法 (母集団をいくつかのグループに分けてそれぞれのグループから無作為に抽出)
--- 比例分配法 ... グループの大きさに比例した数を抽出する
--- 標本から得られた値から母集団における値を推定する際の精度は、標本の大きさの平方根に比例する。
- データの分析
-- 自然言語処理
--- 形態素解析
単語分割、品詞情報の付与、単語の原型の復元を行う
--- 構文解析
文章中の単語の係り受け関係を明確にする処理。
-- データマイニング
--- 頻度集計
--- 統計処理
--- 視覚化
- テキストマイニングのアプローチ
-- 仮設発見型と仮設検証型
- 分析対象となる品詞
-- 名詞、動詞、形容詞、副詞、接続詞、代名詞、助詞、助動詞など
- 分析対象となる情報
-- 読点、文字種、語種、文の長さ
- その他
-- ポジティブ/ネガティブを判定する評判分析
#html(</div>)
// ** 覚え書き [#t29ef873]
// #html(<div style="padding-left:10px">)
// - データの作成
// -- 母集団の決定
// -- データの収集
// --- 全数調査と標本調査
// --- 単純無作為抽出法
// --- 層化無作為抽出法 (母集団をいくつかのグループに分けてそれぞれのグループから無作為に抽出)
// --- 比例分配法 ... グループの大きさに比例した数を抽出する
// --- 標本から得られた値から母集団における値を推定する際の精度は、標本の大きさの平方根に比例する。
// - データの分析
// -- 自然言語処理
// --- 形態素解析
// 単語分割、品詞情報の付与、単語の原型の復元を行う
// --- 構文解析
// 文章中の単語の係り受け関係を明確にする処理。
// -- データマイニング
// --- 頻度集計
// --- 統計処理
// --- 視覚化
// - テキストマイニングのアプローチ
// -- 仮設発見型と仮設検証型
// - 分析対象となる品詞
// -- 名詞、動詞、形容詞、副詞、接続詞、代名詞、助詞、助動詞など
// - 分析対象となる情報
// -- 読点、文字種、語種、文の長さ
// - その他
// -- ポジティブ/ネガティブを判定する評判分析
// #html(</div>)