#author("2019-03-04T04:25:18+00:00","","")
#author("2019-03-04T21:53:25+00:00","","")
[[R言語入門]] >
* Rでテキストマイニング [#kdeb763d]
#setlinebreak(on);

#contents
-- 関連
--- [[R言語入門]]
--- [[Rでグラフ描画]]
-- 参考
--- http://taku910.github.io/mecab/
--- http://rmecab.jp/wiki/index.php?RMeCab
--- http://rmecab.jp/wiki/index.php?RMeCabFunctions

** 概要 [#o76388d8]
#html(<div style="padding-left:10px">)
#html(</div>)

** インストール [#rf88e84e]
#html(<div style="padding-left:10px">)

*** MeCabのインストール [#i119ae71]
#html(<div style="padding-left:10px">)
MeCab 及び 辞書をインストール
#myterm2(){{
# Macの場合
brew install mecab
brew install mecab-ipadic
}}
※ http://taku910.github.io/mecab/
#html(</div>)

*** RMeCabのインストール [#he76b4dc]
#html(<div style="padding-left:10px">)
#myterm2(){{
# Mac、Linux の場合
> install.packages("RMeCab", repos = "http://rmecab.jp/R", type = "source")
}}
※ http://rmecab.jp/wiki/index.php?RMeCab

#html(</div>)

#html(</div>)

** RMeCabによる形態素解析 [#uf332ed0]
#html(<div style="padding-left:10px">)

#myterm2(){{
> library(RMeCab)
> RMeCabC("RMeCabで簡単な文章を解析する")
[[1]]
    名詞 
"RMeCab" 

[[2]]
助詞 
"で" 

[[3]]
  名詞 
"簡単" 

[[4]]
助動詞 
  "な" 

[[5]]
  名詞 
"文章" 

[[6]]
助詞 
"を" 

[[7]]
  名詞 
"解析" 

[[8]]
  動詞 
"する"
}}

#html(</div>)

** wordcloudで形態素解析の結果を可視化してみる [#x3fabef6]
#html(<div style="padding-left:10px">)

*** wordcloudのインストール [#x64774fb]
#html(<div style="padding-left:10px">)
#myterm2(){{
install.packages("wordcloud", dependencies=T)
}}
#html(</div>)

*** 結果を可視化してみる [#d5a300b7]
#html(<div style="padding-left:10px">)
#myterm2(){{
library(wordcloud)
result <- unlist(RMeCabC("........................"))
wordcloud(result, min.freq=2, random.order=F)
}}
#html(</div>)

#html(</div>)

** 単語の頻度分析 [#c2d94b9b]
#html(<div style="padding-left:10px">)
#TODO
#html(</div>)

** XXXX [#v94fd5d3]
#html(<div style="padding-left:10px">)
#TODO
#html(</div>)

** XXXX [#d678d346]
#html(<div style="padding-left:10px">)
#TODO
#html(</div>)

** 覚え書き [#t29ef873]
#html(<div style="padding-left:10px">)
- データの作成
-- 母集団の決定
-- データの収集
--- 全数調査と標本調査
--- 単純無作為抽出法
--- 層化無作為抽出法 (母集団をいくつかのグループに分けてそれぞれのグループから無作為に抽出)
--- 比例分配法 ... グループの大きさに比例した数を抽出する
--- 標本から得られた値から母集団における値を推定する際の精度は、標本の大きさの平方根に比例する。
- データの分析
--  自然言語処理
--- 形態素解析
単語分割、品詞情報の付与、単語の原型の復元を行う
--- 構文解析
文章中の単語の係り受け関係を明確にする処理。
-- データマイニング
--- 頻度集計
--- 統計処理
--- 視覚化
- テキストマイニングのアプローチ
-- 仮設発見型と仮設検証型
- 分析対象となる品詞
-- 名詞、動詞、形容詞、副詞、接続詞、代名詞、助詞、助動詞など
- 分析対象となる情報
-- 読点、文字種、語種、文の長さ
- その他
-- ポジティブ/ネガティブを判定する評判分析 
#html(</div>)
// ** 覚え書き [#t29ef873]
// #html(<div style="padding-left:10px">)
// - データの作成
// -- 母集団の決定
// -- データの収集
// --- 全数調査と標本調査
// --- 単純無作為抽出法
// --- 層化無作為抽出法 (母集団をいくつかのグループに分けてそれぞれのグループから無作為に抽出) 
// --- 比例分配法 ... グループの大きさに比例した数を抽出する
// --- 標本から得られた値から母集団における値を推定する際の精度は、標本の大きさの平方根に比例する。
// - データの分析
// --  自然言語処理
// --- 形態素解析
// 単語分割、品詞情報の付与、単語の原型の復元を行う
// --- 構文解析
// 文章中の単語の係り受け関係を明確にする処理。
// -- データマイニング
// --- 頻度集計
// --- 統計処理
// --- 視覚化
// - テキストマイニングのアプローチ
// -- 仮設発見型と仮設検証型
// - 分析対象となる品詞
// -- 名詞、動詞、形容詞、副詞、接続詞、代名詞、助詞、助動詞など
// - 分析対象となる情報
// -- 読点、文字種、語種、文の長さ
// - その他
// -- ポジティブ/ネガティブを判定する評判分析  
// #html(</div>)


トップ   一覧 単語検索 最終更新   ヘルプ   最終更新のRSS