Rでテキストマイニングのバックアップソース(No.3)

バックアップ一覧
差分を表示
現在との差分を表示
バックアップを表示
Rでテキストマイニングへ行く。
- 1 (2019-03-04 (月) 18:31:31)
- 2 (2019-03-04 (月) 20:57:08)
- 3 (2019-03-04 (月) 22:25:18)
- 4 (2019-03-05 (火) 15:53:25)
- 5 (2019-03-08 (金) 21:03:02)
- 6 (2019-03-11 (月) 20:54:50)
- 7 (2019-03-25 (月) 17:26:56)
- 8 (2019-03-25 (月) 17:56:15)

#author("2019-03-04T04:25:18+00:00","","")
[[R言語入門]] &gt;
* Rでテキストマイニング [#kdeb763d]
#setlinebreak(on);

#contents
-- 関連
--- [[R言語入門]]
--- [[Rでグラフ描画]]

** 概要 [#o76388d8]
#html(<div style="padding-left:10px">)
#html(</div>)

** インストール [#rf88e84e]
#html(<div style="padding-left:10px">)

*** MeCabのインストール [#i119ae71]
#html(<div style="padding-left:10px">)
MeCab 及び 辞書をインストール
#myterm2(){{
# Macの場合
brew install mecab
brew install mecab-ipadic
}}
※ http://taku910.github.io/mecab/
#html(</div>)

*** RMeCabのインストール [#he76b4dc]
#html(<div style="padding-left:10px">)
#myterm2(){{
# Mac、Linux の場合
> install.packages("RMeCab", repos = "http://rmecab.jp/R", type = "source")
}}
※ http://rmecab.jp/wiki/index.php?RMeCab

#html(</div>)

#html(</div>)

** RMeCabによる形態素解析 [#uf332ed0]
#html(<div style="padding-left:10px">)

#myterm2(){{
> library(RMeCab)
> RMeCabC("RMeCabで簡単な文章を解析する")
[[1]]
    名詞 
"RMeCab" 

[[2]]
助詞 
"で" 

[[3]]
  名詞 
"簡単" 

[[4]]
助動詞 
  "な" 

[[5]]
  名詞 
"文章" 

[[6]]
助詞 
"を" 

[[7]]
  名詞 
"解析" 

[[8]]
  動詞 
"する"
}}

#html(</div>)

** wordcloudで形態素解析の結果を可視化してみる [#x3fabef6]
#html(<div style="padding-left:10px">)

*** wordcloudのインストール [#x64774fb]
#html(<div style="padding-left:10px">)
#myterm2(){{
install.packages("wordcloud", dependencies=T)
}}
#html(</div>)

*** 結果を可視化してみる [#d5a300b7]
#html(<div style="padding-left:10px">)
#myterm2(){{
library(wordcloud)
result <- unlist(RMeCabC("........................"))
wordcloud(result, min.freq=2, random.order=F)
}}
#html(</div>)

#html(</div>)

** 単語の頻度分析 [#c2d94b9b]
#html(<div style="padding-left:10px">)
#TODO
#html(</div>)

** XXXX [#v94fd5d3]
#html(<div style="padding-left:10px">)
#TODO
#html(</div>)

** XXXX [#d678d346]
#html(<div style="padding-left:10px">)
#TODO
#html(</div>)

** 覚え書き [#t29ef873]
#html(<div style="padding-left:10px">)
- データの作成
-- 母集団の決定
-- データの収集
--- 全数調査と標本調査
--- 単純無作為抽出法
--- 層化無作為抽出法 (母集団をいくつかのグループに分けてそれぞれのグループから無作為に抽出)
--- 比例分配法 ... グループの大きさに比例した数を抽出する
--- 標本から得られた値から母集団における値を推定する際の精度は、標本の大きさの平方根に比例する。
- データの分析
--  自然言語処理
--- 形態素解析
単語分割、品詞情報の付与、単語の原型の復元を行う
--- 構文解析
文章中の単語の係り受け関係を明確にする処理。
-- データマイニング
--- 頻度集計
--- 統計処理
--- 視覚化
- テキストマイニングのアプローチ
-- 仮設発見型と仮設検証型
- 分析対象となる品詞
-- 名詞、動詞、形容詞、副詞、接続詞、代名詞、助詞、助動詞など
- 分析対象となる情報
-- 読点、文字種、語種、文の長さ
- その他
-- ポジティブ/ネガティブを判定する評判分析 
#html(</div>)

Rでテキストマイニング のバックアップソース(No.3) - 闘うITエンジニアの覚え書き

Rでテキストマイニングのバックアップソース(No.3) - 闘うITエンジニアの覚え書き