目次

TODO:

微分

常備分

偏微分

線形回帰 ( Linear regression )

線形代数

TODO:

最小2乗法 (単回帰)

予測値と実際の値の差異が最小になるようにして線形モデルを導き出す方法。

線形モデル式を Y = 傾き * X + Y切片 とした場合、傾き(係数) を w1、Y切片(定数項) を w0 で表現すると、

y = w1 x + w0  w 1 = 共分散(x,y) 分散(x) 2  w 0 = y - w 1 x  となる。(単回帰)
共分散(x,y) = 1n i=1 n ( xi - x- ) ( yi - y- )  分散(x) = 1n i=1 n ( xi - x- ) 2 なので、以下のコードで 回帰直線を求める事が出来る。
import numpy as np
import matplotlib
import pandas as pd

data = pd.read_csv('./data/sample.csv')
x = data['X']
y = data['Y']

n = len(x)                        # データの個数
mean_x = np.mean(x)  # xの平均値
mean_y = np.mean(y)  # yの平均値

#xとyの共分散
covariance = sum([(1 / n) * (x[i] - mean_x) * (y[i] - mean_y) for i in range(n)])

#xの分散
variance = sum([(1 / n) * (x[i] - mean_x) ** 2 for i in range(n)])

# w1、w0 を求める
w1 = covariance / variance
w0 = mean_y - (w1 * mean_x)

# np.polyfit を使えば1行で書ける
#w1, w0 = np.polyfit(x, y, 1)

# 回帰直線を求める
y_pred = w1*x + w0

# 描画
plt.scatter(x, y, color="red")
plt.plot(x, y_pred)
plt.grid(True)
plt.show()

勾配降下法(最急降下法)

値を何度も最適化しながら、誤差が最小となる値を求める方法。
※関数の最小値を探索する連続最適化問題の勾配法のアルゴリズムの一つ。( wikipedia より)

二乗平均平方根誤差 ( RMSE )

回帰モデルの誤差を評価する指標の一つ。

RMSE = 1n i=1 n ( yi - yi^ ) 2

回帰直線を y_pred とした場合、以下で求める事ができる。

rmse = np.sqrt(sum([(y[i] - y_pred[i]) ** 2 for i in range(n)]) / n)

最尤推定

確率と統計

確率変数・確率分布

結合確率・条件付き確率

期待値

平均・分散・共分散

相関係数

頻度分析

観測頻度と相対頻度

標準化頻度

※観測頻度 - 平均値 / 標準偏差

TF-IDF

各テキストの特徴的な単語を抽出する為の技法
TF(単語の観測度) * IDF(その単語が出現するテキストの数でテキストの総数を割った値の対数)

数理モデル

ランダムフォレスト

決定木による複数の弱学習器を統合させて汎化能力を向上させる、アンサンブル学習アルゴリズムである。 おもに分類(判別)・回帰(予測)の用途で使用される

サポートベクターマシン

サポートベクターマシン(英: support vector machine, SVM)は、教師あり学習を用いるパターン認識モデルの一つである。分類や回帰へ適用できる。

ナイーブベイズ分類器

TODO:

アダブースト

ランダムよりも少し精度がいいような弱い識別機を組みわせて、強い識別機を作成しようとする機械学習モデル

k近傍法

k近傍法(ケイきんぼうほう、英: k-nearest neighbor algorithm, k-NN)は、特徴空間における最も近い訓練例に基づいた分類の手法であり、パターン認識でよく使われる。
最近傍探索問題の一つ。k近傍法は、インスタンスに基づく学習の一種であり、怠惰学習 (lazy learning) の一種。
その関数は局所的な近似に過ぎず、全ての計算は分類時まで後回しにされる。また、回帰分析にも使われる。
k近傍法は、ほぼあらゆる機械学習アルゴリズムの中で最も単純。

k平均法

TODO:

ニューラルネットワーク

脳機能に見られるいくつかの特性に類似した数理的モデル
ニューラルネットワークはシナプスの結合によりネットワークを形成した人工ニューロン(ノード)が、学習によってシナプスの結合強度を変化させ、問題解決能力を持つようなモデル全般を指す

マルコフ連鎖

TODO:

その他/用語など

偏差

値と平均値の差。

Σ(シグマ)

マスク配列

行列とベクトル

正則化

※過学習の回避

ドロップアウト法

※過学習の回避

順伝播

損失関数

誤差逆伝播法

指数関数と対数関数

シグモイド関数

ReLU関数


トップ   一覧 単語検索 最終更新   ヘルプ   最終更新のRSS