機械学習の為の数学の基礎 - 闘うITエンジニアの覚え書き

import numpy as np
import matplotlib
import pandas as pd

data = pd.read_csv('./data/sample.csv')
x = data['X']
y = data['Y']

n = len(x)                        # データの個数
mean_x = np.mean(x)  # xの平均値
mean_y = np.mean(y)  # yの平均値

#xとyの共分散
covariance = (1 / n) * sum([(x[i] - mean_x) * (y[i] - mean_y) for i in range(n)])

#xの分散
variance = (1 / n) * sum([(x[i] - mean_x) ** 2 for i in range(n)])

# θ1、θ0 を求める
t1 = covariance / variance
t0 = mean_y - (t1 * mean_x)

# np.polyfit を使えば1行で書ける
#t1, t0 = np.polyfit(x, y, 1)  # 第3引数は次数

# 回帰直線を求める
y_pred = t1*x + t0

# 描画
plt.scatter(x, y, color="red")
plt.plot(x, y_pred)
plt.grid(True)
plt.show()

↑

勾配降下法(最急降下法) †

学習回数と学習率を指定して、何度も計算(最適化)を行って誤差が最小となる値を求める方法。
※関数の最小値を探索する連続最適化問題の勾配法のアルゴリズムの一つ。( wikipedia より)

θ_{0} := θ_{0} - α \frac{\partial}{{\partialθ}_{1}} J (θ_{0}, θ_{1})

θ_{1} := θ_{1} - α \frac{\partial}{{\partialθ}_{1}} J (θ_{0}, θ_{1})

偏微分を計算すると

θ_{0} := θ_{0} - α \frac{1}{m} \sum_{i = 1}^{m} (\hat{y} - y_{i})

θ_{1} := θ_{1} - α \frac{1}{m} \sum_{i = 1}^{m} (\hat{y} - y_{i}) ・ x_{i}

上記の数式を python で実装してみる。
※以下では計算(最適化)毎のコスト算出用に目的関数も定義している。
※ここでは、θ0,θ1 の初期値は 0 とした。

def cost_func(x, y, t0, t1):
    """目的関数."""
    m = x.size
    # return (np.sqrt(sum([(y[j] - (t1 * x[j] + t0)) ** 2 for j in range(m)]) / m))  # RMSEの場合
    return 1 / (2*m) * sum([((t1 * x[i] + t0) -  y[i]) ** 2 for i in range(m)])


def gradient_descent(x, y, alpha, iter_num):
    """最急降下法."""
    m = len(x)
    t0 = 0.0
    t1 = 0.0
    costs = np.zeros(iter_num)

    for i in range(iter_num):

        # θ0, θ1 の計算 及び 更新
        h = t0 + t1 * x
        t0 = t0 - alpha * np.sum(h - y) / m
        t1 = t1 - alpha * np.sum((h - y) * x) / m

        costs[i] = cost_func(x, y, t0, t1)
        #costs[i] = np.sqrt(sum([(y[j] - (t1 * x[j] + t0)) ** 2 for j in range(m)]) / m)

    return (t0, t1, costs)

上記で作成した関数を用いて回帰直線及び最適化毎のコスト(誤差)をプロットしてみる。

# パラメータ設定
alpha = 0.01         # 学習率
iter_num = 100   # 学習回数

# サンプルデータ
x1 = np.array(range(1, 10), dtype=np.float64)
y1 = np.array([x1[i] + random.randrange(0, 3) for i in range(len(x1))], dtype=np.float64)

# 最急降下法
t0, t1, costs = gradient_descent(x1, y1, alpha, iter_num)

fig = plt.figure(figsize=(10, 5))

# データのプロット
ax1 = fig.add_subplot(1, 2, 1)
ax1.set_xlabel('data x')
ax1.set_ylabel('data y')
ax1.scatter(x1, y1, c='r')           # 散布図(実際の値)
ax1.grid(True)
ax1.plot(x1, x1 * t1 + t0, '-')     # 回帰直線

# コスト遷移状況をプロット
ax2 = fig.add_subplot(1, 2, 2)
ax2.set_xlabel('iterations')
ax2.set_ylabel('cost')
ax2.plot(range(costs.size), costs, "-b", linewidth=2 )
ax2.grid(True)

plt.show()

# t1（係数）とt0（定数項）を確認
print(f"t0: {t0}, t1: {t1}")
print("cost(最終): {}".format(costs[len(costs)-1]))

結果

↑

重回帰分析 †

重回帰モデル式(特徴量 x が２つの時)

\hat{y} = w_{1} x_{1} + w_{2} x_{2} + w_{0} x_{0}

　※行列計算用に

x_{0} = 1

とする

特徴量の行列をX、パラメータの行列をWとした場合、

\hat{y} = X * W

W := W - α \frac{1}{m} X^{T} (XW - y)

コスト関数は

j (W) = \frac{1}{2m} \sum_{i = 1}^{m} {(\hat{y} - y_{i})}^{2} = \frac{1}{2m} {(XW - y)}^{T} (XW - y)

※ 関連: numpyを使用した重回帰分析

↑

正規化 †

分析を行う際、特徴量の範囲が異なる時は特徴量のスケールを調整する(正規化)事で、収束までのコストを抑える事ができる。

↑

z-socre Normalization (標準化) †

平均が0、標準偏差が1となるように調整する。

x_{1} = \frac{x_{1} - x_{mean}}{std}

※ std: 標準偏差

↑

min-max normalization †

最大値が1最小値が0となるように調整する。

x_{1} = \frac{x_{1} - x_{mean}}{x_{\max} - x_{\min}}

↑

目的関数 / 評価指標など †

予測値を評価する為の指標は、目的関数により定義される。
※予測と実績の誤差(コスト)を評価する為の関数。

↑

平均二乗誤差(MSE) / 二乗平均平方根誤差 ( RMSE ) †

回帰モデルの誤差を評価する指標の一つ。
https://tutorials.chainer.org/ja/03_Basic_Math_for_Machine_Learning.html#%E7%9B%AE%E7%9A%84%E9%96%A2%E6%95%B0

目標値 = y_{i}

予測値 = \hat{y_{i}}

とした場合。

平均二乗誤差(MSE)

L = \frac{1}{n} \sum_{i = 1}^{n} {(y_{i} - \hat{y_{i}})}^{2}

二乗平均平方根誤差(RMSE)

RMSE = \sqrt{\frac{1}{n} \sum_{i = 1}^{n} {(y_{i} - \hat{y_{i}})}^{2}}

回帰直線(予測値)を y_pred とした場合、以下で求める事ができる。

# MSE
mse = np.sum([(y[i] - y_pred[i]) ** 2 for i in range(len(y))]) / len(y)  # 遅い
mse = np.power(y - y_pred, 2).sum() / len(y)  # 速い

# RMSE
rmse = np.sqrt(mse)

↑

交差エントロピー †

分類モデルの誤差を評価する指標の一つ。

↑

コスト関数 †

単回帰

j (θ_{0}, θ_{1}) = \frac{1}{2m} \sum_{i = 1}^{m} {(\hat{y} - y_{i})}^{2}

重回帰

j (W) = \frac{1}{2m} \sum_{i = 1}^{m} {(\hat{y} - y_{i})}^{2} = \frac{1}{2m} {(XW - y)}^{T} (XW - y)

　※ 特徴量の行列をX、パラメータの行列をWとした場合

↑

頻度分析 †

↑

観測頻度と相対頻度 †

↑

標準化頻度 †

※観測頻度 - 平均値 / 標準偏差

↑

TF-IDF †

各テキストの特徴的な単語を抽出する為の技法
TF(単語の観測度) * IDF(その単語が出現するテキストの数でテキストの総数を割った値の対数)

↑

数理モデル †

↑

ロジスティック回帰 †

TODO:

↑

決定木 †

ある事項に対する観察結果から、その事項の目標値に関する結論を導く手法。

↑

ランダムフォレスト †

複数の決定木モデルを構築して、それらを一つにまとめてより正確で質の高い予測を行う手法。おもに分類（判別）・回帰（予測）の用途で使用される。

↑

サポートベクターマシン †

サポートベクターマシン(SVM)は、教師あり学習を用いるパターン認識モデルの一つである。分類や回帰へ適用できる。

分類を行うＳＶＭ:「サポートベクタークラシファイヤー(Support Vector Classifier)」
回帰を行うＳＶＭ: 「サポートベクターレグレッション(Support Vector Regression)」

↑

SVMのハイパーパラメータ †

パラメータ	説明
C (Cパラメータ) 分類ミスをどのくらい許容するか設定する値	Cパラメータが低い状態を「ソフトマージン」、高い状態を「ハードマージン」と呼ぶ
decision_function_shape(多項分類)	OVR: 1つの分類クラスと「他の全ての分類クラス」でハイパープレインを導き出す。 OVO: 各クラスと「別の1クラス毎」にハイパープレインを導き出す。
kernel(カーネル)	データに新たな次元を追加してハイパープレインを導き出す仕組み。よく使用されるカーネル関数に線形、多項式、放射基底関数、シグモイド関数などがある。
gamma(ガンマ)	モデルが訓練データへどれくらいフィットさせるかを調整する値。ガンマの値が小さいと分類はシンプルなものになり、高いと複雑な分類を行われる。

↑

ナイーブベイズ (単純ベイズ分類器) †

TODO:

確率的なアプローチを利用して分類を行う機械学習の手法。

「ベイズの定理(Bayes' theorem)」と呼ばれる、条件付き確率の定理が基となっている。

↑

アダブースト †

ランダムよりも少し精度がいいような弱い識別機を組みわせて、強い識別機を作成しようとする機械学習モデル

↑

k近傍法 †

k近傍法（ケイきんぼうほう、英: k-nearest neighbor algorithm, k-NN）は、特徴空間における最も近い訓練例に基づいた分類の手法であり、パターン認識でよく使われる。
最近傍探索問題の一つ。k近傍法は、インスタンスに基づく学習の一種であり、怠惰学習 (lazy learning) の一種。
その関数は局所的な近似に過ぎず、全ての計算は分類時まで後回しにされる。また、回帰分析にも使われる。
k近傍法は、ほぼあらゆる機械学習アルゴリズムの中で最も単純。

↑