機械学習の為の数学の基礎のバックアップ(No.8)

import numpy as np
import matplotlib
import pandas as pd

data = pd.read_csv('./data/sample.csv')
x = data['X']
y = data['Y']

n = len(x)                        # データの個数
mean_x = np.mean(x)  # xの平均値
mean_y = np.mean(y)  # yの平均値

#xとyの共分散
covariance = sum([(1 / n) * (x[i] - mean_x) * (y[i] - mean_y) for i in range(n)])

#xの分散
variance = sum([(1 / n) * (x[i] - mean_x) ** 2 for i in range(n)])

# w1、w0 を求める
w1 = covariance / variance
w0 = mean_y - (w1 * mean_x)

# np.polyfit を使えば1行で書ける
#w1, w0 = np.polyfit(x, y, 1)

# 回帰直線を求める
y_pred = w1*x + w0

# 描画
plt.scatter(x, y, color="red")
plt.plot(x, y_pred)
plt.grid(True)
plt.show()

↑

勾配降下法(最急降下法) †

値を何度も最適化しながら、誤差が最小となる値を求める方法。
※関数の最小値を探索する連続最適化問題の勾配法のアルゴリズムの一つ。( wikipedia より)

↑

二乗平均平方根誤差 ( RMSE ) †

回帰モデルの誤差を評価する指標の一つ。

RMSE = \sqrt{\frac{1}{n} \sum_{i = 1}^{n} {(y_{i} - \hat{y_{i}})}^{2}}

回帰直線を y_pred とした場合、以下で求める事ができる。

rmse = np.sqrt(sum([(y[i] - y_pred[i]) ** 2 for i in range(n)]) / n)

↑

最尤推定 †

↑

ランダムフォレスト †

決定木による複数の弱学習器を統合させて汎化能力を向上させる、アンサンブル学習アルゴリズムである。おもに分類（判別）・回帰（予測）の用途で使用される

↑

サポートベクターマシン †

サポートベクターマシン（英: support vector machine, SVM）は、教師あり学習を用いるパターン認識モデルの一つである。分類や回帰へ適用できる。

↑

ナイーブベイズ分類器 †

TODO:

↑

アダブースト †

ランダムよりも少し精度がいいような弱い識別機を組みわせて、強い識別機を作成しようとする機械学習モデル

↑

k近傍法 †

k近傍法（ケイきんぼうほう、英: k-nearest neighbor algorithm, k-NN）は、特徴空間における最も近い訓練例に基づいた分類の手法であり、パターン認識でよく使われる。
最近傍探索問題の一つ。k近傍法は、インスタンスに基づく学習の一種であり、怠惰学習 (lazy learning) の一種。
その関数は局所的な近似に過ぎず、全ての計算は分類時まで後回しにされる。また、回帰分析にも使われる。
k近傍法は、ほぼあらゆる機械学習アルゴリズムの中で最も単純。

↑

k平均法 †

TODO:

↑

ニューラルネットワーク †

脳機能に見られるいくつかの特性に類似した数理的モデル
ニューラルネットワークはシナプスの結合によりネットワークを形成した人工ニューロン（ノード）が、学習によってシナプスの結合強度を変化させ、問題解決能力を持つようなモデル全般を指す

↑

マルコフ連鎖 †

TODO:

機械学習の為の数学の基礎 のバックアップ(No.8) - 闘うITエンジニアの覚え書き

目次 †

微分 †

常備分 †

偏微分 †

線形回帰 ( Linear regression ) †

線形代数 †

最小２乗法 (単回帰) †

勾配降下法(最急降下法) †

二乗平均平方根誤差 ( RMSE ) †

最尤推定 †

確率と統計 †

確率変数・確率分布 †

結合確率・条件付き確率 †

期待値 †

平均・分散・共分散 †

相関係数 †

頻度分析 †

観測頻度と相対頻度 †

標準化頻度 †

TF-IDF †

数理モデル †

ランダムフォレスト †

サポートベクターマシン †

ナイーブベイズ分類器 †

アダブースト †

k近傍法 †

k平均法 †

ニューラルネットワーク †

マルコフ連鎖 †

その他/用語など †

偏差 †

Σ(シグマ) †

マスク配列 †

行列とベクトル †

正則化 †

ドロップアウト法 †

順伝播 †

損失関数 †

誤差逆伝播法 †

指数関数と対数関数 †

シグモイド関数 †

ReLU関数 †

機械学習の為の数学の基礎のバックアップ(No.8) - 闘うITエンジニアの覚え書き