予測値と実際の値の差異が最小になるようにして線形モデルを導き出す方法。
線形モデル式を Y = 傾き * X + Y切片 とした場合、傾き(係数) を w1、Y切片(定数項) を w0 で表現すると、
import numpy as np import matplotlib import pandas as pd data = pd.read_csv('./data/sample.csv') x = data['X'] y = data['Y'] n = len(x) # データの個数 mean_x = np.mean(x) # xの平均値 mean_y = np.mean(y) # yの平均値 #xとyの共分散 covariance = sum([(1 / n) * (x[i] - mean_x) * (y[i] - mean_y) for i in range(n)]) #xの分散 variance = sum([(1 / n) * (x[i] - mean_x) ** 2 for i in range(n)]) # w1、w0 を求める w1 = covariance / variance w0 = mean_y - (w1 * mean_x) # np.polyfit を使えば1行で書ける #w1, w0 = np.polyfit(x, y, 1) # 回帰直線を求める y_pred = w1*x + w0 # 描画 plt.scatter(x, y, color="red") plt.plot(x, y_pred) plt.grid(True) plt.show()
値を何度も最適化しながら、誤差が最小となる値を求める方法。
※関数の最小値を探索する連続最適化問題の勾配法のアルゴリズムの一つ。( wikipedia より)
回帰モデルの誤差を評価する指標の一つ。
回帰直線を y_pred とした場合、以下で求める事ができる。
rmse = np.sqrt(sum([(y[i] - y_pred[i]) ** 2 for i in range(n)]) / n)
※観測頻度 - 平均値 / 標準偏差
各テキストの特徴的な単語を抽出する為の技法
TF(単語の観測度) * IDF(その単語が出現するテキストの数でテキストの総数を割った値の対数)
決定木による複数の弱学習器を統合させて汎化能力を向上させる、アンサンブル学習アルゴリズムである。 おもに分類(判別)・回帰(予測)の用途で使用される
サポートベクターマシン(英: support vector machine, SVM)は、教師あり学習を用いるパターン認識モデルの一つである。分類や回帰へ適用できる。
ランダムよりも少し精度がいいような弱い識別機を組みわせて、強い識別機を作成しようとする機械学習モデル
k近傍法(ケイきんぼうほう、英: k-nearest neighbor algorithm, k-NN)は、特徴空間における最も近い訓練例に基づいた分類の手法であり、パターン認識でよく使われる。
最近傍探索問題の一つ。k近傍法は、インスタンスに基づく学習の一種であり、怠惰学習 (lazy learning) の一種。
その関数は局所的な近似に過ぎず、全ての計算は分類時まで後回しにされる。また、回帰分析にも使われる。
k近傍法は、ほぼあらゆる機械学習アルゴリズムの中で最も単純。
脳機能に見られるいくつかの特性に類似した数理的モデル
ニューラルネットワークはシナプスの結合によりネットワークを形成した人工ニューロン(ノード)が、学習によってシナプスの結合強度を変化させ、問題解決能力を持つようなモデル全般を指す
値と平均値の差。
※過学習の回避
※過学習の回避