numpyを使用した重回帰分析 - 闘うITエンジニアの覚え書き

"""重回帰分析サンプル."""
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from mpl_toolkits.mplot3d import Axes3D

def normalize(X, data=None):
    """正規化(Z-score normalization)."""
    data = X if data is None else data
    m = data.shape[0]
    X_norm = np.zeros((data.shape[0], data.shape[1]))
    for i in range(data.shape[1]):
        X_norm[:, i] = (data[:, i] - float(np.mean(X[:, i]))) / float(np.std(X[:, i]))

    # x0を追加
    X_norm = np.column_stack([np.ones([m,1]), X_norm])

    return X_norm

def cost(x, y, w):
    """コスト関数."""
    xw = x.dot(w)
    return np.dot((xw - y).T, (xw - y)) / (2*m)
    # もしくは
    #diff = np.power((x.dot(w) - y), 2)
    #return diff.sum(axis=0) / (2 * len(y))

def gradient_descent(x, y, w, alpha, iter_num):
    """最急降下法."""
    m = len(y)
    costs = np.zeros((iter_num, 1))
    for i in range(iter_num):
        w = w - alpha * (1.0/m) * np.transpose(x).dot(x.dot(w) - y)
        costs[i] = cost(x, y, w)
    return w, costs

if __name__ == "__main__":

    # --------------------------
    # 最急降下法による重回帰分析
    # --------------------------

    # データ読み込み
    data = np.loadtxt("data/sample_rent1.csv", delimiter=",", skiprows=1)
    x = data[:, 1:3]
    y = data[:, 3:4]

    # データの個数
    m = len(y)

    #  正規化し、x0を追加
    X_norm = normalize(x)

    # 初期値
    w_int = np.zeros((3, 1))

    # 学習率
    alpha = 0.01

    # 学習回数
    iter_num = 1000

    # 最急降下法による分析の実行
    w, costs = gradient_descent(X_norm, y, w_int, alpha, iter_num)

    # --------------------------
    # 作成したモデルを使用して別のデータを予測してみる
    # --------------------------
    z = np.array([[60, 10], [50, 10], [40, 10]])
    result = normalize(x, z).dot(w)
    for i in range(z.shape[0]):
        print("広さ: {}㎡, 築年数: {}年 ≒ {:0.1f}万円".format(z[i,0], z[i,1], result[i,0]))

    # --------------------------
    # グラフ表示
    # --------------------------
    fig = plt.figure(figsize=(10, 5))

    # 3Dグラフ
    ax = fig.add_subplot(1, 2, 1, projection='3d')
    ax.scatter(data[:, 1], data[:, 2], data[:, 3], color="#ef1234")
    ax.set_xlabel("Size")
    ax.set_ylabel("Age")
    ax.set_zlabel("Rent")

    # 学習毎のコスト
    ax2 = fig.add_subplot(1, 2, 2)
    ax2.plot(range(costs.size), costs[:, 0], "r")
    ax2.set_xlabel("iterations")
    ax2.set_ylabel("cost")
    ax2.grid(True)
    plt.show()

結果

広さ: 60㎡, 築年数: 10年 ≒ 8.1万円
広さ: 50㎡, 築年数: 10年 ≒ 7.2万円
広さ: 40㎡, 築年数: 10年 ≒ 6.3万円

最新の20件

numpyを使用した重回帰分析 - 闘うITエンジニアの覚え書き

開発メモ

テスト

ビルド

プロジェクト管理

ｻｰﾊﾞ/ｼｽﾃﾑ管理

サーバ/DB関連

その他

目次 †

概要 †

モデル式 †

コスト関数 †

最急降下法 †

正規化 †

z-socre Normalization (標準化) †

min-max normalization †

サンプル実装 †