Hike News
Hike News

機器學習-特徵工程-處理連續型數據

Introduction 二值化(binarizer) 根據閥值(threshold)將數值二元化(大於閥值設為1;小於or等於閥值設為0) 用於處理連續型變量 連續型變量劃分為二分類 決定僅考慮某種現象存在與否 分段(KBinsDiscretizer;分箱) 將連續型數據劃分為不同分類變量 例如:根據不同的年齡段分成老年、中年、青少年、小孩、幼齡

Continue Reading →

機器學習-特徵工程-填補缺失值

Introduction 現實中所蒐集的數據不可能完美,往往伴隨著缺失值的存在處理方法通常為: 直接將含有缺失值的樣本刪除 直接將含有過多缺失值的特徵列刪除 使用sklearn.impute.SimpleImputer將均值、中位數、眾數、常數填補數據 專門用作填補缺失值的類 使用隨機森林回歸填補缺失值

Continue Reading →

機器學習-演算法-隨機森林回歸(RandomForestRegressor)

DecisionTreeClassifier12345class sklearn.ensemble.RandomForestRegressor(n_estimators=’warn’, criterion=’mse’, max_depth=None, min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_features=’auto’, max_leaf_nodes=None, min_impurity_decrease=0.0, min_impurity_split=None, bootstrap=True, oob_score=False, n_jobs=None, random_state=None, verbose=0, warm_start=False)

Continue Reading →

機器學習-演算法-隨機森林分類(RandomForestClassifier)

Introduction隨機森林是非常具有代表性的Bagging集成演算法 所有的基評估器(base estimator)都是決策樹 單個決策樹的準確率越高,隨機森林的準確率也會越高 Bagging是依賴於平均值或多數決原則來決定集成結果的 DecisionTreeClassifier12345class sklearn.ensemble.RandomForestClassifier(n_estimators=’warn’, criterion=’gini’, max_depth=None, min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_features=’auto’, max_leaf_nodes=None, min_impurity_decrease=0.0, min_impurity_split=None, bootstrap=True, oob_score=False, n_jobs=None, random_state=None, verbose=0, warm_start=False, class_weight=None)

Continue Reading →

機器學習-集成學習(ensemble learning)方法概述

集成學習(ensemble learning)方法通過建立幾個模型組合來解決單一預測問題,其工作原理是在數據集上構建多個分類器/模型,各自獨立學習和做出預測,這些預測最後結合成單預測,因此優於任何一個單分類器做出的預測 不是一個單獨的機器學習的算法阿 現在各種演算法競賽中,隨機森林、梯度提升樹(GBDT)、Xgboost隨處可見 sklearn中的集成學習方法位於sklearn.ensemble中

Continue Reading →