Hike News
Hike News

機器學習-演算法-隨機森林(random forest)

集成學習方法通過建立幾個模型組合來解決單一預測問題,其工作原理是生成多個分類器/模型,各自獨立學習和做出預測,這些預測最後結合成單預測,因此優於任何一個單分類器做出的預測 sklearn中的集成學習方法位於sklearn.ensemble中

Continue Reading →

機器學習-模型的選擇與調校參數

交叉驗證(cross validation) 目的:為了讓被評估的模型更加準確可信 交叉驗證通常搭配網格搜索一起使用 將訓練數據分成n等分,以下圖為例:讓其中一等分當作驗證集 其他則為訓練集,總共驗證5次(組),每次更換不同的驗證集,得到5組模型的結果,求出準確率的平均值作為最終結果,又稱5折交叉驗證

Continue Reading →

機器學習-分類模型評估

Introduction 前面對兩種分類模型皆調用score()方法查看準確率,其就是一種對模型的評估, 返回預測結果正確的百分比 sklearn還存在許多對預測模型評估的方法皆收錄在sklearn.metrics中 這一章節只著重在對分類模型的評估 還有其他對分類模型評估的指標包括 精確率(precision) 與 召回率(recall)

Continue Reading →

機器學習-特徵工程-特徵預處理

Introduction 特徵預處理通常是對數據進行處理 通過特定的統計方法(數學方法) 將數據轉換成演算法要求的數據 特徵預處理 數值型數據:採用標準縮放 分為歸一化(normalization) 及 標準化(standardization) 兩種,通常也要同時處理缺失值類別型的數據:one-hot編碼時間類型數據:對時間進行切分 使用sklearn自帶的特徵預處理API進行處理

Continue Reading →