Hike News
Hike News

機器學習-非監督學習- K-means

Introduction非監督學習:dataset只有特徵值,沒有目標值 把具有相近特徵的數據歸為一個類別,稱為聚類(物以類聚,人以群分) 聚類通常在分類之前進行,才進行分類(預測類別) 主要方法:k-means K:把數據劃分成多少個類別 知道類別的個數則設定K值後fit 不知道類別的個數時,則K為超參數

Continue Reading →

機器學習-邏輯回歸(Logistic Regression)

Introduction 邏輯回歸是一種分類(classfication)演算法 線性回歸(linear regression)的式子作為邏輯回歸的輸入 與linear regression一樣為一迭代演算法 存在cost function 不斷的迭代優化並更新權重$w$ 只適用於二元分類的場景,邏輯回歸是解決二分類問題的利器 也能得出具體的概率值

Continue Reading →

機器學習-線性回歸分析(linear regression)

Introduction 數據集的目標值(target)是一個連續型的值,便是一個回歸問題 回歸問題應用於房價分析、銷售額預測、貸款額度 回歸:在具有線性關係的點中,尋找一種能預測的趨勢 回歸演算法為迭代演算法(訓練結果會使預測結果越來越好) 訓練時會產生誤差且知道誤差,在訓練的過程中不斷地減少誤差

Continue Reading →

機器學習-演算法-隨機森林(random forest)

集成學習方法通過建立幾個模型組合來解決單一預測問題,其工作原理是生成多個分類器/模型,各自獨立學習和做出預測,這些預測最後結合成單預測,因此優於任何一個單分類器做出的預測 sklearn中的集成學習方法位於sklearn.ensemble中

Continue Reading →

機器學習-模型的選擇與調校參數

交叉驗證(cross validation) 目的:為了讓被評估的模型更加準確可信 交叉驗證通常搭配網格搜索一起使用 將訓練數據分成n等分,以下圖為例:讓其中一等分當作驗證集 其他則為訓練集,總共驗證5次(組),每次更換不同的驗證集,得到5組模型的結果,求出準確率的平均值作為最終結果,又稱5折交叉驗證

Continue Reading →

機器學習-分類模型評估

Introduction 前面對兩種分類模型皆調用score()方法查看準確率,其就是一種對模型的評估, 返回預測結果正確的百分比 sklearn還存在許多對預測模型評估的方法皆收錄在sklearn.metrics中 這一章節只著重在對分類模型的評估 還有其他對分類模型評估的指標包括 精確率(precision) 與 召回率(recall)

Continue Reading →