機器學習-非監督學習- K-means

Introduction 非監督學習:dataset只有特徵值,沒有真實標籤(目標值) PCA降維算是無監督學習的一種 把具有相近特徵的數據歸為一個類別,稱為聚類(物以類聚,人以群分) 聚類演算法又叫做無監督分類 聚類通常在分類之前進行,才進行分類(預測類別) 聚類演算法又稱為無監督分類 可用於降維(decomposistion) 可用於矢量量化(vector quantization) 將高維特徵壓縮到一列當中 再不改變特徵數目及樣本數目的情況下,壓縮數據上的信息量大小 用於壓縮圖像、聲音、視頻等非結構化數據 主要方法:k-means 將一組N個樣本的特徵矩陣X劃分為K個無交集的簇(cluster),直觀上來看是一組一組聚在一起的數據 在一個簇中的數據就認為是同一類,簇就是聚類的結果表現 簇中所有數據的均值$u_{ij}$通常稱為這個簇的質心(centroids) K:把數據劃分成多少個類別 為kmeans演算法的核心 知道類別的個數則設定K值後fit 不知道類別的個數時,則K為超參數

Continue Reading →

機器學習-邏輯回歸(Logistic Regression)

Introduction 邏輯回歸是一種分類(classfication)演算法 一種廣泛使用於分類問題中的廣義回歸演算法 一種名為"回歸"的線性分類器 由線性回歸變化而來的 求解能夠讓模型對數據擬合程度最高的參數$w$的值 線性回歸(linear regression)的式子作為邏輯回歸的輸入 與linear regression一樣為一迭代演算法 存在cost function 不斷的迭代優化並更新權重$w$ 通過引入聯繫函數(link function),將線性回歸方程$Z(x)$轉換為$g(z)$ 令$g(z)$的值分布在 0-1 之間,而得到分類模型 當$g(z)$接近0時樣本的label為0; $g(z)$接近1時樣本的label為1 此聯繫函數就是Sigmoid函數 只適用於二元分類的場景,邏輯回歸是解決二分類問題的利器 sklearn的邏輯回歸也可以做多分類的問題 一對多(One-vs-rest;OvR) 把某種分類看作1,剩下的分類類型都為0 在sklearn中為"ovr" 多對多(Many-vs-Many;MvM) 把好幾個分類劃為1,剩下的分類類型劃為0 在sklearn中為"Multinominal" 配合L1, L2正則項使用 也能得出具體的概率值 對邏輯回歸中過擬合的控制,通過正則化來實現

Continue Reading →

機器學習-線性回歸分析(linear regression)

Introduction 數據集的目標值(target)是一個連續型的值,便是一個回歸問題 回歸問題應用於房價分析、銷售額預測、貸款額度 回歸:在具有線性關係的點中,尋找一種能預測的趨勢 回歸演算法為迭代演算法(訓練結果會使預測結果越來越好) 訓練時會產生誤差且知道誤差,在訓練的過程中不斷地減少誤差

Continue Reading →