機器學習-Data Mining Introduction

六月 3, 2019 Python機器學習本文总阅读量次

Introduction

數據不給力，再高級的算法都沒有用

Data Mining 五大流程

1. 獲取數據

2. 數據預處理

從數據中檢測、糾正或刪除損壞、不正確或不適用的記錄之過程。

面臨問題

數據類型不同，有的是文字有的是數字，有的為時間序列
有的是連續型變量，亦有可能是離散型變量
數據質量不好，有噪聲、有異常值、有缺失、有錯誤
數據量太大或太小

目的

讓數據適應模型，匹配模型需求

3. 特徵工程

將原始數據轉換為更能代表預測模型的潛在問題特徵的過程

原始數據不一定能引導模型算出最好的結果
通過挑選相關特徵、組合特徵、提取有效特徵及創造特徵等手法來實現
- 創造特徵通常以降維演算法的方式實現

面臨問題

特徵之間有相關性
特徵和標籤無關
特徵太多或太小
特徵無法表現出應有的數據現象、無法展示數據的真實面貌

目的

降低計算成本
提升模型上限
- 至少保證模型在一個比較好的水平
  - 降噪：剔除有不良影響的特徵

4. 建模

測試模型並預測結果

5. 模型上線

在真實狀況中去驗證模型效果