機器學習-Data Mining Introduction

Introduction

  • 數據不給力,再高級的算法都沒有用

Data Mining 五大流程

1. 獲取數據

2. 數據預處理

從數據中檢測、糾正或刪除損壞、不正確或不適用的記錄之過程。

面臨問題

  • 數據類型不同,有的是文字有的是數字,有的為時間序列
  • 有的是連續型變量,亦有可能是離散型變量
  • 數據質量不好,有噪聲、有異常值、有缺失、有錯誤
  • 數據量太大或太小

目的

讓數據適應模型,匹配模型需求

3. 特徵工程

將原始數據轉換為更能代表預測模型的潛在問題特徵的過程

  • 原始數據不一定能引導模型算出最好的結果
  • 通過挑選相關特徵、組合特徵、提取有效特徵及創造特徵等手法來實現
    • 創造特徵通常以降維演算法的方式實現

面臨問題

  • 特徵之間有相關性
  • 特徵和標籤無關
  • 特徵太多或太小
  • 特徵無法表現出應有的數據現象、無法展示數據的真實面貌

目的

  1. 降低計算成本
  2. 提升模型上限
    • 至少保證模型在一個比較好的水平
      • 降噪:剔除有不良影響的特徵

4. 建模

測試模型並預測結果

5. 模型上線

在真實狀況中去驗證模型效果