Introduction
樣本不均衡代表在某一類數據集中,Label其中一類佔有很大的比例
- 通常會使用上採樣來解決問題
- 將較少類的樣本增加到與較多類的樣本一樣多
imblearn
imblearn
是專門用來處理不平衡數據集的庫,性能較sklearn
高
or
1 | pip install imblearn |
上採樣釋例
1 | from imblearn.over_sampling iimport SMOTE |
X,y
可為pandas.DataFrame
或是pandas.Series
類型