機器學習-演算法-隨機森林分類(DecisionTreeClassifier)

Introduction隨機森林是非常具有代表性的Bagging集成演算法 所有的基評估器(base estimator)都是決策樹 單個決策樹的準確率越高,隨機森林的準確率也會越高 Bagging是依賴於平均值或多數決原則來決定集成結果的 DecisionTreeClassifier12345class sklearn.ensemble.RandomForestClassifier(n_estimators=’warn’, criterion=’gini’, max_depth=None, min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_features=’auto’, max_leaf_nodes=None, min_impurity_decrease=0.0, min_impurity_split=None, bootstrap=True, oob_score=False, n_jobs=None, random_state=None, verbose=0, warm_start=False, class_weight=None)

Continue Reading →

機器學習-集成學習(ensemble learning)方法概述

集成學習(ensemble learning)方法通過建立幾個模型組合來解決單一預測問題,其工作原理是在數據集上構建多個分類器/模型,各自獨立學習和做出預測,這些預測最後結合成單預測,因此優於任何一個單分類器做出的預測 不是一個單獨的機器學習的算法阿 現在各種演算法競賽中,隨機森林、梯度提升樹(GBDT)、Xgboost隨處可見 sklearn中的集成學習方法位於sklearn.ensemble中

Continue Reading →

Golang項目-Kafka,tailf,config,log

introduction Kafka為一分布式的系統 一個kafka的集群可能有三台以上 使用第三方基礎庫來操作Kafka import "github.com/Shopify/sarama" 往kafka放東西的,稱為生產者(Producer) 客戶端連上Kafka,從Kafka取(消費)數據,稱為消費者 tailf庫 其為golang內部的基礎庫 其可以從一個不斷寫入的文件,持續的拿出數據 import "github.com/hpcloud/tail"

Continue Reading →

Golang資料結構-稀疏矩陣(sparse matrix)

introduction 在數值分析中,大部分元素為零或是同一個值的矩陣。反之,如果大部分元素都非零或為不同值,則這個矩陣是稠密的。 處理方式: 記錄矩陣中共有多少行列(row,col,default(預設值)) 記錄有多少個不同的值 把具不同值的元素之行列與值 記錄在一小規模的陣列中,從而縮小程序的規模

Continue Reading →

Golang基礎-補充知識-工程管理與go install

工作區 Go代碼必須放在工作區中 工作區:一個對應於特定工程的目錄,其包含三個子目錄 src目錄:用於以代碼包的形式組織並保存Go源碼文件(必須存在) pkg目錄:用於存放go install命令構建安裝後的代碼包(包含原Golang庫的源碼文件),生成相關的靜態庫文件(其會與所使用的os相對應) bin目錄:與pkg目錄類似,保存由go install命令生成的可執行程序

Continue Reading →