決定木の使い方
決定木の説明
GOFARDでは決定木という分類手法でツリーモデルを作成できます。
決定木は分類モデルの解釈がしやすい利点がある為、実験結果やアンケートなどの要因分析に有用な手法です。
決定木の分析例
アヤメ(iris)の3品種分類データを決定木を用いて要因分析例を示します。
このデータは3品種のアヤメ『setosa』、『versicolor』、『virginica』を各50サンプルずつ”がく片 (Sepal)”と”花弁 (Petal)” を幅および長さの4つの計測値でまとめたデータセットです。

csvファイルを読み込み、説明変数にがく片と花弁の幅および長さの列を、目的変数に品種の列を選択します。「最小分割サンプル数」は初期値20のまま計算を実行します。

分類結果タブにツリーモデルが出力されます。

ツリーの末端の分類結果を見ると3品種に分類されています。 分割データの1行目は目的変数の種類を、 2行目は3品種にそれぞれ正しく分類された比率を、 3行目には分類データのサンプル数とその全体の割合を示しています。
枝分かれの部分には説明変数の分割条件を示しています。
この図から花弁の長さが2.5以下であれば100%でsetora種に分類でき、次に少し誤分類があるが花弁の幅1.8を閾値に残り2種に分類しています。
このように決定木では分類問題において重要な要因を分かりやすく可視化することができます。
また「最小分割サンプル数」は各ノードの最小サンプル数の設定値で、この値を小さくするほどツリーが深い階層構造になります。次に10に設定して分類をしてみます。

先ほどの結果に対し、2つ目の末端ノードが更に分割されました。データと目的に応じて適宜設定を変更し、解釈しやすいツリーモデルを作成してください。

