多変量回帰分析(LASSO)の使い方
多変量回帰分析(LASSO)の説明
多変量回帰分析は複数の説明変数xで一つの目的変数yを予測するモデルを作ります。
GofardではLASSO回帰による多変量回帰分析を実行できます。
LASSO回帰は予測に必要な説明変数を選別する特徴があり、予測精度とモデル解釈性が両立された回帰手法です。要因解析、パロメータ最適化など幅広く利用されます。
プラント運転データの要因解析例
アンモニアから窒素酸化物を生成する化学プラントの運転データから生産効率において重要な要因を解析してみましょう。
表データには3つの運転条件「Air Flow」(冷却風量)、「Water Temp」(窒素酸化物吸着塔の冷却水温)、「Acid Conc.」(酸濃度)、 そして生産効率に関わる「stack.loss」(窒素酸化物の吸着損失)のデータが入っています。

csvファイルを学習用データとして読み込み、説明変数に「Air Flow」、「Water Temp」、「Acid Conc.」の列を、 目的変数に「stack.loss」の列を選択し、計算を実行します。

予測モデル結果タブで予測モデルの精度確認、説明変数の回帰係数、リストでの実測値とモデルの計算値との比較が行えます。

さらに各説明変数の「影響」の目安になる回帰係数を確認出来ます。

このデータセットからAir Flowが最もstack.lossと正の相関があるようです。対してAcid Conc.はstack.lossに相対的にあまり影響しないとみなされています。
この結果を見て予測モデルの解釈と実際の物理化学的解釈が一致するか、実用性はどうかなどを議論できます。
最適パロメータの探索
上記モデルが予測に有用であると仮定し、「stack.lossを安定して15以下に抑える運転条件は?」をモデルを元に考えましょう。
「Air Flow」、「Water Temp」を網羅的に変更した予測用データリストを作成します。「Acid Conc.」は86で固定とします。

予測用データを読み込み、計算を実行します。

予測データ出力タブに予測データリストとして予測結果値を含んだデータリストが出力されます。
結果データリストはcsvファイルとしてリスト下部からダウンロードできます。

このデータリストを「データハンドリング:散布図」ツールで確認してみましょう

データを見ると「Air Flow 55以下、Water Tempは20以下を保つ」という案を立てることができます。
また仮にWater Tempの制御が困難であればAir Flowが50以下のデータを取得する必要があると判断できる。
このように多変量解析は複合的な問題へ定量的な予測ができ、効率的なパロメータ探索を行なえます。

