相関行列の使い方

相関行列(Correlation matrix)

マーケティングや研究開発において収集したデータを確認する時、回帰モデルなどを適用する前にデータの特徴を理解することがデータ分析の第一歩です。その中でもデータ内の変数間の関係を理解する事が重要です。その関係性を表す統計量としての代表として相関係数があります。

この機能ではデータ内の変数の全ての組み合わせに対して一度で散布図と相関係数を出力し、「散布図行列」と「相関行列」として可視化します。データの特徴を早く把握するのにとても有用なツールです。

例:営業データの相関確認

例として仮想の小売店の売上ログデータを想定しましょう。

csvファイルを入力し、相関を比較したい変数列を全て選択し、出力ボタンを押すと出力タブに散布図行列と相関行列の図が作成されます。数値以外のデータが入っている列を選ぶと作成できないので、注意して下さい。

図. 散布図行列(scatter plot matrix)、画面上部
図. 相関行列(Correlation matrix)、画面下部

出力タブの上部に散布図行列、下部に相関行列が表示されます。

このデータには顧客年齢(age)や売上額(credit.score)、またオンラインと実店舗での取引額(trans)や滞在時間(spend)などが入っています。それらの変数間の特徴を一度に確認できます。

例えば相関行列からオンラインでの取引額と滞在時間には強い正の相関があることが確認できます。

また相関が0に近いものについては、散布図を確認する事でどの様に分布しているか見ることが大事です。例えば、オンラインの滞在時間と店舗の滞在時間の散布図を見ると強く反比例しています。これは殆どの顧客は片方しか利用しないという仮説が考えられます。

このデータはシミュレーションなので結果が極端ですが、現実には顧客データの詳細や購入製品カテゴリなどもっと比較すべき変数が沢山あります。この機能で行列図を作成することで素早くデータの全体像を確認して仮説や更なる解析方針を立て、スムーズに分析作業を進めましょう。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です