立地コラムデータ分析方法

vol.11　データ分析方法

データ分析の目的

現地調査データを収集した後は、データを分析し、立地を評価します。
立地のデータを得点化し、総合評価を算出するのですが、
データを単純に合計するだけでは不十分です。
（不十分である理由は次回説明します）

様々なデータから何らかの結論を出す場合にはデータを扱うための
基礎的な知識が必要になります。

データ分析で用いる用語

データ分析には様々な指標が用いられますが、
ここでは代表的なものを紹介します。

①平均
②分散
③標準偏差
④標準化されたデータ
⑤相関係数

平均とはデータの合計をデータ数で割ったものです。
あるデータを平均と比較する事で全体の中での位置が把握できます。

分散とは各データと平均との差の二乗和（偏差平方和）を
データ数（またはデータ数-1）で割ったものです。

分散を用いるとデータの散らばり具合（データの持つ情報量）がわかります。

標準偏差は分散の平方根です。
データの単位に左右されるという分散の欠点を補うもので、
イメージ的にはデータの散らばり具合の平均を表す指標になります。

標準化されたデータとは、あるデータと平均との差を標準偏差で割ったものです。
標準化する事により、異なる単位を持つデータ間の比較が可能になります。

相関係数とは２つのデータの共分散をそれぞれのデータの標準偏差の積で割ったものです。
相関係数は２つのデータ間の関係の強弱を表します。

次回はこれらの指標を用いたデータの分析方法について説明させて頂きます。

データ分析の注意点

現地調査データを収集した後は、データを得点化し、その合計で立地を評価します。
ただし、データを単純に合計する事はできません。

ここで、データ数を少なくした簡単な例で考えてみる事にします。
Ａ物件・・・・商圏世帯数1000、通行量300人
B物件・・・・商圏世帯数2000、通行量100人

この２物件の内どちらが良いかという事を考えます。
単純に数値を合計して、
Ａ物件・・・・1000+300=1300?
B物件・・・・2000+100=2100?

としてしまうと、何かおかしい感じがします。
世帯数の単位は「世帯」であり、通行量の単位は「人」ですので、値を合計するのは誤りです。

データ分析事例

このように、単位が異なるデータを扱うときは、
前回紹介した「データの標準化」という考え方を用います。
(他にも手法はありますが、割愛させて頂きます)

データを標準化するために、それぞれの平均値と標準偏差を求めると、
世帯数の平均値1244世帯、標準偏差753
通行量の平均値215人、標準偏差142
であったとします。
(A、Bの２物件以外にもいくつかの調査データから求めたと仮定した値です)

平均値と標準偏差からデータを標準化すると、
Ａ物件・・・・世帯数-0.32、通行量0.60
B物件・・・・世帯数1.00、通行量-0.81
となります。

標準化されたデータは平均が0、分散が1になるという性質があり、
単位が無次元の値になるため、ここで初めて単位が異なるデータ間の合計が可能になります。

つまり、
Ａ物件の得点-0.32+0.60=0.28
B物件の得点　1.00-0.81=0.19
となります。

これで単位が異なるデータを合計するという問題はクリアできましたが、
もう一つ問題があります。

それは、立地を構成する要素(この例では世帯数と通行量)の影響度は同じか？
という問題です。

次回はこの解決方法を含めた簡易的な売上予測の考え方について説明させて頂きます。

vol.11 データ分析方法

データ分析の目的

データ分析で用いる用語

データ分析の注意点

データ分析事例

vol.11　データ分析方法