ArcMap や ArcGIS Pro でレイヤーを数値分類でシンボル表示する、いわゆる度数分布表の階級幅を決める際に、何分類すれば良いのか毎回悩む訳ですが、迷ったときに使えるマッチベターな公式の名前がすぐに思い出せなかったのでメモしておきます。
ダウンロード
スタージェスの公式
k = log2(N) + 1
k = 階級数
N = データの個数
スタージェス (H.A. Sturges) さんが考えた公式です。
Sturges, H. A. (1926). “The choice of a class interval”. J. American Statistical Association: 65–66.
階級数 早見表
ArcMap や ArcGIS Pro だと数値分類できる上限は 32 なのでそれに対応した表を作成しておきます。
階級数(k) | 1 | 2 | 3 | 4 |
データの個数(N) | 1 | 2 | 4 | 8 |
階級数(k) | 5 | 6 | 7 | 8 |
データの個数(N) | 16 | 32 | 64 | 128 |
階級数(k) | 9 | 10 | 11 | 12 |
データの個数(N) | 256 | 512 | 1,024 | 2,048 |
階級数(k) | 13 | 14 | 15 | 16 |
データの個数(N) | 4,096 | 8,192 | 16,384 | 32,768 |
階級数(k) | 17 | 18 | 19 | 20 |
データの個数(N) | 65,536 | 131,072 | 262,144 | 524,288 |
階級数(k) | 21 | 22 | 23 | 24 |
データの個数(N) | 1,048,576 | 2,097,152 | 4,194,304 | 8,388,608 |
階級数(k) | 25 | 26 | 27 | 28 |
データの個数(N) | 16,777,216 | 33,554,432 | 67,108,864 | 134,217,728 |
階級数(k) | 29 | 30 | 31 | 32 |
データの個数(N) | 268,435,456 | 536,870,912 | 1,073,741,824 | 2,147,483,648 |
この表を見ると、例えば全国の 47都道府県で分類したい場合は 6~7 が適当で、1741市町村で分類したい場合は 11~12 が適当となります。
学生の時に読んだ本にも書いてあったとのを思い出して記憶をさかのぼったら、この本の 109ページに書かれていました。1971年が初版で私が持っていたのは 1986年の第2版第6刷でした。おそらく今は絶版でしょう。
分類する数が決まったらどの値を閾値にすれば良いのがベターなのかですが、よく分からなかったらデフォルトの「自然分類」を選択してください。
2020年2月19日追記
1741個ある市町村の分類は 11~12 分類が適当と説明しましたが、「一般に読者のパターンの認識能力はせいぜい 8~10 とされている」と書かれていました(野村正七 (1974)『指導のための地図の理解』中教出版 P.290)。ArcGIS Pro も 3~9 までは明確に分類された配色が用意されているので、10分類以上は過剰な分類ということですね。