目指せ!データサイエンティスト① 統計検定4級
統計分析
- 度数
データの個数 - 相対度数
度数をデータ全体の総件数で割った%
相対度数=度数/データの総件数 - 分布
データがばらつくこと - 種類
記述統計 手元にあるデータの持つ情報を明らかにするための分析
推測統計 手元にあるデータは全体の一部と考えて、一部のデータから手元のない全体を推測する分析
グラフの種類
- 棒グラフ 数量の大小を比較するのに適している。棒の高さが量を示す
- 折れ線グラフ 数量の時間的な変化を示すのに適してい
- 度数折れ線グラフ 度数多角形
- 複合グラフ 棒グラフと折れ線グラフを重ねたもの
- 円グラフ 全体に対する割合を示すのに適している
- 帯グラフ 全体に対する割合を比較するのに適している
- 幹葉図
- タリーチャート
- 度数分布表 各クラス毎の度数を比較した表
・離散データ 整数の値のみを記録したデータ
・連続データ 小数点桁が多い場合もあるので、クラス(階級)に分けて取り扱う
・クラス(階級)量的データの値を範囲毎に分けたもの
・階級幅 各クラスの上限と下限の差(基本的に同じにする)
・階級値 階級の上限と下限の中央の値 - 累積度数分布表
- 累積相対度数分布表
パーセント点、パーセントタイル - 絵グラフ
- ヒストグラム(柱状グラフ) 連続型の量的データの度数分布表を柱の面積で表す。
・横軸が必ず数値を表す
・量のつながり(連続性)を表現するために柱同士の間は空けない
・見るポイント
形状を見分ける
山型、ベル型などの言葉を使って特徴を表現する
峰(ピーク) 山の高いところ
単峰型 ピークが1つ
多峰型 ピークが複数
左右の対称性、外れ値の存在 - パレート図
- クロス集計表
・行比率、列比率 - ドットプロット
- 箱ひげ図 四分位数を利用してデータを4分割して表示する
データのばらつきを見るのに適している - 散布図(相関図) 2つの量的データの分布と同時に見るのに適している
- 散布図行列
データの種類
- 質的データ 分類や種類の違い(カテゴリー)が記録されているもの
例)所有車、好きな色、血液型 - 量的データ 大きさや量などの数量が記録されているデータ
例)身長、体重、気温、降水量 - 時系列データ 時間に沿って等間隔に観測されたデータ
折れ線グラフで表現することが多い。直線の傾きは変化を表す
長期的な傾向(トレンド)を表すのに適している
基本統計量
- 平均値(ミーン) X↑ー エックスバー
平均値=1/n(x1+x2+x3…..+xn) - 中央値(メジアン) X↑〜 エックスチルダ
データを大きさ順に並べて、その並びの真ん中の値 - 最頻値(モード)
もっともたくさん出てくるデータの値
平均値 | 中央値 | 最頻値 | |
位置の特徴 | 分布が 釣り合う位置 | ばらついた データの 中央に 位置する値 | 峰の位置 |
質的データ | ✕ | ✕ | ○ |
量的データ | ○ | ○ | ○ |
分布の形(左右対称) | ○ | ○ | ○ |
分布の形(歪んでいる) | ✕ | ○ | ○ |
分布の形(山が2つ) | ✕ | △ | ○ |
外れ値の影響 | 受ける | 受けない | 受けない |
その他 | 他の指標を 計算する 場合などに 活用できる | − | 階級のとり方に よって変わる |
- 範囲 データの最大値と最小値の差
- 四分位数 データ全体を4等分した際の境界となる値
第1四分位数、第2四分位数、第3四分位数 - 四分位範囲 第2四分位数から第3四分位数の間にある全体の50%のデータ
- 移動平均
時系列データなどで不規則な値の変化が大きいときは、元のデータから傾向を読み取ること難しいため、期間をずらしながら平均値をとることで、細かな値の上下動を打ち消して、傾向を見やすくする。 - 指数 基準時点の値を100として、その他の時点の値を相対値で示したもの
指数=比較時点tでの値/基準時点t0の値*100 - 増加(減少)率 時系列データの基準時点からの変化の大きさを見るのに適している指標
増減率=(比較時点tでの値ー基準時点t0の値)/基準時点t0の値 - 成長率 その時点の値を一つ前の時点の値と比較して、増加(減少)率を求めたもの
確率 Probabillty
不確実な事柄の起こりやすさを0〜1の値で表現したもの
- 理論的確率 数学的に計算された確率
→起こり得るすべての場合の数を数える
→ある事柄が起こる場合の数を数える
→ある事柄の場合の数を起こりうるすべての場合の数で割る - 経験的確率 現実の起こった場合や実験などで計測された結果に基づいて推定される確率
- 条件付き確率 全体から条件をつけた事柄だけを抽出して確率を算出すること
- 樹木図
- 和の法則 2つの事柄Aがm通り、事柄Bがn通りあり、これらは同時に起こらない場合に
AかBのいずれかが起こる場合の数はm+n通りある - モンティホール問題 チェンジしたほうが確率は高くなる
ありえない事柄の数も確率の母数に含めるのが謎だ
標本調査
- 母集団 研究や調査で傾向を知りたい対象集団の全体
- 標本 データを観測する母集団の一部分
- 全数調査 母集団すべてを調査すること
- 標本調査 母集団から標本を抽出して、それを調査すること
- 統計的推測 標本調査のデータから母集団を推測すること
- 統計量 標本データから計算される標本平均値や標本比率
- 標本平均値
- 標本比率
- 特性値(母数)
- 標本誤差 全数調査と標本調査の差
- 非標本誤差 非回答集団の存在や調査票への記入ミスによる差
- 無作為標本抽出(ランダムサンプリング)
- 無作為標本(ランダムサンプル)
- 標本サイズ(標本の大きさ) 調査対象数
- 標本抽出(サンプリング) 母集団から標本サイズnの標本を作成すること
- 有意抽出法
母集団の特性をよく知る人が母集団の中からうまく代表する標本を選択する方法 - 無作為抽出法
人為的な恣意性をすべて排除して、母集団を形成する要素から確率的なルールよって機械的に標本を選択する方法
→欠点
乱数を多く用意しなければならない
調査対象が広範囲に散らばる
標本誤差の問題 - 単純ランダムサンプリング法
母集団を構成するどの要素も標本に世羅バレル確率が等しくなるサンプリング法 - 系統サンプリング
最初に1つの要素だけ乱数を使って抽出し、そのあとはそこから系統的に抽出する対象を決める方法
→等間隔サンプリング法
サンプリングフレームの並びにある種の規則性があるときは偏った標本を形成してしまうので注意が必要 - 層化サンプリング法
・層別ランダムサンプリング法
地域の都市規模や地域の特性、職業や性別、学年の属性により母集団をできるだけ
均質のグループ(層)に分けて、各層毎に単純ランダムサンプリング法を使って
抽出単位を選択する方法
・比例配分法
標本を母集団の層の大きさに比例させて配分する方法
・ネイマン配分法
槽内のばらつきの大きさに比例して配分する方法 - 多段ランダムサンプリング法
大きな抽出から初めて目的である小さな抽出段階におって単純ランダムサンプリングを重ねて行く方法 - 標本分布 仮想的に無作為標本抽出を繰り返した際にできる標準統計量の分布
- 抽出枠(サンプリングフレーム)
- 乱数 確率法則に従ってランダムに発生された数字
- 一様乱数 すべての数字が同じ確率に独立して発生している乱数
- 乱数列 0から9までの10個の数字が等しい確率でランダムに出現する乱数の列
- 乱数表 乱数列が並んだもの
- 乱数サイ 正20面体の公平なサイコロ、0から9までの10個の数字が2回ずつ記載されている
- 疑似乱数 コンピュータ内の計算で発生させる乱数
- 物理乱数 電気ノイズ、放射線などの物理現象から発生させる乱数
- 調査方法
面接調査
郵送調査
電話調査
インターネット調査