Rによる統計入門
はじめに
1
RとRStudioの導入
1.1
R と RStudio について
1.2
R と RStudio のインストール
1.2.1
R のインストール
1.2.2
RStudio のインストール
1.3
RStudio の画面について
1.3.1
各タブについて
1.3.2
画面の配置の変更
1.3.3
表示設定等
1.4
基本的な計算
1.5
[1] 2
1.6
[1] 6
1.7
[1] 6
1.8
[1] -1
1.9
[1] 6
1.10
[1] 3
1.11
[1] 1
1.12
[1] 16
1.13
[1] 81
1.14
[1] 81
1.15
[1] 4
1.16
[1] 10
1.17
[1] 12
1.18
[1] 1
1.19
[1] 2
1.20
[1] 2
1.20.1
入力が足りない場合
1.21
[1] 30
1.21.1
エラーメッセージ
1.22
Error:
:1:5: unexpected ‘/’
1.23
1: 10 //
1.24
^
1.25
変数を使う
1.25.1
変数の作成
1.26
[1] 0.08
1.26.1
変数を使った計算
1.27
[1] 324
1.28
[1] 777.6
1.29
[1] 777
1.30
[1] 778
1.31
[1] 778
1.32
[1] 777
1.32.1
変数の上書き
1.33
[1] 777
1.34
[1] 777
1.34.1
代入記号について
1.35
[1] 10
1.36
[1] 10
1.37
[1] 777.6
1.37.1
変数の命名規則
1.38
Error:
:1:1: unexpected ‘in’
1.39
1: in
1.40
^
1.41
R スクリプトを利用する
1.41.1
R スクリプトの作成と保存
1.41.2
Files タブの利用
1.41.3
working directory の設定(最初はここは飛ばしてもOK)
1.41.4
R スクリプトの実行
1.42
[1] 8
1.42.1
コメント記号について
1.43
[1] 777
2
Google ColaboratoryでR言語を使う
2.1
Google Colaboratory について
2.2
Google Colaboratory で R を使えるようにする
2.2.1
方法1
2.2.2
方法2
2.2.3
方法3
2.2.4
行番号表示の設定の変更
2.3
R が動くことを確認する
2.4
Colab の機能
2.4.1
コードセル
2.4.2
テキストセル
2.4.3
セルの操作
2.4.4
ノートブックの保存
2.4.5
Colab の接続時間制限について
2.4.6
パッケージについて
2.5
[1] 1.79904
2.6
データのアップロード/ダウンロード
3
Rのデータ構造
3.1
概要
3.2
変数の型
3.2.1
数値型
3.3
[1] 3.14
3.4
[1] 1.1 2.2 3.3
3.5
[1] 3 9 15
3.5.1
文字列型
3.6
[1] “hello!”
3.7
[1] “Tokyo” “Nagoya” “Osaka”
3.8
[1] “1” “01” “777”
3.9
[1] “東京” “名古屋” “大阪”
3.9.1
因子型
3.10
[1] 1 1 1 2 2 2
3.11
Levels: 1 2
3.12
[1] Bad Good Excellent
3.13
Levels: Bad < Excellent < Good
3.14
[1] Bad Good Excellent
3.15
Levels: Bad < Good < Excellent
3.16
[1] Bad Good Excellent
3.17
Levels: Bad Good Excellent
3.17.1
論理値型
3.18
[1] TRUE FALSE FALSE
3.19
[1] TRUE FALSE FALSE
3.20
[1] FALSE
3.21
[1] TRUE
3.22
[1] TRUE
3.23
[1] FALSE
3.24
[1] TRUE
3.25
[1] TRUE
3.26
[1] TRUE
3.27
[1] FALSE
3.28
[1] TRUE
3.29
[1] TRUE
3.30
[1] TRUE
3.30.1
その他のデータ型
3.30.2
データ型の判定
3.31
[1] “numeric”
3.32
数値型です
3.33
[1] “character”
3.34
文字列型です
3.35
[1] “factor”
3.36
因子型です
3.37
[1] “logical”
3.38
論理値型です
3.39
[1] TRUE
3.40
[1] FALSE
3.41
[1] TRUE
3.42
[1] TRUE
3.43
[1] TRUE
3.43.1
特殊な値について
3.44
[1] TRUE TRUE FALSE NA TRUE
3.45
[1] “logical”
3.46
[1] FALSE FALSE FALSE TRUE FALSE
3.47
[1] NA
3.48
[1] NA
3.49
[1] 3
3.50
[1] 15
3.51
[1] 1 2 3 4 5
3.52
[1] 5
3.53
[1] 3
3.54
[1] 15
3.55
[1] NaN
3.56
[1] TRUE
3.57
[1] Inf
3.58
[1] TRUE
3.59
データ構造
3.59.1
Vector (ベクトル)
3.60
[1] -1 0 1 2
3.61
[1] “Alice” “Bob” “Chen”
3.62
[1] TRUE TRUE FALSE
3.63
[1] 0 1 0
3.64
全ての要素が数値型になっています
3.65
[1] “1” “A”
3.66
全ての要素が文字列型になっています
3.67
[1] “2” “TRUE” “A”
3.68
全ての要素が文字列型になっています
3.69
[1] 7
3.70
[1] 7
3.71
[1] 3 4 5 6 7 8
3.72
[1] 1 2 3 4 5 10
3.73
[1] 2 3 4 5
3.74
[1] 2 3 4 5
3.75
[1] 2 3 4 5
3.76
[1] 1 2 5 6
3.77
[1] 1 2 5 6 0 21 22 23
3.78
[1] “a”
3.79
[1] “c”
3.80
[1] “a” “c” “e”
3.81
[1] “b” “c” “d”
3.82
[1] “a” “b” “c” “d” “e” “f”
3.83
[1] “1” “b” “c” “d” “e” “f”
3.84
[1] “1” “N2” “N3” “d” “e” “f”
3.85
[1] “1” “N2” “N3” “X” “X” “X”
3.86
[1] 1 2 3
3.87
[1] 1 2 3 NA NA NA 10
3.88
[1] 11
3.89
[1] 1 2 3 4 5
3.90
[1] 3 4 5 6 7
3.91
[1] 3 6 9 12 15
3.92
[1] 324.0 777.6 486.0 1296.0 1620.0
3.93
[1] 1 3 7 3
3.94
[1] 0 2 12 -4
3.95
[1] 2 9 2 9 2 9 2
3.96
north south east west
3.97
10 20 5 40
3.98
east
3.99
5
3.100
east
3.101
5
3.102
[1] 10 20 5 40
3.103
Q1 Q2 Q3
3.104
4.5 20.0 50.1
3.104.1
Data frame (データフレーム)
3.105
id name age gender married
3.106
1 1 Alice 10 Female FALSE
3.107
2 2 Bob 15 Male FALSE
3.108
3 3 Charlotte 20 Female FALSE
3.109
4 4 Dick 35 Male TRUE
3.110
[1] “id” “name” “age” “gender” “married”
3.111
[1] 5
3.112
[1] 4
3.113
id name age gender married
3.114
1 1 Alice 10 Female FALSE
3.115
2 2 Bob 15 Male FALSE
3.116
3 3 Charlotte 20 Female FALSE
3.117
4 4 Dick 35 Male TRUE
3.118
id name age gender married
3.119
1 1 Alice 10 Female FALSE
3.120
2 2 Bob 15 Male FALSE
3.121
‘data.frame’: 4 obs. of 5 variables:
3.122
$ id : int 1 2 3 4
3.123
$ name : chr “Alice” “Bob” “Charlotte” “Dick”
3.124
$ age : num 10 15 20 35
3.125
$ gender : chr “Female” “Male” “Female” “Male”
3.126
$ married: logi FALSE FALSE FALSE TRUE
3.127
2列目を取り出す
3.128
name
3.129
1 Alice
3.130
2 Bob
3.131
3 Charlotte
3.132
4 Dick
3.133
name gender
3.134
1 Alice Female
3.135
2 Bob Male
3.136
3 Charlotte Female
3.137
4 Dick Male
3.138
2列目の3行目を取り出す
3.139
[1] 15
3.140
name列とage列を取り出す
3.141
name age
3.142
1 Alice 10
3.143
2 Bob 15
3.144
3 Charlotte 20
3.145
4 Dick 35
3.146
name 列を取り出す
3.147
[1] “Alice” “Bob” “Charlotte” “Dick”
3.148
id列を取り出す
3.149
[1] 1 2 3 4
3.150
name列の4番目の値
3.151
[1] “Dick”
3.152
age 列の1~3番目の値
3.153
[1] 10 15 20
3.154
id name age gender married
3.155
1 1 Alice 10 Female FALSE
3.156
2 2 Bob 15 Male FALSE
3.157
3 3 Charlotte 20 Female FALSE
3.158
4 4 Donald 35 Male TRUE
3.159
id name age gender married
3.160
1 1 Alice 1 Female FALSE
3.161
2 2 Bob 2 Male FALSE
3.162
3 3 Charlotte 3 Female FALSE
3.163
4 4 Donald 4 Male TRUE
3.164
id name age gender
3.165
1 1 Alice 1 Female
3.166
2 2 Bob 2 Male
3.167
3 3 Charlotte 3 Female
3.168
4 4 Donald 4 Male
3.168.1
Matrix (行列)
3.169
[,1] [,2] [,3] [,4] [,5]
3.170
[1,] 1 4 7 10 13
3.171
[2,] 2 5 8 11 14
3.172
[3,] 3 6 9 12 15
3.173
[,1] [,2] [,3] [,4] [,5]
3.174
[1,] 1 2 3 4 5
3.175
[2,] 6 7 8 9 10
3.176
[3,] 11 12 13 14 15
3.177
[,1] [,2] [,3]
3.178
[1,] 7 7 7
3.179
[2,] 7 7 7
3.180
[3,] 7 7 7
3.181
D1 D2 D3
3.182
Cat1 1 3 5
3.183
Cat2 2 4 6
3.184
[,1] [,2] [,3] [,4] [,5]
3.185
[1,] 1 2 3 4 5
3.186
[2,] 6 7 8 9 10
3.187
[3,] 11 12 13 14 15
3.188
[1] 1 2 3 4 5
3.189
[1] 3 8 13
3.190
[1] 7
3.191
[1] 2 3
3.192
[,1] [,2]
3.193
[1,] 1 5
3.194
[2,] 11 15
3.195
D1 D2 D3
3.196
Cat1 1 3 5
3.197
Cat2 2 4 6
3.198
D1 D2 D3
3.199
1 3 5
3.200
[1] 4
3.201
[,1] [,2] [,3] [,4] [,5]
3.202
[1,] 1 2 3 4 5
3.203
[2,] 6 7 8 9 10
3.204
[3,] 11 12 13 14 15
3.205
[,1] [,2] [,3] [,4] [,5]
3.206
[1,] 21 22 23 24 25
3.207
[2,] 6 7 8 9 10
3.208
[3,] 11 12 13 14 15
3.209
[,1] [,2] [,3] [,4] [,5]
3.210
[1,] 21 22 23 24 25
3.211
[2,] 6 7 8 9 10
3.212
[3,] 0 0 0 0 0
3.213
[,1] [,2] [,3] [,4] [,5]
3.214
[1,] 21 22 23 24 25
3.215
[2,] 6 7 999 9 10
3.216
[3,] 0 0 0 0 0
3.217
[,1] [,2] [,3] [,4] [,5]
3.218
[1,] 21 1 1 24 25
3.219
[2,] 6 1 1 9 10
3.220
[3,] 0 1 1 0 0
3.220.1
Array (配列)
3.221
, , 1
3.222
3.223
[,1] [,2] [,3] [,4]
3.224
[1,] 1 3 5 7
3.225
[2,] 2 4 6 8
3.226
3.227
, , 2
3.228
3.229
[,1] [,2] [,3] [,4]
3.230
[1,] 9 11 13 15
3.231
[2,] 10 12 14 16
3.232
3.233
, , 3
3.234
3.235
[,1] [,2] [,3] [,4]
3.236
[1,] 17 19 21 23
3.237
[2,] 18 20 22 24
3.238
[1] 10
3.239
, , 1
3.240
3.241
[,1] [,2] [,3] [,4]
3.242
[1,] 0 0 0 7
3.243
[2,] 2 4 6 8
3.244
3.245
, , 2
3.246
3.247
[,1] [,2] [,3] [,4]
3.248
[1,] 0 0 0 15
3.249
[2,] 10 12 14 16
3.250
3.251
, , 3
3.252
3.253
[,1] [,2] [,3] [,4]
3.254
[1,] 17 19 21 23
3.255
[2,] 18 20 22 24
3.255.1
List (リスト)
3.256
[[1]]
3.257
[1] 1 2 3 4
3.258
3.259
[[2]]
3.260
[1] “A” “B” “C”
3.261
3.262
[[3]]
3.263
[,1] [,2]
3.264
[1,] 1 5
3.265
[2,] 2 6
3.266
[3,] 3 7
3.267
[4,] 4 8
3.268
$num
3.269
[1] 1 2 3 4
3.270
3.271
$str
3.272
[1] “A” “B” “C”
3.273
3.274
$arr
3.275
[,1] [,2]
3.276
[1,] 1 5
3.277
[2,] 2 6
3.278
[3,] 3 7
3.279
[4,] 4 8
3.280
[1] 1 2 3 4
3.281
[1] 1 2 3 4
3.282
[1] “C”
3.283
[1] 7
3.283.1
Table (テーブル)
3.284
x
3.285
0 1 2 3 4 5
3.286
3 6 3 1 1 1
3.287
3.288
Female Male
3.289
2 4
3.290
データ構造のまとめ
4
Rの制御構造
4.1
概要
4.2
if文
4.2.1
if文:もし条件が真(TRUE)なら実行
4.2.2
if…else文:条件が真(TRUE)か偽(FALSE)かで処理を分ける
4.2.3
else if文:3つ以上の選択肢で処理を分ける
4.2.4
ifelse()関数:データ列全体に一括で条件分岐を適用する
4.3
for文
4.4
while文
4.5
breakとnext
4.5.1
ループを途中で完了する break
4.5.2
今回の処理だけをスキップする next
4.6
apply系の関数について
5
データセットの読み込みと利用
5.1
概要
5.2
データの読み込み
5.2.1
ファイル名に拡張子が表示されるようにする
5.2.2
データセットについて
5.2.3
サンプルデータの準備
5.2.4
テキストファイルの読み込み
5.3
‘data.frame’: 58 obs. of 4 variables:
5.4
$ id : int 1 2 3 4 5 6 7 8 9 10 …
5.5
$ gender : chr “male” “male” “male” “male” …
5.6
$ education_level: chr “school” “school” “school” “school” …
5.7
$ score : num 5.51 5.65 5.07 5.51 5.94 5.8 5.22 5.36 4.78 6.01 …
5.8
id gender education_level score
5.9
1 1 male school 5.51
5.10
2 2 male school 5.65
5.11
3 3 male school 5.07
5.12
4 4 male school 5.51
5.13
5 5 male school 5.94
5.14
6 6 male school 5.80
5.14.1
Excel ファイルの読み込み
5.15
id gender education_level score
5.16
1 1 male school 5.51
5.17
2 2 male school 5.65
5.18
3 3 male school 5.07
5.19
4 4 male school 5.51
5.20
5 5 male school 5.94
5.21
6 6 male school 5.80
5.22
データフレームの利用
5.23
‘data.frame’: 58 obs. of 4 variables:
5.24
$ id : Factor w/ 58 levels “1”,“2”,“3”,“4”,..: 1 2 3 4 5 6 7 8 9 10 …
5.25
$ gender : Factor w/ 2 levels “male”,“female”: 1 1 1 1 1 1 1 1 1 1 …
5.26
$ education_level: Factor w/ 3 levels “school”,“college”,..: 1 1 1 1 1 1 1 1 1 2 …
5.27
$ score : num 5.51 5.65 5.07 5.51 5.94 5.8 5.22 5.36 4.78 6.01 …
5.28
‘data.frame’: 58 obs. of 4 variables:
5.29
$ id : num 1 2 3 4 5 6 7 8 9 10 …
5.30
$ gender : chr “male” “male” “male” “male” …
5.31
$ education_level: chr “school” “school” “school” “school” …
5.32
$ score : num 5.51 5.65 5.07 5.51 5.94 5.8 5.22 5.36 4.78 6.01 …
5.33
[1] 58 4
ベクトルとデータフレーム
5.33.1
$ 記法を使ったベクトルの抽出
5.34
[1] 5.51 5.65 5.07 5.51 5.94 5.80 5.22 5.36 4.78 6.01 6.01 6.45
5.35
[13] 6.45 6.38 6.74 6.09 6.30 5.58 9.13 9.28 8.84 9.28 10.00 10.00
5.36
[25] 9.57 8.99 9.13 8.70 5.80 5.94 5.22 5.65 6.38 6.38 6.09 5.51
5.37
[37] 5.51 4.93 6.52 6.67 5.94 6.38 7.10 7.10 6.81 6.23 6.23 5.65
5.38
[49] 8.26 8.41 9.13 9.57 9.42 8.84 8.55 7.97 6.52 7.39
5.39
[1] 5.07
5.40
5.41
female male
5.42
30 28
5.43
5.44
college school university
5.45
19 19 20
5.46
[1] 7.063214
5.47
[1] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE
5.48
[13] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE
5.49
[25] TRUE TRUE TRUE TRUE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
5.50
[37] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
5.51
[49] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
5.52
[1] 5.51 5.65 5.07 5.51 5.94 5.80 5.22 5.36 4.78 6.01 6.01 6.45
5.53
[13] 6.45 6.38 6.74 6.09 6.30 5.58 9.13 9.28 8.84 9.28 10.00 10.00
5.54
[25] 9.57 8.99 9.13 8.70
5.55
[1] 9.13 9.28 8.84 9.28 10.00 10.00 9.57 8.99 9.13 8.70 8.26 8.41
5.56
[13] 9.13 9.57 9.42 8.84 8.55 7.97 6.52 7.39
5.57
[1] 9.13 9.28 8.84 9.28 10.00 10.00 9.57 8.99 9.13 8.70
5.58
[1] 9.292
5.59
[1] 6.463
5.59.1
subset() 関数を用いたデータフレームの抽出
5.60
id gender education_level score
5.61
23 23 male university 10.00
5.62
24 24 male university 10.00
5.63
25 25 male university 9.57
5.64
52 52 female university 9.57
5.65
id gender education_level score
5.66
9 9 male school 4.78
5.67
23 23 male university 10.00
5.68
24 24 male university 10.00
5.69
25 25 male university 9.57
5.70
38 38 female school 4.93
5.71
52 52 female university 9.57
5.72
id gender education_level score
5.73
39 39 female college 6.52
5.74
40 40 female college 6.67
5.75
43 43 female college 7.10
5.76
44 44 female college 7.10
5.77
45 45 female college 6.81
5.78
gender
5.79
1 male
5.80
2 male
5.81
3 male
5.82
gender score
5.83
1 male 5.51
5.84
2 male 5.65
5.85
3 male 5.07
5.86
id gender education_level score
5.87
1 1 male school 5.51
5.88
2 2 male school 5.65
5.89
3 3 male school 5.07
5.90
id education_level score
5.91
1 1 school 5.51
5.92
2 2 school 5.65
5.93
3 3 school 5.07
5.94
gender score
5.95
1 male 5.51
5.96
2 male 5.65
5.97
3 male 5.07
5.98
education_level score
5.99
1 school 5.51
5.100
2 school 5.65
5.101
3 school 5.07
5.102
4 school 5.51
5.103
5 school 5.94
5.104
6 school 5.80
5.104.1
データ抽出のまとめ
5.105
[1] 8.406
5.106
[1] 8.406
5.107
データフレームの基本的な編集
5.107.1
データフレームの列順の並べ替え
5.108
id gender education_level score
5.109
1 1 male school 5.51
5.110
2 2 male school 5.65
5.111
3 3 male school 5.07
5.112
id education_level gender score
5.113
1 1 school male 5.51
5.114
2 2 school male 5.65
5.115
3 3 school male 5.07
5.116
score gender id education_level
5.117
1 5.51 male 1 school
5.118
2 5.65 male 2 school
5.119
3 5.07 male 3 school
5.120
score gender id education_level
5.121
1 5.51 male 1 school
5.122
2 5.65 male 2 school
5.123
3 5.07 male 3 school
5.123.1
結合
5.124
id name
5.125
1 1 Alice
5.126
2 2 Bob
5.127
3 3 Charles
5.128
age gender
5.129
1 10 female
5.130
2 20 male
5.131
3 30 male
5.132
id name age gender
5.133
1 1 Alice 10 female
5.134
2 2 Bob 20 male
5.135
3 3 Charles 30 male
5.136
id name
5.137
1 1 Alice
5.138
2 2 Bob
5.139
id name
5.140
1 3 Charles
5.141
2 4 Dick
5.142
id name
5.143
1 1 Alice
5.144
2 2 Bob
5.145
3 3 Charles
5.146
4 4 Dick
5.147
id name age
5.148
1 1 Alice 10
5.149
2 2 Bob 20
5.150
id name
5.151
1 3 Charles
5.152
2 4 Dick
5.153
id name age
5.154
1 1 Alice 10
5.155
2 2 Bob 20
5.156
3 3 Charles NA
5.157
4 4 Dick NA
6
その他のRの概念
6.1
概要
7
Rを用いたデータの前処理
7.1
概要
7.2
前処理とは何か
7.3
tidyverseについて
7.3.1
tidyverse とは?
7.3.2
パイプ演算子
%>%
について
7.3.3
補足:第一引数を書く時と書かない時
7.3.4
計算結果を変数に保存する
7.3.5
関数の所属を明記する
::
演算子
7.4
データの入出力
7.4.1
CSVファイルの読み書き:
read_csv()
と
write_csv()
7.4.2
データの読み込み:
read_csv()
7.4.3
データの書き出し:
write_csv()
7.4.4
Rオブジェクトの保存と読み込み:
read_rds()
と
write_rds()
7.5
データの統合
7.5.1
複数ファイルの統合(縦方向)
7.5.2
複数ファイルの統合(横方向)
7.6
データの値の調整
7.6.1
欠損値の正しい記録
7.6.2
文字列処理
7.6.3
データ型の設定
7.6.4
有効数字の統制
7.7
データの構造を整える
7.7.1
新たな変数の作成
7.7.2
条件分岐による変数作成(ビニング)
7.7.3
データの記録形式と整然データ
8
図の作成
8.1
概要
8.2
はじめに
8.3
データセット
8.4
id gender education_level score
8.5
1 1 male school 5.51
8.6
2 2 male school 5.65
8.7
3 3 male school 5.07
8.8
[1] “male” “female”
8.9
[1] “school” “college” “university”
8.10
youtube facebook newspaper sales
8.11
1 276.12 45.36 83.04 26.52
8.12
2 53.40 47.16 54.12 12.48
8.13
3 20.64 55.08 83.16 11.16
8.14
graphics による作図
8.14.1
plot 関数
8.14.2
図の種類の変更
8.14.3
図のスタイルの変更
8.14.4
表示設定の変更
8.14.5
タイトルと軸ラベルの変更
8.14.6
まとめ
8.14.7
ヒストグラム
8.15
ggplot2 パッケージによる作図
8.16
棒グラフ
8.16.1
最小限の要素のみ
8.16.2
装飾を加えた例
8.16.3
発表用
8.17
折れ線グラフ
8.17.1
最小限の要素のみ
8.17.2
発表用
8.18
箱ひげ図
8.18.1
最小限の要素のみ
8.18.2
発表用
8.19
ヒストグラム
8.19.1
最小限の要素のみ
8.19.2
発表用
8.20
散布図
8.20.1
最小限の要素のみ
8.20.2
発表用
9
基本的な統計分析
9.1
概要
9.2
データセット
9.3
id gender education_level score
9.4
1 1 male school 5.51
9.5
2 2 male school 5.65
9.6
3 3 male school 5.07
9.7
[1] “male” “female”
9.8
[1] “school” “college” “university”
9.9
youtube facebook newspaper sales
9.10
1 276.12 45.36 83.04 26.52
9.11
2 53.40 47.16 54.12 12.48
9.12
3 20.64 55.08 83.16 11.16
9.13
[1] 58
9.14
[1] 403.87
9.15
[1] 6.963276
9.16
[1] 6.38
9.17
0% 25% 50% 75% 100%
9.18
4.780 5.800 6.380 8.515 10.000
9.19
[1] 4.78
9.20
[1] 10
9.21
[1] 4.78 10.00
9.22
[1] 2.357822
9.23
[1] 1.53552
9.23.1
様々な統計料をまとめて計算する
9.24
Min. 1st Qu. Median Mean 3rd Qu. Max.
9.25
4.780 5.800 6.380 6.963 8.515 10.000
9.26
Min. 1st Qu. Median Mean 3rd Qu. Max.
9.27
4.780 5.800 6.380 6.963 8.515 10.000
9.28
1st Qu.
9.29
5.8
9.30
youtube facebook newspaper sales
9.31
nbr.val 2.000000e+02 2.000000e+02 2.000000e+02 2.000000e+02
9.32
nbr.null 0.000000e+00 1.000000e+00 0.000000e+00 0.000000e+00
9.33
nbr.na 0.000000e+00 0.000000e+00 0.000000e+00 0.000000e+00
9.34
min 8.400000e-01 0.000000e+00 3.600000e-01 1.920000e+00
9.35
max 3.556800e+02 5.952000e+01 1.368000e+02 3.240000e+01
9.36
range 3.548400e+02 5.952000e+01 1.364400e+02 3.048000e+01
9.37
sum 3.529020e+04 5.583360e+03 7.332960e+03 3.365400e+03
9.38
median 1.797000e+02 2.748000e+01 3.090000e+01 1.548000e+01
9.39
mean 1.764510e+02 2.791680e+01 3.666480e+01 1.682700e+01
9.40
SE.mean 7.284974e+00 1.259794e+00 1.847977e+00 4.427159e-01
9.41
CI.mean.0.95 1.436565e+01 2.484258e+00 3.644131e+00 8.730165e-01
9.42
var 1.061417e+04 3.174159e+02 6.830040e+02 3.919947e+01
9.43
std.dev 1.030251e+02 1.781617e+01 2.613435e+01 6.260948e+00
9.44
coef.var 5.838736e-01 6.381882e-01 7.127912e-01 3.720775e-01
9.45
skewness -6.880905e-02 9.276672e-02 8.813443e-01 4.014782e-01
9.46
skew.2SE -2.001138e-01 2.697887e-01 2.563168e+00 1.167598e+00
9.47
kurtosis -1.243594e+00 -1.276329e+00 5.675817e-01 -4.542196e-01
9.48
kurt.2SE -1.817044e+00 -1.864874e+00 8.293070e-01 -6.636709e-01
9.49
normtest.W 9.495094e-01 9.440052e-01 9.364005e-01 9.760262e-01
9.50
normtest.p 1.692691e-06 5.197568e-07 1.127322e-07 1.682856e-03
9.51
t 検定
9.52
9.53
Welch Two Sample t-test
9.54
9.55
data: score by gender
9.56
t = 0.47084, df = 49.769, p-value = 0.6398
9.57
alternative hypothesis: true difference in means between group male and group female is not equal to 0
9.58
95 percent confidence interval:
9.59
-0.6311159 1.0175445
9.60
sample estimates:
9.61
mean in group male mean in group female
9.62
7.063214 6.870000
9.63
9.64
Welch Two Sample t-test
9.65
9.66
data: male and female
9.67
t = 0.47084, df = 49.769, p-value = 0.6398
9.68
alternative hypothesis: true difference in means is not equal to 0
9.69
95 percent confidence interval:
9.70
-0.6311159 1.0175445
9.71
sample estimates:
9.72
mean of x mean of y
9.73
7.063214 6.870000
9.74
[1] 0.7822244
9.75
[1] 0.8006144
9.76
Call:corr.test(x = mkt)
9.77
Correlation matrix
9.78
youtube facebook newspaper sales
9.79
youtube 1.00 0.05 0.06 0.78
9.80
facebook 0.05 1.00 0.35 0.58
9.81
newspaper 0.06 0.35 1.00 0.23
9.82
sales 0.78 0.58 0.23 1.00
9.83
Sample Size
9.84
[1] 200
9.85
Probability values (Entries above the diagonal are adjusted for multiple tests.)
9.86
youtube facebook newspaper sales
9.87
youtube 0.00 0.85 0.85 0
9.88
facebook 0.44 0.00 0.00 0
9.89
newspaper 0.43 0.00 0.00 0
9.90
sales 0.00 0.00 0.00 0
9.91
9.92
To see confidence intervals of the correlations, print with the short=FALSE option
9.93
[1] “r” “n” “t” “p” “p.adj” “se” “sef” “adjust”
9.94
[9] “sym” “ci” “ci2” “ci.adj” “stars” “Call”
9.95
lower r upper p
9.96
youtb-facbk -0.08457548 0.05480866 0.1920890 4.408061e-01
9.97
youtb-nwspp -0.08274345 0.05664787 0.1938652 4.256018e-01
9.98
youtb-sales 0.72182010 0.78222442 0.8308014 1.467390e-42
9.99
facbk-nwspp 0.22648989 0.35410375 0.4697658 2.688835e-07
9.100
facbk-sales 0.47549537 0.57622257 0.6620366 4.354966e-19
9.101
nwspp-sales 0.09248750 0.22829903 0.3557712 1.148196e-03
9.101.1
相関関係の可視化
10
回帰分析
10.1
概要
10.2
データセット
10.3
youtube facebook newspaper sales
10.4
1 276.12 45.36 83.04 26.52
10.5
2 53.40 47.16 54.12 12.48
10.6
3 20.64 55.08 83.16 11.16
10.7
多項式回帰
10.8
car パッケージを利用した回帰直線の作図
10.9
重回帰
10.10
回帰の診断方法
10.10.1
正規性(Normality)
10.10.2
独立性(Independence)
10.11
lag Autocorrelation D-W Statistic p-value
10.12
1 -0.04687792 2.083648 0.506
10.13
Alternative hypothesis: rho != 0
10.14
Non-constant Variance Score Test
10.15
Variance formula: ~ fitted.values
10.16
Chisquare = 5.355982, Df = 1, p = 0.020651
10.17
10.18
Suggested power transformation: 1.499852
10.19
多重共線性(Multicollinearity)
10.20
異常値
10.20.1
外れ値(Outliers)
10.20.2
高レバレッジ点(High Leverage Point)
10.20.3
影響値(Influential observations)
10.21
対処方法
10.21.1
データの除外
10.21.2
変数変換
10.22
bcPower Transformation to Normality
10.23
Est Power Rounded Pwr Wald Lwr Bnd Wald Upr Bnd
10.24
mkt$sales 0.5779 0.5 0.3037 0.8521
10.25
10.26
Likelihood ratio test that transformation parameter is equal to 0
10.27
(log transformation)
10.28
LRT df pval
10.29
LR test, lambda = (0) 20.53486 1 5.8555e-06
10.30
10.31
Likelihood ratio test that no transformation is needed
10.32
LRT df pval
10.33
LR test, lambda = (1) 8.159602 1 0.0042834
10.33.1
変数の追加または削除
10.33.2
異なる分析方法を用いる
10.34
ベストな回帰モデルを選ぶ
10.34.1
AIC を用いた変数選択
10.35
Start: AIC=240.43
10.36
sales ~ youtube + facebook + newspaper
10.37
10.38
Df Sum of Sq RSS AIC
10.39
- newspaper 1 0.5 640.9 238.58
10.40
640.5 240.43
10.41
- facebook 1 2082.9 2723.4 525.03
10.42
- youtube 1 3985.9 4626.3 629.95
10.43
10.44
Step: AIC=238.58
10.45
sales ~ youtube + facebook
10.46
10.47
Df Sum of Sq RSS AIC
10.48
640.9 238.58
10.49
- facebook 1 2342.7 2983.6 541.10
10.50
- youtube 1 3989.0 4629.9 628.10
10.51
10.52
Call:
10.53
lm(formula = sales ~ youtube + facebook, data = mkt[-c(6, 131),
10.54
])
10.55
10.56
Coefficients:
10.57
(Intercept) youtube facebook
10.58
3.66229 0.04422 0.19529
10.59
交差検証(Cross validation)
10.60
標準化回帰係数
10.61
相対的重みづけ分析
10.62
練習問題
10.62.1
データについて
10.62.2
データの読み込み
10.62.3
分析したいこと
10.62.4
分析
11
因子分析
11.1
概要
11.2
パッケージとデータセット
11.3
[1] 2800 28
11.4
A1 A2 A3 A4 A5 C1 C2 C3 C4 C5 E1 E2 E3 E4 E5 N1 N2 N3 N4 N5 O1 O2 O3 O4
11.5
61617 2 4 3 4 4 2 3 3 4 4 3 3 3 4 4 3 4 2 2 3 3 6 3 4
11.6
61618 2 4 5 2 5 5 4 4 3 4 1 1 6 4 3 3 3 3 5 5 4 2 4 3
11.7
61620 5 4 5 4 4 4 5 4 2 5 2 4 4 4 5 4 5 4 2 3 4 2 5 5
11.8
O5 gender education age
11.9
61617 3 1 NA 16
11.10
61618 3 2 NA 18
11.11
61620 2 2 NA 17
11.12
Kaiser-Meyer-Olkin factor adequacy
11.13
Call: KMO(r = dat)
11.14
Overall MSA = 0.85
11.15
MSA for each item =
11.16
A1 A2 A3 A4 A5 C1 C2 C3 C4 C5 E1 E2 E3 E4 E5 N1
11.17
0.74 0.84 0.87 0.87 0.90 0.83 0.79 0.85 0.82 0.86 0.83 0.88 0.89 0.87 0.89 0.78
11.18
N2 N3 N4 N5 O1 O2 O3 O4 O5
11.19
0.78 0.86 0.88 0.86 0.85 0.78 0.84 0.76 0.76
11.19.1
最終的な判断
11.20
因子負荷の推定
11.20.1
因子負荷の可視化
11.20.2
因子数を 6 とした場合の分析
11.21
因子軸の回転
11.22
因子の解釈
11.23
練習問題
11.23.1
データ
11.23.2
データの読み込み
11.23.3
分析作業
11.23.4
解答例
12
テスト課題
回帰分析
データについて
分析すること
解答例
分析手続き
因子分析
データについて
データの前処理
分析すること
解答例
分析手続き
キーボードのsキーを押すとメニューのオンオフができます
Rによる統計入門
6
その他のRの概念
6.1
概要