Rで統計処理 ~ 基本統計量 ~

数値の代入

数値を変数に代入するにはハイフンと大小記号を使って矢印を作ります。以下ではxに2を代入しています。xの中身を表示するにはxと入力してEnterを押下します。

x <- 2
plot(xy)

ベクトルの代入

また、Rではベクトルを代入することができます。c()という関数を使います。以下ではvにベクトル(2,2,3,4)を代入しています。vの中身を表示するにはvと入力してEnterを押下します。

v <- c(2,2,3,4)

ベクトル中の指定番目の要素を取り出すには以下のようにします。

v <- c(2,2,3,4)
v[2]

さらに、ベクトルどうしを結合することもできます。

x <- c(1, 2, 3);  y <- c(4, 5, 6);  z <- c(7, 8, 9)
v <- c(x, y, z)

データフレームの作成

データを表の形式で変数に保持することができます。特定の列を取り出すには$演算子を使います。

x <- c(1, 2, 3);  y <- c(4, 5, 6)
f <- data.frame(X=x,Y=y)
f$X

CSVファイルの読み込み

read.csv()メソッドでCSVファイルを読み込みます。

f <- read.csv("csvfile.csv")
f$X

基本統計量とは

基本統計量とはデータの基本的な特性を表すものです。平均、最大値、最小値、中央値、分散、標準偏差などがあります。このページで使用するデータとして、まず、以下の仮想的なデータを代入し、散布図を書いてみましょう。

x <- c(2,2,3,4,5,6,6,6,6,7,8,9)
y <- c(8,7,7,5,8,5,4,3,4,3,2,1)
plot(x,y)

関数を使って基本統計量を計算する

Rでは基本統計量を計算する関数がすでに用意されています。以下では順に、平均、最大値、最小値、中央値、分散、標準偏差を求める関数です。分散は不偏分散を計算しているので、標本分散は(N-1)/Nをかけると求められます。

mean(x)
max(x)
min(x)
median(x)
var(x)
sd(x)

共分散と相関係数の計算

これらについても計算する関数がすでに用意されています。以下では順に、共分散と相関係数を求める関数を使っています。

var(x,y)
cor(x,y)