R语言入门笔记三

北京最好治疗白癜风 http://www.baidianfeng51.cn/m/

目录大纲

数据存储及预处理(1)读取csv文件(2)数据处理常用函数(3)数据的基本统计分析

主要内容

数据存储及预处理

(1)读取csv文件

##读取csv数据data-read.csv("data.csv",header=TRUE)#数据维度dim(data)#[1]#数据结构str(data)#前2行数据head(data,2)#AB#11-10#22-9#访问列dataAdataB#直接使用列名访问attach(data)AB#解除attach的作用detach(data)#描述性统计summary(data)#重新命名列names(data)-c("stockA","stockB")names(data)#[1]"stockA""stockB"#把数据保存到新文件中write.csv(data,file="newdata.csv")

(2)数据处理常用函数

#(2.1)数据切割函数split()data-data.frame(year=c("","",""),name=c(rep("小王",3),rep("小毛",3)),age=c(24,25,26,12,13,14))data#yearnameage#1小王24#2小王25#3小王26#4小毛12#5小毛13#6小毛14#根据name把score提取出来split(dataage,dataname)#小毛#[1]##小王#[1]data[which(dataname=="小王"),]#yearnameage#1小王24#2小王25#3小王26#(2.2)批量处理函数apply()家族#1.apply()data-matrix(1:9,nrow=3)data#[,1][,2][,3]#[1,]#[2,]#[3,]#计算每行的平均数apply(data,1,mean)#[1]#计算某一行的平均数apply(data[1,],1,mean)#会报错,因为apply()是针对数据框或者矩阵形态的数值数据进行计算#apply要求dim(X)的值必需是正数,而dim(data[1,])为NULLmean(data[1,])#[1]4#计算第1,2列的列和apply(data[,1:2],2,sum)#[1]#自定义函数apply(data,2,function(x){x[x6]})#[[1]]#integer(0)##[[2]]#integer(0)##[[3]]#[1]#2.lapply(),l表示list,lapply()是针对列表数据的计算函数data1-rnorm(10,0,1)data2-seq(1,10,1)data-list(data1,data2)#计算列表每个成分的均值lapply(data,mean)#[[1]]#[1]-0.##[[2]]#[1]5.5#3.sapply()的结果以向量形式存储,lapply()的结果以list形式存储sapply(data,mean)#[1]-0.13342.#4.tapply()中的t是指table表data-data.frame(year=c("","",""),name=c(rep("小王",3),rep("小毛",3)),age=c(24,25,26,12,13,14))tapply(dataage,dataname,mean)#分组求均值#小毛小王#by(dataage,dataname,mean)#dataname:小毛#[1]13#-------------------------------------------------------------------------------#dataname:小王#[1]25

(3)数据的基本统计分析

#对数据进行描述性统计options(digits=4)#设置4位小数library(fBasics)data-data.frame(name=c("小王","小毛","小易"),age=c(21,22,23),wage=c(,,))data#nameagewage#1小王21#2小毛22#3小易23dat-data[2:3]basicStats(dat)#agewage#nobs3..#NAs0.00.#Minimum21.0.#Maximum23.0.#1.Quartile21.5.#3.Quartile22.5.#Mean22.0.#Median22.0.#Sum66.30.#SEMean0..#LCLMean19..#UCLMean24..#Variance1.0.#Stdev1.010.#Skewness0.00.#Kurtosis-2.-2.#LCLmean和UCLmean是在0.95置信水平下计算的变量均值的下界和上界summary(dat)#agewage#Min.:21.0Min.:#1stQu.:21.51stQu.:#Median:22.0Median:#Mean:22.0Mean:#3rdQu.:22.53rdQu.:#Max.:23.0Max.:#相关性检验,检验两组数据的相关系数是否显著异于0correlationTest(dat[,1],dat[,2],method=c("pearson"))

参考文献:

《R语言教程》.李东风.北京大学.-12

《经济与金融计量方法:原理、应用案例及R语言实现》.何宗武、马卫锋.机械工业出版社.-7

预览时标签不可点收录于话题#个上一篇下一篇



转载请注明地址:http://www.sanbaicaoasb.com/scgx/8425.html
  • 上一篇文章:
  • 下一篇文章:
  • 热点文章

    • 没有热点文章

    推荐文章

    • 没有推荐文章