我们正处于一个信息大暴发的时代,每天都能产生数以百万计的新闻资讯!
虽然有大数据推荐,但面对海量数据,通过我们的调研发现,在一个小时的时间里,您通常无法真正有效地获取您感兴趣的资讯!
头条新闻资讯订阅,旨在帮助您收集感兴趣的资讯内容,并且在第一时间通知到您。可以有效节约您获取资讯的时间,避免错过一些关键信息。
变量在R中也有不同的类型,我们需要区分数字与字符串,表格与简单的数字列表等不同类型。class函数可以帮助我们确定对象的类型,例如,将a赋值为2,再通过class函数查看a的类型,返回的是numeric(数字型);再比如,通过class函数查看函数ls的类型,返回的是function(函数型)。

01数据框(DataFrames)
除了我们常用到的变量和函数,在R中最为常见的存储数据集的方式是数据框(dataframes)。从概念上来说,我们可将dataframes视为表(tables),其中的行表示观测值(observations),列则是观测值对应的不同变量。
我们可以将不同的数据类型组合成一个对象,因此dataframe对于数据集特别有用。大部分数据分析挑战都是从存储在数据框中的数据开始的。例如,我们可以通过library函数加载dslabs包,再通过data函数获取在dslabs中的数据集;与此同时,我们可以通过class函数查看数据集的类型(应为dataframe)。

如上图所示,我们已加载了一个名为“murders”的数据集或dataframe,作为一个对象,该dataframe具体是什么,有什么样的数据呢?
首先,通过str函数,我们可查看对象(object)的结构,如下:

通过str函数返回的信息,我们可以看到murders数据集有51个观测值和5个变量,并且5个变量的名称分别都列出来了,以符号“$”开始的state、abb、region、population、total。
我们还可通过head函数来查看数据集的前6行数据信息:

02访问数据(Accessingdata)
我们已经通过一些操作获取到所需的数据集,如何来访问其中的数据,或使用其中的数据呢?
就当前的示例而言,我们主要会访问数据集中的不同变量,或者说数据表的不同列,在此会用到存取器$,如下:

以上代码可返回murders数据集中region这一列的数据。在返回的结果中数据条目前用数字“[1]、[4]、[7]……”标注了顺序,此顺序即为数据条目在数据集中的数据顺序。
上面通过str函数可知道数据集有哪些列,另外一个函数可快速获取数据集的列名是names:

03向量(Vectors)
我们把“murders$region”作为对象来看的,此对象并不是单个数字,而是有许多个数据信息组成,我们将这些称之为向量(vector)。
单个的数字(视为一个对象)可说是一个向量,其大小为1;将pop定义为murders$population对象,用length函数查看pop,是一个大小为51的向量,且类型为数字型:

既然有数字型的向量,自然也会有其他类型的向量,因数据集不仅可存储数字型数据,也会有字符型数据等其他类型的数据。

数字型向量中每个数据条目一定是数字,而字符型向量中的所有数据条目则必是字符。
另一向量类型是因子(factors),用于存储分类数据,在murders数据集中,region便是factor类型的向量。这些地区“regions”是按照类别分的,此数据集中有四个类别,通过levels函数可查看:

这些地区名称看上去更像是字符类型,但为何要以分类数据的方式来保存,因为这种方式更具较高的内存使用效率。在R中,我们将这些分类级别存储为整数。从技术上讲,整数在内存方面比字符小。
本示例数据集中还有一个未提及的向量类型——逻辑向量(logicalvectors),如下所示,定义变量z为一个表达式“3==2”,“==”是一个关系运算符,3不等于,其结果为FALSE,因此z返回的就是“FALSE”,其类型为logical。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。
快照生成时间:2022-12-27 15:45:08
本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。
信息原文地址: