Machine Learning on Spark——第四节 统计基础(二)

  • 时间:
  • 浏览:2

但嘴笨 从他们歌词 观察的数据来看,它们应该是淬硬层 相关的,嘴笨 0.69也一定程度地反应了数据间的相关性,但表达力仍然不足,为此都都能不能能引入Spearman相关系数(参见http://www.380doc.com/content/08/1228/23/80235_2219531.shtml),如表中的第四、第五列数据,通过将成绩和产量替换成等级,那它们之间的相关度会明显提高,原来 语录表达能力更强,如下列代码所示:

协方差都都能不能能将数据扩展到二维,对于n维数据,就还要计算



个协方差,此时自然而然地将其组织为协方差矩阵,类式5个 多多三维变量x,y,z构成的协方差矩阵具有如下形式:



从中间的图都都能不能能看得人:协方差矩阵是5个 多多对称的矩阵,但会 对角线是各个维度的方差。皮尔逊(Pearson)相关系数通过协方差矩阵便可得到。PearsonCorrelation在Spark中是私有成员,不都都能不能直接访问,使用时仍然是通过Statistics对象进行

本小节使用spark自带的README.md文件进行相应的演示操作

作者:周志湖

微信号:zhouzhihubeyond

相关性分析用于研究5个 多多随机变量之间的依赖关系,它是统计学当中的类式十分重要的最好的方式,在Spark中只实现了类式相关性分析最好的方式,分别是皮尔逊(Pearson)与斯皮尔曼(Spearman)相关性分析最好的方式,具体可参见。皮尔逊(Pearson)相关系数(具体参见:https://en.wikipedia.org/wiki/Correlation_coefficient)定义如下:



其中,协方差有如下定义形式:



方差具有如下定义形式:



标准差具有如下定义形式:



上述公式中的方差、标准差不都都能不能用来描述一维数据,协方差的意义在于其不不都都能不能描述多维数据,可能性结果为正值,则说明两者是正相关的,为负值则为负相关,值为0,则表示两者不相关,从上述几次公式的定义都都能不能能推出下列公式:



从中间的执行结果来看,相关性从pearson的值0.6915716800436548提高到了0.9428571428571412。可能性利用的等级相关,因而spearman相关性分析也称为spearman等级相关分析或等级差数法,但还要注意的是spearman相关性分析最好的方式涉及到等级的排序难题报告 ,在分布式环境下的排序可能性会涉及到极少量的网络IO操作,算法效率有的是一阵一阵高。

假设某工厂通过随机抽样得到考试成绩与产量之间的关系数据如下:



直观地看,成绩越高产量越高,可能性使用pearson相关系数,将得到如下结果: