购物站 加入收藏  -  设为首页
您的位置:购物站 > 新零售 > 正文
主成分分析PCA
主成分分析PCA
提示:

主成分分析PCA

先放一张PCA图 主成分分析(Principal Component Analysis) 是不是听起来就一脸懵,下面就让我们来看看PCA是何方神圣! 01 降维? 主成分分析的字面意思就是用主成分来分析数据呗!阔是,什么是主成分?这就不得不聊一个关于“降维”的故事了。 “学医要考研,考研要复试,复试要…要…要…复试不仅让考生心痛更让导师眼花缭乱。”这不,A导就纠结着到底选5个复试学生里的哪一个来当自己的关门弟子? A导最终决定用数据说话!设置了“绩点,考研分数,科研能力,笔试成绩,面试表现,英语水平,奖学金,学科竞赛,部门任职”9个指标(相当于从9个维度去评价这5位考生)。 9个指标=9个变量=9个维度 我的三维大脑是搞不定的 看来9维是不行了,那怎么把维度降低,用简单的方法表示复杂的数据分析? 当然是用降维了!降维是通过减少数据中的指标(或变量)以化简数据的过程。这里的减少指标,并不是随意加减,而是用复杂的数理知识,得到几个 “综合指标” 来代表整个数据。 PS:降维的原理涉及复杂数理知识且大多由计算机完成 那么问题来了!这个“综合指标”是什么?为什么它们就可以代表整个数据? 02 Why 主成分? 综合指标=主成分 你没有看错,这个综合指标就是我们今天的重点:主成分。它不是原来的指标中的任何一个,而是由所有原有指标数据线性组合而来。 比如A导的故事中的主成分就可这样表示: 认识了“主成分”以后,PCA的概念就很容易理解了! PCA——就是以“降维”为核心,把多指标的数据用少数几个综合指标(主成分)替代,还原数据最本质特征的数据处理方式。 可是, 主成分为什么拽到可以代替所有数据? 认真看看可以发现 部分指标其实是相互关联的! (比如奖学金也可以反映绩点情况),这就会造成 数据冗余。 而降维就可以帮助我们 去除这些指标中重叠、多余的信息,把数据最本质和关键的信息提取出来。 A导终于可以一眼就区分这5位考生的水平并“理智”地做出选择了! 将学生成绩表示为矩阵形式,一行代表一个学生,每一列代表一门课的成绩 假设找到了一个线性组合(命名为特征矩阵(Yn, k)),其中k<n 得到一组新变量Pm, k = Xm, n Yn, k,并且新变量的协方差矩阵(Dm, m)为对角阵。 设我们有m个n维数据记录,将其按列排成n乘m的矩阵X,设 优化目标变成了寻找一个矩阵Y,满足YTCY是一个对角矩阵,并且对角元素按从大到小依次排列,那么Y的前K列就是要寻找的基,用Y的前K列组成的矩阵乘以X就使得X从M维降到了K维并满足上述优化条件。 A导可是只有5位考生,9个指标而已!在我们医学中!那可是上千的样本量,上万的基因数据...... 在医学领域中,我们可以用PCA图来进行 疾病危险因素分析,肠道菌群聚类分析,推断肿瘤亚群之间的进化关系......还用它来观察样本的分组、趋势、剔除异常数据。 所以PCA图在文献中出现率还是蛮高的!!!不过遇到它我们怎么看? 深入了解PCA 识图秘籍 样本点连线 距离长 =样本之间差异性大 样本点连线 距离短 =样本之间差异性小 1、各样本点连线的距离:体现各国家蛋白摄入习惯的相似性。 2、主成分与原变量之间的关系:箭头对应的原始变量在投影到水平和垂直方向上后的值,可以分别体现该变量与PC1和PC2的相关性(正负相关性及其大小)(例如,Eggs对PC1具有较大的贡献,而Nuts则与PC1之间呈较大的负相关性)。 3、样本点和箭头之间的距离:反映样本与原始变量的关系。(对于图中用蓝色粗箭头所指的样本点而言,该国的蛋白质来源主要为Fruits and Vegetables)。 怎么样?有没有一种豁然开朗的感觉? 什么?还是懵? 没关系,继续看例子

主成分分析(PCA)
提示:

主成分分析(PCA)

主成分分析(PCA)是一种常用的无监督学习方法,这一方法利用正交变换把由现行相关变量表示的观测数据转化为少数几个由线性无关变量表示的数据,线性无关的变量称为主成分。主成分的个数通常小于原始变量的个数,所以主成分分析属于姜维方法。主成分分析主要用于发现数据中的基本结构,即数据中变量之间的关系,是数据分析的有力工具,也用于其他机器学习方法的前处理。 统计分析比中,数据的变量之间可能存在相关性,以致增加了分析的难度。于是,考虑由少数几个不相关的变量来代替相关的变量,用来表示数据,并且要求能够保留数据中的不部分信息。 主成分分析中,首先对给定数据进行规范化,使得数据每一变量的平均值为0,方差为1,。之后对数据进行正交变换,用来由线性相关表示的数据,通过正交变换变成若干个线性无关的新变量表示的数据。新变量是可能的正交变换中变量的方差和(信息保存)最大的,方差表示在新变量上信息的大小。将新变量一次成为第一主成分,第二主成分等。通过主成分分析,可以利用主成分近似地表示原始数据,这可理解为发现数据的“基本结构”;也可以把数据由少数主成分表示,这可理解为对数据降维。 方差最大的解释。假设有两个变量 ,三个样本点A,B,C。样本分布在由 轴组成的坐标系中,对坐标系进行旋转变换,得到新的坐标轴 ,表示新的变量 。坐标值的平方和 表示样本在变量 上的方差和。主成分分析旨在选取正交变换中方差最大的变量,作为第一主成分,也是是旋转变换中坐标值的平方和最大的轴。注意到旋转变换中变换中样本点到原点距离的平方和 不变,根据勾股定理,坐标值的平方和最大 等价于样本点到 轴的距离平方和 最小。所以,等价地,主成分分析在旋转变换中选取离样本点的距离的平方和最小的轴,作为第一主成分。第二主成分等的选取,在保证与已有坐标轴正交的条件下,类似地进行 假设 是m维随机变量,其均值是 , 协方差矩阵是 考虑到m维随机变量 到m维随机变量 的线性变换 其中 由随机变量的性质可知 总体主成分的定义 给定式(1)所示的线性变换,如果他们满足下列条件 设 是m维随机变量, 是 的协方差矩阵, 的特征值分别是 ,特征值对应的单位特征向量分别是 ,则 的第k主成分是 的第k主成分的方差是 即协方差矩阵 的第k个特征值 首先求 的第一主成分 ,即求系数向量 。第一主成分的 是在 的条件下, 的所有线性变换中使方差达到最大的 求第一主成分就是求解最优化问题 定义拉格朗日函数 其中 是拉格朗日乘子,将拉格朗日函数对 求导,并令其为0,得 因此 是 的特征值, 是对应的单位特征向量。于是目标函数 假设 是 的最大特征值 对应的单位特征向量,显然 与 是最优化问题的解,所以, 构成第一主成分,其方差等于协方差矩阵的最大特征值 接着求 的第二主成分 ,第二主成分的 是在 且 与 不相关条件下, 的所有线性变换中使达到最大 求第二主成分需参求解约束最优化问题 定义拉格朗日函数 其中 对应拉格朗日乘子。对 求偏导,并令其为0,得 将方程左则乘以 有 此式前两项为0,且 ,导出 ,因此式成为 由此, 是 的特征值, 是对应的特征向量,于是目标函数为 假设 是 的第二大特征值 的特征向量,显然 是以上最优化问题的解。于是 构成第二主成分,其方差等于协方差矩阵的第二大特征值, 按照上述方法可以求得第一、第二、直到第m个主成分,其系数向量 分别是 的第一、第二、直到m个单位特征向量, 分别是对应的特征值。并且,第k主成分的方差等于 的第k个特征值。 主成分分析的主要目的是降维,所以一般选择 个主成分(线性无观变量),使问题得以简化,并能保留原有变量的大部分信息。这里所说的信息是指原有信息的方差。 对任意正整数 ,考虑正交线性变换 其中 是q的维向量, 是q*m维矩阵,令 的协方差矩阵为 则 的迹 在 时取最大值,其中矩阵 是由正交矩阵A的前q列组成。 这表明,当 的线性变换 在 时,其协方差矩阵 的迹 取得最大值。也就是说,当A取前 的前q个主成分时,能够最大限度地保留原有变量方差的信息。 以上作为选择k个主成分的理论依据。具体选择k的方法,通常利用方差贡献率。 第k主成分 的方差贡献率定义为 的方差与所有方差之和的比记作 k个主成分 的累计方差贡献率定义为k个方差之和和所有方差之和的比 通常取k使得累计方差贡献率达到规定的百分比以上,例如70%~80%。累计方差贡献率反映了主成分保留信息的比例,但它不能反映对某个原有变量 保留信息的比例,这时通常利用k个主成分 对原有变量 的贡献率。 k个主成分 对原有变量 的贡献率为 , 的相关系数的平方,记作 计算公式如下: 其中, 是随机变量 的方差,即协方差矩阵 的对角元素。 在实际问题中,不同变量可能有不同的量纲,直接求主成分有时会产生不合理的结果,为了消除这个影响,常常对各个随机变量实施规范化,使其均值为0,方差为1 设 为随机变量, 为第i个随机变量, ,令 其中, 分布是随机变量 的均值和方差,这时 就是 的规范化随机变量。 在实际问题中,需要在观测数据上进行主成分分析,这就是样本主成分分析。样本主成分也和总体主成分具体相同的性质。 使用样本主成分时,一般假设样本数据是规范化的,即对样本矩阵如下操作: 其中 样本协方差矩阵S是中体协方差矩阵 的无偏估计,样本相关矩阵R是总体相关矩阵的无偏估计,S的特征值和特征向量 的特征值和特征向量的无偏估计。 传统的主成分分析通过数据的协方差矩阵或相关矩阵的特征值分解进行,现在常用的方法是通过数据矩阵的奇异值分解进行。下面介绍数据的协方差矩阵或相关矩阵的分解方法 给定样本矩阵 ,利用数据的样本的协方差矩阵或样本相关矩阵的特征值分解进行主成分分析 给定样本矩阵 ,利用数据矩阵奇异值分解进行主成分分析,这里没有假设k个主成分 对于 维实矩阵A,假设其秩为r, ,则可将矩阵A进行截断奇异值分解 式 是 矩阵, 是k阶对角矩阵, 分别由取A的完全奇异分解的矩阵U,V的前k列, 由完全奇异分解的矩阵 的前k个对角元素得到 定义一个新的 矩阵 的每一列均值为0, 即 等于X的协方差矩阵 主成分分析归结于求协方差矩阵 的特征值和对应的单位特征向量。 假设 的截断奇异值分解为 ,那么V 的列向量就是 的单位向量,因此V的列向量就是X的主成分。于是X求X的主成分可以通过 的奇异值来实现

单片机PCA是什么意思
提示:

单片机PCA是什么意思

单片机PCA的意思是可编程计数器阵列。PCA由5个16位的捕获/比较模块与之相连,由高字节(PCA0H)和低字节(PCA0L)组成。 在读PCA0L 的同时自动锁存PCA0H 的值,先读PCA0L 寄存器将使PCA0H 的值得到保持(在读PCA0L 的同时),直到用户读PCA0H 寄存器为止。 扩展资料 计数/定时器溢出时,PCA0MD中的计数器溢出标志(CF)被置为1,并产生中断请求(如果CF 中断被允许)。 将PCA0MD 中ECF 位设置为逻辑1 即可允许CF 标志产生中断请求。当CPU 转向中断服务程序时,CF 位不能被硬件自动清除,必须用软件清0。 要使CF 中断得到响应,必须先总体允许PCA0 中断。通过将EA 位(IE.7 )和EPCA0 (EIE1.3 )设置为逻辑1 来总体允许PCA0 中断。清除PCA0MD寄存器中的CIDL 位将允许PCA 在微控制器内核处于等待方式时继续正常工作。 参考资料来源:百度百科-pca