背景

在许多领域的研究与应用中,往往需要对反映事物的多个变量进行大量的观测,收集大量数据以便进行分析寻找规律。多变量大样本无疑会为研究和应用提供了丰富的信息,但也在一定程度上增加了数据采集的工作量,更重要的是在多数情况下,许多变量之间可能存在相关性,从而增加了问题分析的复杂性,同时对分析带来不便。如果分别对每个指标进行分析,分析往往是孤立的,而不是综合的。盲目减少指标会损失很多信息,容易产生错误的结论。

因此需要找到一个合理的方法,在减少需要分析的指标同时,尽量减少原指标包含信息的损失,以达到对所收集数据进行全面分析的目的。由于各变量间存在一定的相关关系,因此有可能用较少的综合指标分别综合存在于各变量中的各类信息。主成分分析与因子分析就属于这类降维的方法。

阅读全文 »

机器学习

对机器学习的学习我开始于二年级的《数据挖掘》课,当时袁老师对数据挖掘中的常用的算法做了一些介绍,但是这仅仅是个入门教学,我并没有深入了解的其中的原理。到现在我才深刻的意识到ML的重要性,我就抽空看了一些这方面的资料,整理了这一份文档。

阅读全文 »