本文共 970 字,大约阅读时间需要 3 分钟。
顾名思义,特征工程就是从数据中对特征进行工程化。
特征工程就是将原数据转换为能更好的代表预测模型潜在问题的特征的过程,从而提高了对未知数据的模型准确性。
在机器学习中,任何建模技术想要获得满意的结果都需要良好的数据特征。特征对于提高模型的预测能力是非常重要的。当尝试解决现实问题时,由于特征可能存在许多问题,如缺失值、离群值、不同类型、数据收集错误等,因此并不是总是能获得理性的特征。在训练机器学习模型之前,必须进行清理、变换并找到正确的特征集。
特征提取是通过对现有特征集进行一些变换,来选择新特征以去除冗余的过程。在原始数据中,可能存在很多特征。但是,我们也可以用较少的新特征来表示所有这些特征,这成为特征提取(Feature Extraction)。新特征可以向旧特征一样准确地表示数据。进行特征提取的优点在于减少了训练数据的维数。
特征选择是从数据中选择特征子集的技术,它和特征提取不同,后者是创建新特征的过程。特征选择是从数据本身中找到有用的特征,它如此重要的原因在于以下几点:
特征选择基本上是一个搜索问题,必须找到方法来选择能产生更好结果的特征。在特征选择中使用的不同方法包括以下几种:
还有其它方法被用于特征选择,如嵌入法(Embedded Method).这些方法也可以在征)。这些方法也可以在训练特征中选择人最佳特征。
以上就是今天要讲的内容,本文仅仅简单介绍了特征工程的一些概念,下一节将会通过几个实例来展示特征数据处理的一些方法。
转载地址:http://aagki.baihongyu.com/