博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
第一章 特征工程
阅读量:3978 次
发布时间:2019-05-24

本文共 970 字,大约阅读时间需要 3 分钟。

第一章 特征工程**


文章目录


前言

顾名思义,特征工程就是从数据中对特征进行工程化。


一、什么是特征工程?

特征工程就是将原数据转换为能更好的代表预测模型潜在问题的特征的过程,从而提高了对未知数据的模型准确性。

二、为什么执行特征工程?

在机器学习中,任何建模技术想要获得满意的结果都需要良好的数据特征。特征对于提高模型的预测能力是非常重要的。当尝试解决现实问题时,由于特征可能存在许多问题,如缺失值、离群值、不同类型、数据收集错误等,因此并不是总是能获得理性的特征。在训练机器学习模型之前,必须进行清理、变换并找到正确的特征集。

三、特征提取

特征提取是通过对现有特征集进行一些变换,来选择新特征以去除冗余的过程。在原始数据中,可能存在很多特征。但是,我们也可以用较少的新特征来表示所有这些特征,这成为特征提取(Feature Extraction)。新特征可以向旧特征一样准确地表示数据。进行特征提取的优点在于减少了训练数据的维数。

三、特征选择

特征选择是从数据中选择特征子集的技术,它和特征提取不同,后者是创建新特征的过程。特征选择是从数据本身中找到有用的特征,它如此重要的原因在于以下几点:

  • 能使用较少的特征更快地生成模型
  • 易于解释和诠释特征。
  • 使模型的泛化能力更好

特征选择基本上是一个搜索问题,必须找到方法来选择能产生更好结果的特征。在特征选择中使用的不同方法包括以下几种:

  • 过滤法(Filter Method):这些方法基于一些统计测试以获得特征分数。每个特征用统计检验的结果来评价(如皮尔森相关、卡方检验等),并生成分数,随后根据特征的分数进行排名,并删除较低的分数的特征。
  • 包装法(Wrapper Method ):这些方法利用机器学习算法找到最佳特征。首先,创建不同的特征子集。然后,利用这些特征对样本数据进行机器学习算法的训练,并对模型性能进行评价 。获得最佳性能的一组被认为是选择特征。由于使用不同特征集进行实际算法训练,因此这些方法将花费更多的时间。

还有其它方法被用于特征选择,如嵌入法(Embedded Method).这些方法也可以在征)。这些方法也可以在训练特征中选择人最佳特征。

总结

以上就是今天要讲的内容,本文仅仅简单介绍了特征工程的一些概念,下一节将会通过几个实例来展示特征数据处理的一些方法。

转载地址:http://aagki.baihongyu.com/

你可能感兴趣的文章
使用朴素贝叶斯进行分本分类
查看>>
Python读写文件的方式
查看>>
K-近邻算法改进约会网站的配对效果
查看>>
快速排序算法及其优化方法
查看>>
VC++ string .........
查看>>
RoboCup2d 环境配置
查看>>
[转载]int,int32_t,int64_t
查看>>
LINUX 下 GDB 调试 ( 转载 )
查看>>
GDB 、 LINUX 下 GDB 调试 小结---->基础知识!
查看>>
Linux下静态库和动态库的创建和使用( 转载 )
查看>>
makefile:中文版最权威的makefile文档( 转载 )
查看>>
linux 编译警告:检测到时钟错误。您的创建可能是不完整的。
查看>>
Linux目录结构(Linux文件系统结构)( 转载 )
查看>>
ubuntu 必要软件 ( 转载 )
查看>>
linux sed 流编辑器的一些应用实例
查看>>
sed 流编辑器的特殊应用( 转载 )
查看>>
Linux 进程通信(System V) 第一节 ------> 管道 pipe
查看>>
一个简单web服务器的java实现
查看>>
C++ 中成员函数指针?
查看>>
linux shell 历史命令记录功能
查看>>