数据预处理和特征工程决定模型表现上限,需重视数据质量而非仅调参。1. 缺失值处理应先理解原因,再选择填充或保留缺失信息,避免直接删除;2. 类别编码根据类别数量选择one-hot或目标编码,防止维度爆炸;3. 特征缩放视模型而定,树模型无需缩放,线性模型则需标准化或归一化;4. 构造衍生特征应结合业务背景提取关键信息,避免盲目增加复杂度。掌握这些方法能提升模型效果。
在做机器学习项目时,数据预处理和特征工程往往决定了模型表现的上限。很多人把注意力放在模型调参上,却忽略了输入数据本身的质量。其实,模型就像发动机,数据才是燃料,再好的引擎也跑不过劣质油。
1. 缺失值处理:别一上来就删
现实中的数据集很少是完整的,缺失值几乎是常态。但直接删除有缺失的样本或者列,往往会损失大量信息。比如电商用户购买记录中,某些字段(如“最近一次下单时间”)缺失,可能代表该用户是新用户,而不是数据错误。
这时候可以考虑:
立即学习“Python免费学习笔记(深入)”;
- 用平均数、中位数或众数填充数值型字段
- 对类别变量,用”Unknown”或”Missing”作为一个新的类别来保留缺失信息
- 如果缺失比例特别高(比如超过70%),那确实要考虑删除字段了
关键是理解缺失背后的原因,不同处理方式对模型的影响会很大。
2. 类别特征编码:不是所有分类都要One-Hot
类别型变量不能直接喂给大多数模型,需要转换成数字。One-Hot编码是最常见的做法,但不一定总是最优。
比如城市这个字段,如果类别太多(比如上百个城市),One-Hot会导致维度爆炸,这时候可以用目标编码(Target Encoding)或频率编码(Frequency Encoding)。例如,用每个城市的点击率作为替代值,既能保留信息又不会增加维度。
一些简单规则:
- 类别不多时(比如颜色红绿蓝),One-Hot很合适
- 类别很多时,考虑目标编码或分箱处理
- 时间序列任务中,慎用目标编码,容易造成信息泄露
3. 特征缩放:看模型是否“计较”
像决策树类模型(如XGBoost、LightGBM)并不需要特征标准化,它们对输入尺度不敏感。但如果是逻辑回归、K近邻、SVM这些模型,特征的尺度差异会影响训练效果和收敛速度。
常见做法有:
- 标准化(Z-Score):适用于分布较正态的情况
- 归一化(Min-Max):适合数据范围明确的任务,比如图像处理中的像素值归到[0,1]
举个例子,如果你的数据里有一个字段是年龄(0~100),另一个是收入(几千到几十万),不做缩放的话,模型可能会过度关注收入这个字段。
4. 构造衍生特征:从已有数据中提取信息
有时候原始数据并不能直接反映问题的本质,需要构造一些衍生特征。比如电商场景下,用户的历史行为数据中有“总购买次数”和“总消费金额”,我们可以构造“平均每次消费金额”作为新特征。
这类操作的关键点在于:
- 结合业务背景,找出有意义的组合或变换
- 不要盲目生成太多特征,增加复杂度的同时可能引入噪声
- 可以尝试对时间字段进行拆解,比如从“下单时间”中提取小时、星期几等信息
比如销售预测任务中,“节假日前后几天”这个时间段往往有特殊意义,可以构造一个是否为节前/节后一周的布尔特征。
基本上就这些。特征工程没有固定套路,但掌握好基础方法能解决大部分问题,剩下的靠经验和实验验证。
评论(已关闭)
评论已关闭