特征处理

tf中的特征处理方式

可以参考tf.feature_column中的处理方法。

  • numeric_column 数值列,最常用。

  • bucketized_column 该函数将连续变量进行分桶离散化,输出one-hot的结果,方便连续值指标与分类变量进行交叉特征构建

  • categorical_column_with_identity 分类标识列,one-hot编码,相当于分桶列每个桶为1个整数的情况。

  • categorical_column_with_vocabulary_list 分类词汇列,one-hot编码,由list指定词典。

  • categorical_column_with_vocabulary_file 分类词汇列,由文件file指定词典。

  • categorical_column_with_hash_bucket 哈希列,整数或词典较大时采用。

  • indicator_column 指标列,由Categorical Column生成,one-hot编码

  • embedding_column 嵌入列,由Categorical Column生成,嵌入矢量分布参数需要学习。嵌入矢量维数建议取类别数量的 4 次方根。

  • crossed_column 交叉列,可以由除categorical_column_with_hash_bucket的任意分类列构成。

连续特征

离散特征

组合特征

最基础的特征交叉如性别和年龄,比如性别=女,年龄<35做为特征的一个值,这样的缺点是该组合特征的维度会很大m*n。比如MF模型中的所有的二阶交叉特征,缺点就在于维度过大。

树模型天然可以进行特征组合,如下图:

Last updated

Was this helpful?