📗
deeplearning
  • 机器学习
    • LR & SVM
    • 树模型
    • 评测指标
    • 数据不平衡
  • CV基础
    • 基础模型
    • 初始化
    • 激活函数
    • 注意力机制
    • 损失函数
    • 优化器
    • 可视化
    • 轻量级网络
    • 多任务学习
  • deepfake
    • 数据集
  • 人脸
    • 数据集
    • 人脸对齐
    • 人脸检测
    • 人脸识别
  • 语义分割
    • 语义分割
  • 无监督
    • 无监督
  • 推荐系统
    • 推荐系统模型
    • 推荐系统中的偏差
    • 王喆:深度学习推荐系统
    • 特征处理
    • 重排序
    • 互联网商业化变现
  • 数学
    • bayes最大似然
    • 蒙特卡洛
  • 网站
    • css
    • html
    • js
    • jquery
    • flask
  • 基础工具
    • anaconda
    • docker
    • git
    • linux install
    • vpn
    • latex
  • python
    • numpy
    • matplotlib
    • pandas
    • multi process
    • pytorch
  • 设计模式
    • 设计模式之美
    • 图说设计模式
  • 其他
    • how to ask
    • python style
Powered by GitBook
On this page
  • tf中的特征处理方式
  • 连续特征
  • 离散特征
  • 组合特征

Was this helpful?

  1. 推荐系统

特征处理

Previous王喆:深度学习推荐系统Next重排序

Last updated 3 years ago

Was this helpful?

tf中的特征处理方式

可以参考tf.feature_column中的处理方法。

  • numeric_column 数值列,最常用。

  • bucketized_column 该函数将连续变量进行分桶离散化,输出one-hot的结果,方便连续值指标与分类变量进行交叉特征构建

  • categorical_column_with_identity 分类标识列,one-hot编码,相当于分桶列每个桶为1个整数的情况。

  • categorical_column_with_vocabulary_list 分类词汇列,one-hot编码,由list指定词典。

  • categorical_column_with_vocabulary_file 分类词汇列,由文件file指定词典。

  • categorical_column_with_hash_bucket 哈希列,整数或词典较大时采用。

  • indicator_column 指标列,由Categorical Column生成,one-hot编码

  • embedding_column 嵌入列,由Categorical Column生成,嵌入矢量分布参数需要学习。嵌入矢量维数建议取类别数量的 4 次方根。

  • crossed_column 交叉列,可以由除categorical_column_with_hash_bucket的任意分类列构成。

连续特征

离散特征

组合特征

最基础的特征交叉如性别和年龄,比如性别=女,年龄<35做为特征的一个值,这样的缺点是该组合特征的维度会很大m*n。比如MF模型中的所有的二阶交叉特征,缺点就在于维度过大。

树模型天然可以进行特征组合,如下图: