lightGBM总结

lightGBM的优化

1.直方图算法
2.按叶子生长(leaf-wise)
3.直方图加速
4.直接支持类别特征
5.特征并行和数据并行

使用注意

1.设置提前停止
2.自动处理类别特征
3.缺失值处理

spark 重点相关
1.spark job 提交流程,及dag有向无环图生成流程
2.spark shuffle 原理(shuffle read,shuffle write)
3.spark 内存区域管理(2.0以前,2.0后)

col存储的特点(优势)
1.块遍历
2.压缩
3.延迟物化

undefined