面试题总结

下面是我面试问到题目的总结

题目

1.spark计算任务划分，宽窄依赖，小文件处理
2.partition过多如何处理
3.java为什么使用iterator
4.多线程和多进程
5.hive结构图
6.hbase结构图
7.zookeeper
8.垃圾回收算法（7个，8个）

1.机器学习偏差，方差
2.算法选取数据量
3.最近做了什么算法

1.spark shuffle节点丢失，如何恢复
2.共享内存，存在竞争，如何处理（乐观锁）
3.jvm动态替换掉加载好的类
4.推荐系统协同过滤相关（倒排，近似近邻查找）
5.L1,L2正则

1.L1，L2正则
2.逻辑回归与决策树的差异
3.什么是集成学习
4.map比较慢是为什么
5.spark任务有问题怎么定位
6.hadoop跑的比较慢的原因
7.hive原理
8.hbase原理，与hive的差异
9.hive存储格式

1.spark分区算子
2.java锁（静态锁，对象锁）
3.线程池相关
4.垃圾回收（root，七种垃圾回收算法）

1.acid（原子性，一致性，隔离性，持久性）
2.后序遍历二叉树
3.n个拍好序的数组全排（堆排）
4.两个拍好序的数组求交集（一个循环，一个二分查找）

1.spark sql ，rdd df的差异
2.hbase为什么比mysql写的快
3.rowkey如何设计

1.kafka原理特性
2.多线程，锁
3.dubbo框架原理
4.抽奖系统设计
5.spark任务优化

1.tf-idf为什么取log
2.lr可以用来做什么
3.决策树和lr对比
4.java生产者和消费者