百度校招数据挖掘工程师笔试题和面试题答案目
2021-08-10 08:27:14华夏高考网笔试时间:2015-9-20
笔试职位:机器学习/数据挖掘工程师
笔试城市:天津、深圳、南京等
一. 简答题
1. new 和 malloc 的区别。
2. hash冲突是指什么?怎么解决?给两种方法,写出过程和优缺点。
3. 命中的概率是 0.25,若要至少命中一次的概率不小于 0.75,则至少需要几次?
二. 算法设计题
1. 用C/C++写一个归并排序。
数据结构为struct Node{int v; Node *next};
接口为 Node * merge_sort(Node *);
2. 设计S型层次遍历树的算法,比如根节点是第一层,第二层从左至右遍历,第三层从右至左遍历,第四层再从左至右遍历,以此类推。
举例:应依次输出 1 2 3 6 5 4 7 8 9。
3. 一个url文件,每行是一个url地址,可能有重复。
(1)统计每个url的频次,设计函数实现实现。
(2)设有10亿url,平均长度是20,现在机器有8G内存,怎么处理,写出思路。
三. 系统设计题
自然语言处理中的中文分词问题,前向最大匹配算法(FMM)。
注:题目举例说明了FMM的基本思想。
(1)设计字典的数据结构 struct dictnote。
(2)用C/C++实现FMM,可选接口为
int FMM(vector iLetters, dictnode *iRoot, vector *oResults);
其中 iLetters 为待分词的句子,比如 {“小”,“明”,“今”,“天”,“买”,“了”,“i”,“p”,“o”,“n”,“e”,“6”},
iRoot 是字典, oResults 保存输出结果,即分词的位置。也可以自己设计接口。
(3)收集了一些手机品牌的字典,如{iphone, 诺基亚}。
现在要求查找包含这些手机品牌的网页,比如包含 iphone6, 诺基亚 9973 等。
怎么修改FMM实现这个功能,可以写伪代码。
相关推荐
- 中国点击率最高的一篇文章 !2021-12-23 01:49:29
- 百度校招产品经理笔试题和面试题答案2021-08-10 08:27:13
- 百度校园招聘笔试题和面试题答案2021-08-10 08:27:11
- 知名企业招聘时对员工的情商测试题2021-08-10 08:27:10
- 天津城市建设管理职业技术学院是公办还是民办?(现在学校口碑怎么样)2024-07-17 03:47:05
- 扬州大学是公办还是民办?(现在学校口碑怎么样)2024-07-17 03:44:16
- 中国政法大学是公办还是民办?(现在学校口碑怎么样)2024-07-17 03:42:56
- 晋中职业技术学院是公办还是民办?(现在学校口碑怎么样)2024-07-17 03:41:37
- 仰恩大学是公办还是民办?(现在学校口碑怎么样)2024-07-17 03:39:45
- 百度校招产品经理笔试题和面试题答案2021-08-10 08:27:13
- 百度校园招聘笔试题和面试题答案2021-08-10 08:27:11
- 知名企业招聘时对员工的情商测试题2021-08-10 08:27:10
最新发布
图文推荐
2025内蒙古高考征集志愿院校名单有哪
2024-07-17 08:39:362025西藏高考征集志愿院校名单有哪些
2024-07-17 08:35:17安徽农业大学是公办还是民办?(现在学
2024-07-17 03:54:02应天职业技术学院是公办还是民办?(现
2024-07-17 03:53:11黄冈科技职业学院是公办还是民办?(现
2024-07-17 03:51:47武汉商学院是公办还是民办?(现在学校
2024-07-17 03:49:37天津城市建设管理职业技术学院是公办
2024-07-17 03:47:05扬州大学是公办还是民办?(现在学校口
2024-07-17 03:44:16