北京数据分析师面试题

北京数据分析师面试题

来源：北京国富如荷教育时间：2023-04-03 15:10

数据分析师面试常见问题有哪些?

1、如何理解过拟合?

过拟合和欠拟合一样，都是数据挖掘的基本概念。过拟合指的就是数据训练得太好，在实际的测试环境中可能会产生错误，所以适当的剪枝对数据挖掘算法来说也是很重要的。

欠拟合则是指机器学习得不充分，数据样本太少，不足以让机器形成自我认知。

2、为什么说朴素贝叶斯是“朴素”的?

朴素贝叶斯是一种简单但极为强大的预测建模算法。之所以称为朴素贝叶斯，是因为它假设每个输入变量是独立的。这是一个强硬的假设，实际情况并不一定，但是这项技术对于绝大部分的复杂问题仍然非常有效。

3、SVM 最重要的思想是什么?

SVM 计算的过程就是帮我们找到超平面的过程，它有个核心的概念叫：分类间隔。SVM 的目标就是找出所有分类间隔中最大的那个值对应的超平面。在数学上，这是一个凸优化问题。同样我们根据数据是否线性可分，把 SVM 分成硬间隔 SVM、软间隔 SVM 和非线性 SVM。

4、K-Means 和 KNN 算法的区别是什么?

首先，这两个算法解决的是数据挖掘中的两类问题。K-Means 是聚类算法，KNN 是分类算法。其次，这两个算法分别是两种不同的学习方式。K-Means 是非监督学习，也就是不需要事先给出分类标签，而 KNN 是有监督学习，需要我们给出训练数据的分类标识。最后，K 值的含义不同。K-Means 中的 K 值代表 K 类。KNN 中的 K 值代表 K 个最接近的邻居。

面试数据分析师的问题

面试数据分析师的问题有。
1、处理过的最大的数据量吗，是如何处理的，处理的结果是什么。
2、二个分析或者计算机科学相关项目，是如何对其结果进行衡量的。
3、如何计一个网络爬虫速度更快，抽取更好的信息以及更好总结数据从而得到一干净的数据库。
4、点击流数据是实时处理的吗，为什么，哪部分是实时处理。
5、是如何处理缺少数据的，准荐使用什么样的处理技术。
6、最喜欢的编程语言是什么，为什么。
7、对于喜欢的统计软件，喜欢的与不喜欢的3个理由。
8、什么是概率合并(AKA模糊融合)使用SQL处理还是其它语言方便对于处理半结构化的数据会选择使用哪种语言。
9、如何设计一个解决抄袭的方案，如何检验一个个人支付账户都多个人使用。
10、什么是：提升值、关键绩效指标、强壮性、模型按合度、实验设计、2/8原则。
11、什么是：协同过滤、n-grams，mapreduce、余弦距离。

数据分析师面试题目和答案:动手题

【导读】众所周知，随着社会的发展，数据分析师成为了炙手可热的热门执业，一方面是其高薪待遇另一方面就是其未来广阔的发展前景。一般情况下用人单位会给问答题和动手题来检测应聘者的真实实力，可以说面试笔试是非常重要的一个环节。它可以直接测验你对数据分析具体理论的掌握程度和动手操作的能力。为此小编就以此为例和大家说说2021年数据分析面试解答技巧:动手题，希望对大家有所帮助。

动手题

1. 我给你一组数据，如果要你做数据清洗，你会怎么做?

实际上，这一道题中，面试官考核的是基本的数据清洗的准则，数据清洗是数据分析必不可少的重要环节。你可能看到这个数据存在 2 个问题：典韦出现了 2
次，张飞的数学成绩缺失。

针对重复行，你需要删掉其中的一行。针对数据缺失，你可以将张飞的数学成绩补足。

2. 豆瓣电影数据集关联规则挖掘

在数据分析领域，有一个很经典的案例，那就是“啤酒 +
尿布”的故事。它实际上体现的就是数据分析中的关联规则挖掘。不少公司会对这一算法进行不同花样的考察，但万变不离其宗。

如果让你用 Apriori 算法，分析电影数据集中的导演和演员信息，从而发现两者之间的频繁项集及关联规则，你会怎么做?

以上就是小编今天给大家整理发送的关于“数据分析师面试题目和答案:动手题”的相关内容，希望对大家有所帮助。想了解更多关于数据分析及人工智能就业岗位分析，关注小编持续更新。

外卖饿了么/美团数据分析师面试必备问题！

一般会在数据分析师面试的时候会问到，关于外卖行业，比一般的行业相对比较特殊，所以分析思路相对会比较复杂且考虑多因素。
下面简单介绍外卖行业内部的分类：
1，B端，也就是大众理解的商家端，和天猫类似。是外卖平台的商家们，外卖平台的特殊点就是现在商家端没有太多的营销工具来进行私域流量的监督和营销，主要因为现在整体外卖行业还没有完全进入精细化运营，因此，此部分没有特别专业的帮助卖家精细化运营的方式，整体上商家也没有天猫上的卖家注重这些。
2，C端，这个很好理解就是消费者，每个点外卖的人都是C端消费者。
3，最特殊的就是D端，这个是外卖行业比较特殊的存在，也就是骑手外卖小哥们。其实D端才是外卖行业成本最大的
原因有三

大数据分析师面试题：Redis的耐久化战略

【导读】众所周知，大数据分析师的面试流程与其他行业的不大一样，比如你面试一份文员工作，只需要携带简历就可以了，不过要想面试成功大数据分析师，不仅需要携带简历，还要做好考试的准备，这是每一个大数据分析师的入职必经流程，今天小编就来和大家说说大数据分析师面试题：Redis的耐久化战略，希望对各位考生有所帮助。

一、RDB介绍

RDB 是 Redis
默许的耐久化计划。在指定的时间距离内，实行指定次数的写操作，则会将内存中的数据写入到磁盘中。即在指定目录下生成一个dump.rdb文件。Redis
重启会通过加载dump.rdb文件恢复数据。

可以在redis.windows.conf配备文件中修正save来进行相应的配备

注意事项

60秒内10000条数据则保存

这儿有三个save，只需满意其间任意一条就可以保存

比方：

(1)在redis中保存几条新的数据，用kill
-9粗暴杀死redis进程，模仿redis缺点失常退出，导致内存数据丢掉的场景(或许在，也或许不在，根据save的状况)

(2)手动设置一个save检查点，save 5 1

写入几条数据，等候5秒钟，会发现自动进行了一次dump rdb快照，在dump.rdb中发现了数据

失常停掉redis进程，再从头发起redis，看方才刺进的数据还在

二、AOF介绍

AOF ：Redis 默许不打开。它的呈现是为了补偿RDB的缺乏(数据的不一致性)，所以它采用日志的方法来记载每个写操作，并追加到文件中。Redis
重启的会根据日志文件的内容将写指令早年到后实行一次以结束数据的恢复作业。( yes)

注意事项注意事项

可以在redis.windows.conf中进行配备

打开AOF

将的no 改为 yes

下面是文件名可以运用默许的文件名，也可以自己改

注意事项

运用默许的everysec就可以了

以上就是小编今天给大家整理发送的关于大数据分析师面试题：Redis的耐久化战略的相关内容，希望对各位考生有所帮助，想知道更多关于数据分析师的基本要求有哪些，关注小编持续更新数据分析师岗位解析。

数据分析师面试题| 估算题：上海有多少辆自行车？

这个解法要点就是根据年龄进行用户分群。
参考：共享单车的标准渗透率 2.5%

私家自行车是以家庭为单位的，

假设家庭拥有私家车：电动车：自行车：啥都没有=6：2：1：1
即：有自行车的家庭占比=10%
假设平均每家有自行车的数量为1。上海人口：2500w，平均每家人口数量4人。
私家自行车数量=1 2500w/4 10%=60w

按照年龄划分用户，不同年龄层出行的需求不一样，
上海人口：2500w
假设年龄层划分如下
• 22-65：60% 2500w*0.6=1500w（需要出行的比例 80%；选择共享单车的比例：30%）
• 16-22：15%=375w（需要出行的比例：30%；选择共享单车的比例：40%）
• 65+：15%=375w（需要出行的比例：10%；选择共享单车的比例：10%）
• 0-16：10%=250w（30%）==>砍掉，用共享单车的可能很低

所以，每天有用共享单车的人数=1500 0.8 0.3+375 0.3 0.4+375 0.1 0.1=410w
假设平均用户每天使用次数：2次；每次骑车时间8min。
每一共享单车每天服务次数=共享单车服务时间/每次服务的时间=3h/10min=18次

怎么面试大数据分析师

1、考察对数据的敏感度。

面试的时候，数据部门经理问一些生活中的数据的问题，一个优秀的数据分析师对数据有很强的敏感度，生活中常见的数据，你直观的感受往往能反应出你的资质。

2、数学基本概念和统计学方法。

遇到的有排列组合的问题的，还有指数衰减的定义等等。或者直接给一个问题或者数据，问问你打算用什么样的方法怎样去分析。在给你数据的时候，一定要记得说数据预处理！这一点非常重要，这样会让人觉得你的回答逻辑清楚，有条有理。如果想从事与数据科学相关的岗位，需要学习的数据知识可以参考成都加米谷大数据培训机构的：想从事数据科学相关岗位，这些数学基础“必备”。

3、编程能力。

你一定要有自己熟练的软件，常问的问题是，你一般用excel干什么，常用的函数有哪些，是否用过数据透视表，是够用过宏，平时多久用一次R，是否用过或了解过并行，等等关于软件的问题。在面试小公司时，HR会可能直接给你一个数据进行数据分析，题目一般给的都不太难。

想要了解更多关于数据挖掘和数据分析之间的区别可以到CDA认证中心咨询一下，CDA行业标准由国际范围数据领域的行业专家、学者及知名企业共同制定并每年修订更新，确保了标准的公立性、权威性、前沿性。通过CDA认证考试者可获得CDA中英文认证证书。