数据分析岗笔试卷一

时间:2024-04-11 14:20:17

京东2019春招数据分析类试卷

更多数据分析试卷请点击数据分析真题

考点涉及:软件开发模型、二叉树的遍历、计算机网络TCP/IP、shell、数据库事务的四大特性、索引、机器学习、异常值检测、生成式模型、大数据的三大理念、概率论有关知识等

1、软件开发过程中,我们可以采用不同的过程模型,下列有关增量模型描述正确的( B )
A. 已使用一种线性开发模型,具有不可回溯性 —— 瀑布模型
B. 把待开发的软件系统模块化,将每个模块作为一个增量组件,从而分批次地分析、设计、编码和测试这些增量组件 ——增量模型
C. 适用于已有产品或产品原型(样品),只需客户化的工程项目 —— 原型模型
D. 软件开发过程每迭代一次,软件开发又前进一个层次 —— 螺旋模型
解析:本题主要考察软件开发模型,以下是软件开发模型的介绍

  1. 瀑布模型:
    特点:
    1) 阶段间具有顺序性和依赖性:
    2) 前一阶段完成后,才能开始后一阶段
    3) 前一阶段的输出文本为后一阶段的输入文本
    4) 推迟实现的观点
    质量保证:
    1) 每个阶段必须交付出合格的文档
    2) 对文档进行审核
    缺点:
    1) 开始需要把需求做到最全
    2) 惧怕用户测试中的反馈,惧怕需求变更

  2. 增量模型(演化模型):
    构件思想:
    1) 第一构件完成软件提供的基本最核心的功能
    2) 后面的增构件是为了第一构件提供服务提供功能的
    3) 而且避免吧难题退后,首先完成的应该是高风险和重要部分
    困难:
    1) 每个新的构件集成到现有的软件结构中必须破坏原来以开发的产品,所以必须定义很好的接口
    优点:
    1) 短时间内向用户提供可完成部分工作的产品
    2) 逐步增加产品功能可以使用户有时间了解和适应新产品
    3) 开放结构的软件拥有的维护性明显好于封闭结构的软件
    缺陷:
    1) 容易退化为边做边改模型,从而使软件过程的控制失去整体性 
    2) 如果增量包之间存在相交的情况且未很好处理,则必须做全盘系统分析

  3. 喷泉模型:
    优点:
    1) 喷泉模型不像瀑布模型那样,需要分析活动结束后才开始设计活动,设计活动结束后才开始编码活动.
    2) 该模型的各个阶段没有明显的界限,开发人员可以同步进行开发.其优点是可以提高软件项目开发效率,节省开发时间,适应于面向对象的软件开发过程.
    缺点:
    1) 由于喷泉模型在各个开发阶段是重叠的,因此在开发过程中需要大量的开发人员,因此不利于项目的管理.
    2) 此外这种模型要求严格管理文档,使得审核的难度加大,尤其是面对可能随时加入各种信息、需求与资料的情况.

  4. 演化模型
    思想:
    1) 演化模型主要针对事先不能完整定义需求的软件开发.
    2) 用户可以给出待开发系统的核心需求,并且当看到核心需求实现后,能够有效地提出反馈,以支持系统的最终设计和实现
    开发顺序:
    1) 根据用户的核心需求,设计,编码,测试,后提交用户
    2) 精化:根据以能满足用户核心需求的核心系统上,增加用户反馈的其他全部功能
    优点:
    1) 任何功能一经开发就能进入测试以便验证是否符合产品需求
    2) 开发中的经验教训能反馈应用于本产品的下一个循环过程,大大提高质量与效率
    3) 开发中的经验教训能反馈应用于本产品的下一个循环过程,大大提高质量与效率
    4) 大大有助于早期建立产品开发的配置管理
    缺点:
    1) 主要需求开始并不完全弄清楚的话,会给总体设计带来困难及削弱产品设计的完整性,并因而影响产品性能的优化及产品的可维护性
    2) 缺乏严格过程管理的话,这生命周期模型很可能退化为“试-错-改”模式
    3) 不加控制地让用户接触开发中尚未测试稳定的功能,可能对开发人员及用户都产生负面的影响

  5. 快速原型模型
    优点:  
    1) 克服瀑布模型的缺点,减少由于软件需求不明确带来的开发风险。  
    缺点:  
    1) 所选用的开发技术和工具不一定符合主流的发展;快速建立起来的系统结构加上连续的修改可能会导致产品质量低下。
    原型类型:
    1) 探索型原型:目的是要型清用户的需求,确定所期望的特性,并探索各种方案的可行性。它主要针对开发目标模糊,
    2) 实验型原型:主要用于设计阶段,考核;实现方案是否合适,能否实陋
    2) 演化型原型:主要用于及早向用户提交一个原型系统,该原型系统或者包含系统的框架,或者包含系统的主要功能,在得到用户的认可后,将原型系统不断扩充演变为最终的软件系统
    原型的运用方式:
    1) 抛弃策略是将原型用于开发过程的某个阶段,促使该阶段的开发结果更加完整、准确、一致、可靠,该阶段结束后,原型随之作废。探索型和实验型就是采用此策略的。
    2) 附加策略是将原型用于开发的全过程,原型由最基本的核心开始,逐步增加新的功能和新的需求,反复修改反复扩充,最后发展为用户满意的最终系统,演化型快速原型就是采用此策略

  6. 螺旋模型
    限制条件:
    1) 适应于内部的大规模软件开发:螺旋模型强调风险分析,许多客户都无法接受和相信这种分析因此
    2) 适合于大规模软件项目(执行风险分析将大大影响项目的利润,进行风险分析就毫无意义)
    3) 软件开发人员应该擅长寻找可能的风险,准确地分析风险,否则将会带来更大的风险
    优点:
    1) 设计上的灵活性,可以在项目的各个阶段进行变更.
    2) 以小的分段来构建大型系统,使成本计算变得简单容易
    3) 客户始终参为保证了项目不偏离正确方向以及项目的可控性
    4) 客户始终掌握项目的最新信息,从而他或她能够和管理层有效地交互.
    5) 客户认可这种公司内部的开发方式带来的良好的沟通和高质量的产品.
    缺点:
    1) 很难让用户确信这种演化方法的结果是可以控制的.建设周期长,而软件技术发展比较快,
    2) 所以经常出现软件开发完毕后,和当前的技术水平有了较大的差距,无法满足当前用户需求.
    核心:
    1) 在于您不需要在刚开始的时候就把所有事情都定义的清清楚楚.在定义最重要的功能时,去实现它,然后听取客户的意见,之后再进入到下一个阶段.
    2) 如此不断轮回重复,直到得到您满意的最终产品
    每轮循环包含如下六个步骤:
    1) 确定目标,可选项,以及强制条件
    2) 识别并化解风险
    3) 评估可选项
    4) 开发并测试当前阶段
    5) 规划下一阶段
    6) 确定进入下一阶段的方法步骤.

2、一颗二叉树的前序遍历是ABCDFGHE,后序遍历是BGHFDECA,中序遍历是? C
A. GHBADFCE
B. DGBAFHEC
C. BADGFHCE
D. BAGDFHEC
解析:本题考查是二叉的前序遍历(中左右)、中序遍历(左中右)和后序遍历(左右中)

  1. 前序和中序、中序和后序可以唯一确定二叉树,而前序和后序是无法知道哪个结点是左子树还是右子树
  2. 前序遍历的第一个元素是二叉树的根结点
  3. 后序遍历的最后一个元素是二叉树的根结点

3、关于TCP协议的描述,以下错误的是? B
A. 面向连接
B. 可提供多播服务
C. 可靠交付
D. 报文头部长,传输开销大
解析:本题考查TCP/IP协议簇,因此,将相关知识整理如下:

  1. TCP/IP协议模型(Transmission Control Protocol/Internet
    Protocol),包含了一系列构成互联网基础的网络协议,是Internet的核心协议。
  2. 开放式系统互联通信参考模型(Open System Interconnection Reference Model):七层
    数据分析岗笔试卷一
  3. 基于TCP/IP的参考模型将协议分成四个层次,它们分别是链路层、网络层、传输层和应用层。下图表示TCP/IP模型与OSI模型各层的对照关系。 TCP/IP是指TCP/IP协议族(Protocol suite)
    数据分析岗笔试卷一
  4. 综合TCP/IP模型与OSI模型优点,折中成五层协议模型: 应用层、传输层、网络层、数据链路层、物理层,各层对应的协议及传输数据类型如下表所示:
    数据分析岗笔试卷一
  5. 以太网提供的是尽最大努力交付,即不可靠的交付
  6. CRC(Cyclic Redundancy Check)循环冗余检测时检测比特差错的,无比特差错的传输不一定是可靠传输
  7. 无比特差错与无传输差错(比特差错/帧丢失/帧重复/帧失序)是两个概念
  8. TCP最主要的特点:
    (1)TCP是面向连接的运输层协议。应用进程之间的通信像“打电话”:通话前要先拨号建立连接,通话结束后要挂机释放链接。(A选项,面向连接)
    (2)每一条TCP连接只能有两个端点(endpoint),点对点。(B选项,TCP只能提供点对点,不提供多播)
    (3)TCP提供可靠交付的服务。无差错、不丢失、不重复,并且按序到达。(C选项)(D选项,TCP提供的是可靠交付,所以TCP首部开销会大;UDP协议只是尽最大努力交付,UDP的首部开销小)
    (4)TCP提供全双工通信。双向通信.
    (5)面向字节流。“面向字节流“的含义是:虽然应用程序和TCP的交互是一次一个数据块(大小不等),但TCP把应用程序交下来 的数据仅仅看成是一连串的无结构的字节流 。TCP并不知道所传送的字节流的含义。
  9. TCP的连接建立:三次握手
    1. SYN = 1, seq = x
    2. SYN = 1, ACK = 1, seq = y, ack = x+1
    3. ACK = 1, seq = x+1, ack = y+1
      数据分析岗笔试卷一
  10. 为什么A最后还要发送一次确认呢?数据分析岗笔试卷一
  11. TCP的连接释放:四次挥手
    1) FIN = 1, seq = u
    2) ACK = 1, seq = v, ack = u+1
    3) FIN = 1, ACK = 1, seq = w, ack = u+1
    4) ACK = 1, seq = u+1, ack = w + 1
    数据分析岗笔试卷一

4、以下命令用于设置环境变量的是:A
A.export
B.cat
C.echo
D.env
解析:本题主要考查有关shell编程的命令
1)Export:设置环境变量
2)Echo:查看是否成功
3)Env:显示所有的环境变量
4)Cat:用于连接文件并打印到标准输出设备上(文本输出命令)
5)Set:显示所有本地定义的Shell变量
6)Unset:清除环境变量

5、数据库事务的特性不包含: B
A.原子性
B.并发性
C.隔离性
D.持久性
解析:本题考查数据库的四大特性:
1、原子性(Atomicity) :原子性是指事务包含的所有操作要么全部成功,要么全部失败回滚,因此事务的操作如果成功就必须要完全应用到数据库,如果操作失败则不能对数据库有任何影响。
2、 一致性(Consistency):一致性是指事务必须使数据库从一个一致性状态变换到另一个一致性状态,也就是说一个事务执行之前和执行之后都必须处于一致性状态。
拿转账来说,假设用户A和用户B两者的钱加起来一共是5000,那么不管A和B之间如何转账,转几次账,事务结束后两个用户的钱相加起来应该还得是5000,这就是事务的一致性。
3、隔离性(Isolation) :隔离性是当多个用户并发访问数据库时,比如操作同一张表时,数据库为每一个用户开启的事务,不能被其他事务的操作所干扰,多个并发事务之间要相互隔离。 即要达到这么一种效果:对于任意两个并发的事务T1和T2,在事务T1看来,T2要么在T1开始之前就已经结束,要么在T1结束之后才开始,这样每个事务都感觉不到有其他事务在并发地执行。
4、持久性(Durability) :持久性是指一个事务一旦被提交了,那么对数据库中的数据的改变就是永久性的,即便是在数据库系统遇到故障的情况下也不会丢失提交事务的操作

6、索引是对数据库表中一个或多个列的值进行排序的数据结构,以协助快速查询、更新数据库表中数据。以下对索引的特点描述错误的是: C 
A.加快数据的检索速度
B.加速表和表之间的连接
C.在使用分组和排序子句进行数据检索时,并不会减少查询中分组和排序的时间
D.通过创建唯一性索引,可以保证数据库表中每一行数据的唯一性
解析:本题考查数据库中索引

  1. 创建索引的好处:
    1) 通过创建索引,可以在查询过程中,提高系统的性能
    2) 通过创建唯一性索引,可以保证数据库表中每一行数据的唯一性
    3)  在使用分组和排序子句进行数据检索时,可以减少查询中分组和排序的时间
  2. 创建索引的坏处:
    1) 创建索引和维护索引要耗费时间,而且时间随着数据量的增加而增大
    2) 索引需要占用物理空间,如果要建立聚簇索引,所需要的空间会更大
    3) 在对表中的数据增加删除和修改时需要耗费较多的时间,因为索引也要动态地维护

7、如果ORDER BY子句后未指定ASC或DESC,默认使用以下哪个?
A.DESC
B.ASC
C.不存在默认值
D.其它选项都不对
解析:本题考查Order by语句 ASC:升序 DESC:降序

8、关于Python中的复数,下列说法错误的是( C )
A.表是复数的语法是real + image j
B.实部和虚部都是浮点数
C.虚部必须后缀j,且必须小写
D.方法conjugate返回复数的共轭复数
解析:本题考查Python复数语法

  1. 表示复数的语法是real + image j
  2. 实部和虚部都是浮点数
  3. 虚部的后缀可以是 “j” 或者 “J”
  4. 复数的 conjugate 方法可以返回该复数的共轭复数。
  5. 虚部不能单独存在

9、执行以下shell语句,可以生成/test文件的是(假定执行前没有/test文件): ABC
A. touch /test
B. a = touch /test
C. >/test
D. echo ‘touch /test’
解析:本题考查shell语句中创建文件
B选项:在shell中’>‘为创建,’>>’ 为追加。当文件不存在时,’>'与‘>>’都会默认创建

10、if [ $2 -a $2 = “test” ]中 -a是什么意思 ? D
A. 大于
B. 减
C. 全部
D. 并且
解析:本题考查shell的逻辑语句
数据分析岗笔试卷一
11、文件目录data当前权限为rwx — ---,只需要增加用户组可读权限,但不允许写操作,具体方法为: A
A. chmod+050data
B. chmod+040data
C. chmod+005data
D. chmod+004data
解析:本题考查
Linux/Unix 的文件调用权限分为三级 : 文件拥有者、群组、其他。利用 chmod 可以藉以控制文件如何被他人所调用。
r 表示可读取,w 表示可写入,x 表示可执行,X 表示只有当该文件是个子目录或者该文件已经被设定过为可执行。
数字分别表示User、Group、及Other的权限。
r=4,w=2,x=1

  • 若要rwx属性则4+2+1=7;
  • 若要rw-属性则4+2=6;
  • 若要r-x属性则4+1=5。 增
    加用户组可读,但不可写,第一组和第三组默认为0,只在第二组中添加r-x即可 chomd +050data

12、以下哪个模型是生成式模型: A
A. 贝叶斯模型
B. 逻辑回归
C. SVM
D. 条件随机场
解析:本题考查生成式模型,同时也要了解判别式模型

  1. 判别式模型举例:要确定一个羊是山羊还是绵羊,用判别模型的方法是从历史数据中学习到模型,然后通过提取这只羊的特征来预测出这只羊是山羊的概率,是绵羊的概率。(logistic回归,>0.5为正例,否则,为反例) 就是判别数据输出量的模型,如:KNN、线性回归、Logistic Regression、神经网络、SVM、高斯过程、条件随机场(CRF)、CART(Classification and Regression Tree)、LDA
  2. 生成式模型举例:利用生成模型是根据山羊的特征首先学习出一个山羊的模型,然后根据绵羊的特征学习出一个绵羊的模型,然后从这只羊中提取特征,放到山羊模型中看概率是多少,在放到绵羊模型中看概率是多少,哪个大就是哪个。(朴素贝叶斯分类就是这样) 就是生成数据的分布的模型 如:朴素贝叶斯、混合高斯模型、隐马尔科夫模型(HMM)、贝叶斯网络、Sigmoid Belief Networks、马尔可夫随机场(Markov Random Fields)、深度信念网络(DBN)

13、下列关于计算机存储容量单位的说法中,错误的是() C
A. 1KB<1MB<1GB
B. 基本单位是字节(Byte)
C. 一个汉字需要一个字节的存储空间
D. 一个字节能够容纳一个英文字符
解析:本题考查计算机基本原理
1、位(bit)
来自英文bit,音译为“比特”,表示二进制位。位是计算机内部数据储存的最小单位,11010100是一个8位二进制数。一个二进制位只可以表示0和1两种状态(21);两个二进制位可以表示00、01、10、11四种(22)状态;三位二进制数可表示八种状态(23)
2、字节(byte)
字节来自英文Byte,音译为“拜特”,习惯上用大写的“B”表示。
字节是计算机中数据处理的基本单位。计算机中以字节为单位存储和解释信息,规定一个字节由八个二进制位构成,即1个字节等于8个比特(1Byte=8bit)。八位二进制数最小为00000000,最大为11111111;通常1个字节可以存入一个ASCII码,2个字节可以存放一个汉字国标码。

14、以下机器学习中,在数据预处理时,不需要考虑归一化处理的是: C
A. logistic回归
B. SVM
C. 树形模型
D. 神经网络

15、从使用的主要技术上看,可以把分类方法归结为哪几种类型 ABCD
A. 规则归纳方法
B. 贝叶斯分类方法
C. 决策树分类方法
D. 基于距离的分类方法

16、数据挖掘的挖掘方法包括: ABCD
A. 聚类分析
B. 回归分析
C. 神经网络
D. 决策树算法

17、检测一元正态分布中的离群点,属于异常检测中的基于( A )的离群点检测
A. 统计方法
B. 邻近度
C. 密度
D. 聚类技术
解析:本题考查异常检测有关内容
八大无监督异常检测技术

19、以下相关关系取值,哪个蕴含了无关系? B
A. Cor (X, Y) = 1
B. Cor (X, Y) = 0
C. Cor (X, Y) = 2
D. 其他都是

20、下列关于大数据的分析理念的说法中,错误的是()D
A. 在数据基础上倾向于全体数据而不是抽样数据
B. 在分析方法上更注重相关分析我不是因果分析
C. 在分析效果上更追究效率而不是绝对精确
D. 在数据规模上强调相对数据而不是绝对数据
解析:本题考查大数据的三大理念
大数据三大理念:用全量代表样本、兼容不精确、更加关注相关规律
数据仓库技术——ETL,是英文Extract-Transform-Load的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程

21、置信概率可以用来评估区间估计的什么性能 D
A. 精确性
B. 显著性
C. 规范性
D. 可靠性
解析:本题考查概率论
置信概率(confidence probability)是用来衡量统计推断可靠程度的概率

22、为数据的总体分布建模;把多维空间划分成组等问题属于数据挖掘的哪一类任务 B
A. 探索性数据分析
B. 建模描述
C. 预测建模
D. 寻找模式和规则
解析:

  1. 探索性数据分析:使用交互式的和可视化的技术,对数据进行探索
  2. 建模描述:为数据的总体分布建模;把空间划分成组等问题
  3. 预测模型:建立一个模型,通过这个模型根据已知的变量值来预测其他某个变量值
  4. 根据内容检索:用户有一种感兴趣的模式并且希望在数据集中找到相似的模式

23、下列关于普查的缺点的说法中,正确的是  A
A. 工作量较大,容易导致调查内容有限、产生重复和遗漏现象
B. 误差不易被控制
C. 对样本的依赖性比较强
D. 评测结果不够稳定

24、数据科学家使用的统计方法有 A
A. 马尔科夫过程
B. 等价划分类
C. 线性累加
D. 不知道

25、在下列算法中,对于缺失值敏感的模型为 B
A. 随机森林
B. Logistic Regression(逻辑回归)
C. C4.5
D. 朴素贝叶斯
解析
AC 基于树模型(树形结构主要是有关概率和数据分布的,对缺失的数据不敏感),对缺失值敏感度低;D朴素贝叶斯对缺失值也比较稳定;B逻辑回归是线性模型,对缺失值敏感

26、京东仓库中对某种商品进行合格性检验,已知这种商品的不合格率为0.001,即1000件商品中会有一件次品。现有现有一种快速检验商品方法,它的准确率是0.99,即在商品确实是次品的情况下,它有99%的可能抽检显示红色。它的误报率是5%,即在商品不是次品情况下,它有5%的可能抽检显示红色。现有有一件商品检验结果为红色,请问这件商品是次品的可能性有多大? B
A. 0.01
B. 0.02
C. 0.03
D. 0.04
解析
P(次品)= 0.001, P(红|次品)= 0.99, P(红|正品) = 0.05
则,
P(正品)= 1 - 0.001 = 0.999,
P(红色且次品)= P(红|次品) x P(次品)
P(红色且正品)= P(红|正品) x P(正品)
P(红)= P(红色且次品) + P(红色且正品)=0.99x0.001 + 0.05x0.999=0.05094
根据贝叶斯公式,
P(次品|红)= P(红|次品) x P(次品) / P(红)= 0.99 x0.001 / 0.50094 = 0.02

27、有30个需要渡河,只有一条船,船每次最多载4人(包括划船的人),往返一次需要5分钟。那么,21分钟后,还有几个人在等待过河? B
A. 10
B. 11
C. 15
D. 16
解析
0分钟时,岸上还剩26个人,5min后又3个人上船,还有23人,10min后20人,15min后17,20min后14,21min后11.

28、一批商品,甲乙合作生产需要10天完成,乙丙两人合作生产需要12天。现在油甲丙合作生产4天,剩下的交由乙单独生产,还需要12天才能完成。如果该批商品由乙单独完成,需要多少天? A
A. 15
B. 18
C. 20
D. 25
解析
1、10甲+10乙=12乙+12丙=4甲+4丙+12乙 乙=2甲=4丙 原式=15乙
2、解方程
设完成这项工作,甲乙丙分别需要 x,y,z天,则
1/x+1/y=1/10
1/y+1/z=/12
(1/x+1/z)4+121/y=1
解得y=15天

29、下图显示的是2018年某产品在五个区域的经营状况,请问2017年哪个地区的产品产值最高?华中
数据分析岗笔试卷一

30、下表为我国某产品2018下半年的进口额情况,请问6-12月当中,其中有几个月的增长率是超过了10%的?( 4 )
  数据分析岗笔试卷一
解析:7-8,8-9,9-10,10-11