数据挖掘-理解业务和数据(二)

时间:2022-10-18 19:52:18

数据挖掘-理解业务和数据(二)

 目录

1、思想问题

避免对业务的轻视

明白可以为和不可以为

数据挖掘不是万能的

2、业务背景和目标

3、把握数据

总结


数据挖掘流程图 :

数据挖掘-理解业务和数据(二)

前置准备:数据挖掘-理解业务和数据(二)

1、思想问题

避免对业务的轻视

要做什么样的人,要先去按照那样的人去思考。

做数据挖掘,一定要避免的思想问题
我学了很多的算法,穿着程序员的衣服,背着程序员的电脑,我就是一个优秀的数据挖掘工程师了
数据挖掘人员需要真正理解业务场景与挖掘需求
数据挖掘的本质是一种方法
要去解决问题,一定要源于业务需求,服务业务需求

如果要做一个成功的数据挖掘项目:

  • 深入学习业务,明白业务的关键点。
  • 在项目的需求阶段与业务方进行充分的沟通,在发现偏差时及时调整。
  • 在制定OKR的时候与业务方来共同制定

明白可以为和不可以为

 一个业务需求来了:

  • 明了业务的要求以及目标
  • 明白数据挖掘要解决的点在哪里
  • 技术在业务上绝不是万能的

比如你在做一个OTA酒店消歧的项目,酒店业务中的一个痛点:
不同的供应商提供的酒店信息可能存在一些区别,需要消耗大量的人工去做比对决策
实际上会遇到的情况:

  • 数据可能是残缺的导致无法使用算法处理
  • 不同供应商提供的同一家酒店名称可能是不同语种的,无法使用同样的模型来解决。不同的供应商提供的信息可能是不对等的,无法使用一套解决方案来完全解决所有问题
     

数据挖掘不是万能的

数据不完美:

每一个公司都只是掌握了部分数据,有些甚至没有多少数据,还需要去外面爬取数据来进行处理
数据的真实性、准确性、完整性具体到每一条数据时或者某一个需求时,是不完美的,甚至是匮乏的。

业务条件不完美:
数据挖掘项目通常都是跨团队的协作项目。
例如上面的酒店业务,需要与业务进行了更深入的讨论,最后确定目标是提升酒店运营人员的效率
项目降低了酒店运营60%的人力成本。

数据挖掘只能在有限的资源与条件下去提供最大化的解决方案
与业务方进行深入的沟通,同时对你所掌握的数据有充分的认识,对业务的难点和重点有明确的区分。
建立需求多方评估机制,让业务专家与技术专家参与进来,评估需求的合理性以及你的数据情况 。
对需求讲行坼解,以最大化在数据限制和业务限制前提下的项目效果 。

2、业务背景和目标

在进行数据挖掘之初就要去明确业务背景和业务目标
需求的产生必然是因为某种分析需求、某个问题或者某个业务目标的需求。
假设你现在是一个自媒体平台,
自媒体作者发布文章,很多用户会来看这些内容,从而产生互动行为
这些会刺激作者继续创作,而作者持续发布好内容又会吸引更多的用户来浏览

需求:要对发布内容的自媒体做一个贡献度评级模型
贡献度该如何去衡量?
对于一个作者,贡献度体现在他的内容上

  • CTR(点击率)高的内容贡献度高,还是有独特观点的内容贡献度高?
  • 能引发讨论的内容贡献度高,还是技术深度更深的内容贡献度高?
  • 发布内容的频率高贡献度高,还是发布的内容够长贡献度高? 

你应该展开沟通,并成立专家小组来对目标进行评审:
在沟通的过程中了解到:业务背景是在打造品牌影响力的时候,发现很多用户对我们的内容产生了质疑,业务方希望能够对作者形成一种分级制度。

3、把握数据

作为一个数据挖掘工程师,需要对你要用到的数据了如指掌
收集、存储、转换数据都是十分重要的环节。

1.是否有数据
是否有这样一个数据集来支持你做这样一个模型,来完成这样一个需求,来回答业务的问题

2.有多少数据
数量的不同会影响处理方式

3.是什么样的数据
需要考虑的是这些维度是否可以支持完成业务需求,是否与所提出的问题有关系4.标签
比如监督学习任务,每条数据都需要有结果的标注,这也是模型或者算法要学习的结果

总结

  • 思想准备――确保自己已经具备了一个专业的数据挖掘工程师的思维模式
  • 理解业务―—确保与业务需求方的充分沟通,对业务需求的充分理解
  • 理解数据――确保对可以掌握的数据有全面的了解,知道哪些数据有用,哪些数据没用