Strategic Business Analytics
data只是手段,不是最终目的,数据分析只是我们解决问题的众多方法之一
Part 1
方法论
四大技能:分析、IT技术(统计)、商业知识、沟通技能
分析过程要兼顾:技术(统计)上的合理性、商业上的合理性、常识上的合理性
沟通技能:尽可能将分析结论简化、形象化(运用类比),帮助stakeholders理解
变量的选择要兼顾可实施性
技术
数据预处理:数据归一化
参数选择:一定要服务于actionable recommendations
要谨记:相关性不代表因果性
聚类分析:
- 应用于客户服务、市场分析,是商业分析的重点之一
- 统计上应该通过dendrogram来确定聚类数量,但在实务中通常根据具体的商业逻辑来决定
- 聚类后通过ANOVA来分析组间差异
- 不存在「最优」聚类,聚类的目的是为了分情况解决具体的问题
分析方法
线性模型虽然简单,但在实务中最有效,复杂的AI方法给分析效果的提升并不明显。复杂的方法可能有更好的精度,但我们需要的不仅仅是一个blackbox model,我们需要能够通过模型分析变量,来解决具体的问题(事实上blackbox model也可以通过敏感性实验来进行变量分析)
相关分析(回归分析)可以用于预测,分析因子对于目标指标的影响。 在实务中有些因子的控制成本不一样,效果也不一样。这能够帮助进行有效的决策
时刻谨记:相关分析极有可能导致因果倒置。分析结果仅供参考。决策需要结合具体情况来分析
实务中,我们使用线性模型回归的目的是找到重要的factor,而不是回国模型本身。找到重要的factor之后我们会针对性的(利用可视化手段)分析这个factor与目标变量的关系(使用可视化图表)而将模型放到一边。因为商业分析的重点不是统计、而是决策
预测分析
需要避免後此謬誤(拉丁语:post hoc)或後此故因此(拉丁语:post hoc ergo propter hoc;英语:after this, therefore because of this),又稱巧合關係(英语:coincidental correlation),是逻辑学研究中经常遇到的认识错误。它是指这样一种不正确的推理:如果A事件先于B事件发生,A事件则是B事件的原因。
沟通技能
展示统计分析结果时,尽可能去除术语(显著性、p值、t值等),直接汇报简化后的、便于决策的结果
PPT中避免不必要出现的任何细节,以免给读者带来困惑(Occam's Razor)
PPT 样式(色彩、字体、排列)前后一致,这是美观要求
PPT 避免使用三围图表
讲一个完整的故事,而不是技术汇报,听众并不 care你的技术细节,听众关心的是结论(如果听众懂技术,还要你干嘛?)
不要关注你的技术多么先进,不要让听众觉得你在自己的技术里自娱自乐。而要从听众利益出发,关注听众关心的内容
不要简单的列举解决方案,还要分析利弊得失,最小代价最大化收益地解决问题
一个好的报告应该是story-driven,引人入胜
当找到重要的因子后,简单的图表可视化可能是比较有效的结果呈现手段
商业咨询中的PPT经常用做written document,需要人们能够没有讲解的情况下被人理解,因此PPT中经常会包含更多的信息。最好再包含一个take-away message summary
考虑到有些人只有时间读title,每个slide都要有一个简明扼要的action title
PPT第一步通常是获取听众注意:通常利用pain point
实务案例
1 聚类分析:对case分组处理 2 相关分析:寻找与因变量相关的factor并辅助决策 3 预测分析Survival analysis:回答「员工会在多久之内离职」,「消费者多久会离开」,「贷款者何时会违约」这这类问题中,因变量不能是bool的,因为那些还没有发生的(离职、违约)不代表永远不会发生。
供应链管理(supply chain management):对数据进行聚类分析,将SKU分为四类((不)可预测的需求,高/低利润),并分情况处理
HR管理:分析离职员工的特点
Part 2 marketing analytics
三大问题:
- who are my customers
- which customer should I targeted ( and spend my marketing budget on )
- What is future value of my customers
三大方法
- segmentation
- scoring model
- customer life time value
用户分类-聚类分析
- 根据用户特征进行非监督分类,针对不同特征的用户采取不同的marketing策略
- 核心问题在于:如何定义相似性(距离)
- 根据具体的研究需要,选择特定的特征进行相似性计算
- 常用的聚类指标RFM
- Recency最新消费时间
- Frequency消费频率
- Monetary Value 消费金额
- 距离计算前,务必进行数据归一化
- 部分数据还需要进行log变换:比如金钱
Managerial segmentation
- 传统的分类方式很难在实务中应用
分类的原则:
- 类数不要太多,否则难以解释
- 分组特征与管理执行相关,能够辅助商业决策
分类的分析:
- 简单的分析就是描述一下各类型的各feature的平均值
- 高级的分析就是跳到一年前,看看各个customer曾经属于哪个类型,现在属于哪个类型,各个分组之间是如何流动的的?
根据去年各个group中消费者在今年的消费情况,预判今年各个group中消费者的未来消费情况,同时以此为基准开展决策
Predictive analysis 比如预测一个female是否在备孕(推送孕妇产品)、预测一个人的信用指数(决定是否放贷)
要素:
- Calibration Data
- Statistical model
Scoring model:是分析消费者在特定时间范围内的消费金额、以及是否消费的概率。概率乘以预测消费金额就是预期的消费金额,也就是这个消费者的socring
对于「金钱」相关变量,取对数往往比较有效,不同的金钱数量之间,更重要的不是绝对差异,而是相对差异:10000与10001之间的差异要小于10与11之间的差异;其它类似的变量有:频率
customer lifetime value
消费者的价值很重要: 比如两种营销策略:超低价促销和中等折扣促销,前者可以吸引更多的消费者,但是都是低价值消费者;相反,后者虽然不能吸引更多的消费者,但是吸引到的都是有价值的消费者
首先对消费者的短期价值分组:活跃与否、消费量高低等 然后计算不同分组之间的(每年)转移概率, 然后迭代该概率,计算长久时间内,消费者在不同的分组之间的转移情况
然后根据各个分组的平均预期收益,来估计未来的总收益(计算时可能要考虑time value of money)
Part 3 常见工作流程
Opportunity scan
- Understand
- Identify areas of opportunity
Proof of concept
- Workload micro-segementation
- outcome predictive modeling
- Root cause analysis
- Data mining & data matching
- Model office testing
Delivery
- Efficiency savings
- Increased income