Skip to main content

Strategic Business Analytics

data只是手段,不是最终目的,数据分析只是我们解决问题的众多方法之一

Part 1

方法论

四大技能:分析、IT技术(统计)、商业知识、沟通技能

分析过程要兼顾:技术(统计)上的合理性、商业上的合理性、常识上的合理性

沟通技能:尽可能将分析结论简化、形象化(运用类比),帮助stakeholders理解

变量的选择要兼顾可实施性

技术

数据预处理:数据归一化

参数选择:一定要服务于actionable recommendations

要谨记:相关性不代表因果性

聚类分析:

  • 应用于客户服务、市场分析,是商业分析的重点之一
  • 统计上应该通过dendrogram来确定聚类数量,但在实务中通常根据具体的商业逻辑来决定
  • 聚类后通过ANOVA来分析组间差异
  • 不存在「最优」聚类,聚类的目的是为了分情况解决具体的问题

分析方法

线性模型虽然简单,但在实务中最有效,复杂的AI方法给分析效果的提升并不明显。复杂的方法可能有更好的精度,但我们需要的不仅仅是一个blackbox model,我们需要能够通过模型分析变量,来解决具体的问题(事实上blackbox model也可以通过敏感性实验来进行变量分析)

相关分析(回归分析)可以用于预测,分析因子对于目标指标的影响。 在实务中有些因子的控制成本不一样,效果也不一样。这能够帮助进行有效的决策

时刻谨记:相关分析极有可能导致因果倒置。分析结果仅供参考。决策需要结合具体情况来分析

实务中,我们使用线性模型回归的目的是找到重要的factor,而不是回国模型本身。找到重要的factor之后我们会针对性的(利用可视化手段)分析这个factor与目标变量的关系(使用可视化图表)而将模型放到一边。因为商业分析的重点不是统计、而是决策

预测分析

需要避免後此謬誤(拉丁语:post hoc)或後此故因此(拉丁语:post hoc ergo propter hoc;英语:after this, therefore because of this),又稱巧合關係(英语:coincidental correlation),是逻辑学研究中经常遇到的认识错误。它是指这样一种不正确的推理:如果A事件先于B事件发生,A事件则是B事件的原因。

沟通技能

展示统计分析结果时,尽可能去除术语(显著性、p值、t值等),直接汇报简化后的、便于决策的结果

PPT中避免不必要出现的任何细节,以免给读者带来困惑(Occam's Razor)

PPT 样式(色彩、字体、排列)前后一致,这是美观要求

PPT 避免使用三围图表

讲一个完整的故事,而不是技术汇报,听众并不 care你的技术细节,听众关心的是结论(如果听众懂技术,还要你干嘛?)

不要关注你的技术多么先进,不要让听众觉得你在自己的技术里自娱自乐。而要从听众利益出发,关注听众关心的内容

不要简单的列举解决方案,还要分析利弊得失,最小代价最大化收益地解决问题

一个好的报告应该是story-driven,引人入胜

当找到重要的因子后,简单的图表可视化可能是比较有效的结果呈现手段

商业咨询中的PPT经常用做written document,需要人们能够没有讲解的情况下被人理解,因此PPT中经常会包含更多的信息。最好再包含一个take-away message summary

考虑到有些人只有时间读title,每个slide都要有一个简明扼要的action title

PPT第一步通常是获取听众注意:通常利用pain point

实务案例

1 聚类分析:对case分组处理 2 相关分析:寻找与因变量相关的factor并辅助决策 3 预测分析Survival analysis:回答「员工会在多久之内离职」,「消费者多久会离开」,「贷款者何时会违约」这这类问题中,因变量不能是bool的,因为那些还没有发生的(离职、违约)不代表永远不会发生。

供应链管理(supply chain management):对数据进行聚类分析,将SKU分为四类((不)可预测的需求,高/低利润),并分情况处理

HR管理:分析离职员工的特点

Part 2 marketing analytics

三大问题:

  • who are my customers
  • which customer should I targeted ( and spend my marketing budget on )
  • What is future value of my customers

三大方法

  • segmentation
  • scoring model
  • customer life time value

用户分类-聚类分析

  • 根据用户特征进行非监督分类,针对不同特征的用户采取不同的marketing策略
  • 核心问题在于:如何定义相似性(距离)
    • 根据具体的研究需要,选择特定的特征进行相似性计算
  • 常用的聚类指标RFM
    • Recency最新消费时间
    • Frequency消费频率
    • Monetary Value 消费金额
  • 距离计算前,务必进行数据归一化
    • 部分数据还需要进行log变换:比如金钱

Managerial segmentation

  • 传统的分类方式很难在实务中应用

分类的原则:

  • 类数不要太多,否则难以解释
  • 分组特征与管理执行相关,能够辅助商业决策

分类的分析:

  • 简单的分析就是描述一下各类型的各feature的平均值
  • 高级的分析就是跳到一年前,看看各个customer曾经属于哪个类型,现在属于哪个类型,各个分组之间是如何流动的的?

根据去年各个group中消费者在今年的消费情况,预判今年各个group中消费者的未来消费情况,同时以此为基准开展决策

Predictive analysis 比如预测一个female是否在备孕(推送孕妇产品)、预测一个人的信用指数(决定是否放贷)

要素:

  • Calibration Data
  • Statistical model

Scoring model:是分析消费者在特定时间范围内的消费金额、以及是否消费的概率。概率乘以预测消费金额就是预期的消费金额,也就是这个消费者的socring

对于「金钱」相关变量,取对数往往比较有效,不同的金钱数量之间,更重要的不是绝对差异,而是相对差异:10000与10001之间的差异要小于10与11之间的差异;其它类似的变量有:频率

customer lifetime value

消费者的价值很重要: 比如两种营销策略:超低价促销和中等折扣促销,前者可以吸引更多的消费者,但是都是低价值消费者;相反,后者虽然不能吸引更多的消费者,但是吸引到的都是有价值的消费者

首先对消费者的短期价值分组:活跃与否、消费量高低等 然后计算不同分组之间的(每年)转移概率, 然后迭代该概率,计算长久时间内,消费者在不同的分组之间的转移情况

然后根据各个分组的平均预期收益,来估计未来的总收益(计算时可能要考虑time value of money)

Part 3 常见工作流程

  1. Opportunity scan

    • Understand
    • Identify areas of opportunity
  2. Proof of concept

    • Workload micro-segementation
    • outcome predictive modeling
    • Root cause analysis
    • Data mining & data matching
    • Model office testing
  3. Delivery

    • Efficiency savings
    • Increased income