Strategic Business Analytics

data只是手段，不是最终目的，数据分析只是我们解决问题的众多方法之一

Part 1

方法论

四大技能：分析、IT技术（统计）、商业知识、沟通技能

分析过程要兼顾：技术（统计）上的合理性、商业上的合理性、常识上的合理性

沟通技能：尽可能将分析结论简化、形象化（运用类比），帮助stakeholders理解

变量的选择要兼顾可实施性

技术

数据预处理：数据归一化

参数选择：一定要服务于actionable recommendations

要谨记：相关性不代表因果性

聚类分析：

应用于客户服务、市场分析，是商业分析的重点之一
统计上应该通过dendrogram来确定聚类数量，但在实务中通常根据具体的商业逻辑来决定
聚类后通过ANOVA来分析组间差异
不存在「最优」聚类，聚类的目的是为了分情况解决具体的问题

分析方法

线性模型虽然简单，但在实务中最有效，复杂的AI方法给分析效果的提升并不明显。复杂的方法可能有更好的精度，但我们需要的不仅仅是一个blackbox model，我们需要能够通过模型分析变量，来解决具体的问题（事实上blackbox model也可以通过敏感性实验来进行变量分析）

相关分析（回归分析）可以用于预测，分析因子对于目标指标的影响。在实务中有些因子的控制成本不一样，效果也不一样。这能够帮助进行有效的决策

时刻谨记：相关分析极有可能导致因果倒置。分析结果仅供参考。决策需要结合具体情况来分析

实务中，我们使用线性模型回归的目的是找到重要的factor，而不是回国模型本身。找到重要的factor之后我们会针对性的（利用可视化手段）分析这个factor与目标变量的关系（使用可视化图表）而将模型放到一边。因为商业分析的重点不是统计、而是决策

预测分析

需要避免後此謬誤（拉丁语：post hoc）或後此故因此（拉丁语：post hoc ergo propter hoc；英语：after this, therefore because of this），又稱巧合關係（英语：coincidental correlation），是逻辑学研究中经常遇到的认识错误。它是指这样一种不正确的推理：如果A事件先于B事件发生，A事件则是B事件的原因。

沟通技能

展示统计分析结果时，尽可能去除术语（显著性、p值、t值等），直接汇报简化后的、便于决策的结果

PPT中避免不必要出现的任何细节，以免给读者带来困惑（Occam's Razor）

PPT 样式（色彩、字体、排列）前后一致，这是美观要求

PPT 避免使用三围图表

讲一个完整的故事，而不是技术汇报，听众并不 care你的技术细节，听众关心的是结论（如果听众懂技术，还要你干嘛？）

不要关注你的技术多么先进，不要让听众觉得你在自己的技术里自娱自乐。而要从听众利益出发，关注听众关心的内容

不要简单的列举解决方案，还要分析利弊得失，最小代价最大化收益地解决问题

一个好的报告应该是story-driven，引人入胜

当找到重要的因子后，简单的图表可视化可能是比较有效的结果呈现手段

商业咨询中的PPT经常用做written document，需要人们能够没有讲解的情况下被人理解，因此PPT中经常会包含更多的信息。最好再包含一个take-away message summary

考虑到有些人只有时间读title，每个slide都要有一个简明扼要的action title

PPT第一步通常是获取听众注意：通常利用pain point

实务案例

1 聚类分析：对case分组处理 2 相关分析：寻找与因变量相关的factor并辅助决策 3 预测分析Survival analysis：回答「员工会在多久之内离职」，「消费者多久会离开」，「贷款者何时会违约」这这类问题中，因变量不能是bool的，因为那些还没有发生的（离职、违约）不代表永远不会发生。

供应链管理（supply chain management）：对数据进行聚类分析，将SKU分为四类（（不）可预测的需求，高／低利润），并分情况处理

HR管理：分析离职员工的特点

Part 2 marketing analytics

三大问题：

who are my customers
which customer should I targeted ( and spend my marketing budget on )
What is future value of my customers

三大方法

segmentation
scoring model
customer life time value

用户分类-聚类分析

根据用户特征进行非监督分类，针对不同特征的用户采取不同的marketing策略
核心问题在于：如何定义相似性（距离）
- 根据具体的研究需要，选择特定的特征进行相似性计算
常用的聚类指标RFM
- Recency最新消费时间
- Frequency消费频率
- Monetary Value 消费金额
距离计算前，务必进行数据归一化
- 部分数据还需要进行log变换：比如金钱

Managerial segmentation

传统的分类方式很难在实务中应用

分类的原则：

类数不要太多，否则难以解释
分组特征与管理执行相关，能够辅助商业决策

分类的分析：

简单的分析就是描述一下各类型的各feature的平均值
高级的分析就是跳到一年前，看看各个customer曾经属于哪个类型，现在属于哪个类型，各个分组之间是如何流动的的？

根据去年各个group中消费者在今年的消费情况，预判今年各个group中消费者的未来消费情况，同时以此为基准开展决策

Predictive analysis 比如预测一个female是否在备孕（推送孕妇产品）、预测一个人的信用指数（决定是否放贷）

要素：

Calibration Data
Statistical model

Scoring model：是分析消费者在特定时间范围内的消费金额、以及是否消费的概率。概率乘以预测消费金额就是预期的消费金额，也就是这个消费者的socring

对于「金钱」相关变量，取对数往往比较有效，不同的金钱数量之间，更重要的不是绝对差异，而是相对差异：10000与10001之间的差异要小于10与11之间的差异；其它类似的变量有：频率

customer lifetime value

消费者的价值很重要：比如两种营销策略：超低价促销和中等折扣促销，前者可以吸引更多的消费者，但是都是低价值消费者；相反，后者虽然不能吸引更多的消费者，但是吸引到的都是有价值的消费者

首先对消费者的短期价值分组：活跃与否、消费量高低等然后计算不同分组之间的（每年）转移概率，然后迭代该概率，计算长久时间内，消费者在不同的分组之间的转移情况

然后根据各个分组的平均预期收益，来估计未来的总收益（计算时可能要考虑time value of money)

Part 3 常见工作流程

Opportunity scan
- Understand
- Identify areas of opportunity
Proof of concept
- Workload micro-segementation
- outcome predictive modeling
- Root cause analysis
- Data mining & data matching
- Model office testing
Delivery
- Efficiency savings
- Increased income

Strategic Business Analytics

Part 1​

方法论​

技术​

分析方法​

预测分析​

沟通技能​

实务案例​

Part 2 marketing analytics​

用户分类-聚类分析​

Managerial segmentation​

customer lifetime value​

Part 3 常见工作流程​