Skip to content
Big Data Project Pre

Predicting Movie Box Office with Causal Inference and Machine Learning


写在前面

这是Big Data的开题报告pre的文字简略版

虽然选目标(票房预测)的很典, 不过加入因果发现还算有点新意吧

选该主题主要是因为以下几点:

  • 对因果发现比较感兴趣,想了解一下,然后选个比较经典的目标做一下方便检验效果
  • CV,NLP感觉做的太多了(事实上我听了的pre中好像除了一个组做玻尔兹曼机外,其他组都做些),而且如果做下游再训练感觉没什么创新,而且之前WorkShop2做过类似的
  • 上次项目留下的对于电影方向分析的执念

从确定主题到完稿ppt总共就用了一两天,所以其实还是很仓促的,最开始对于因果推断的沉淀还是不够, 所以其实整个的方案有待改进

Motivation

主要就是引入需求, 我们希望从投资方导演制片人之类的角度来预测电影的票房,比如在还没有具体开拍之前,考虑是不是要增加投资?要不要拉某个演员?或者剔除某个演员?这些举动对于票房的影响可能有多大?

显然这些因素之间不是独立同分布的, 且这涉及到反事实推理的需求

然后就可以引入因果推断

What is ?

这一段主要是很经典的举几个例子来引入因果的概念,同时和传统的票房预测方法作比较

比如经典的辛普森悖论,以此说明很多时候我们关注的是因果关系,不是依赖关系

辛普森悖论例子,感谢YS画的图
辛普森悖论例子,感谢YS画的图

由此可以引出一个比较基本的因果推断概念:

Correlation does not imply Causal relationship.

Why using ?

这里是进一步举例阐述引入因果相较于单纯基于相关性的优点

夏天随着天气变热,小店里游泳圈的销量和冰激凌的销量是正相关的,但是不能说我们不卖游泳圈就会导致没人买冰淇淋

这是一种虚假相关(Spurious Correlation)

而显然传统机器学习是基于Correlation的,所以它在学习目标函数的时中难免因此受到混淆偏差影响,从而导致出现缺乏迁移能力和可解释低的问题

由此可以发现引入因果相较于传统机器学习的优点

同时在我们这个课题里还有另外一些优点,比如下图所示

通过因果发现,删除不必要先验变量,发现更多的影响因子,从而优化预测模型
通过因果发现,删除不必要先验变量,发现更多的影响因子,从而优化预测模型

这里我们会对于电影评论进行某种基于词向量的语义识别,找可能潜在的一些特征关键词,然后再对这些特征进行因果发现,从而加强对于票房有影响的因素范围,而不是仅仅局限于基于先验知识选定的一些变量

(当然这一步有待进一步实验探索,可能会转为引入因果表征学习的一些相关方法?)

Methods

这是大概的初步流程图,作为一个"包饺子型"的开题报告,我们构建了一个集成学习方案

具体过程就不再赘述了

初步流程图,用ppt画的
初步流程图,用ppt画的

一个可能被QA的点是(不过老师非常好,没有QA我们):

尽管基于约束构建因果图的方法(指PC,FCI)的时候是基于条件独立性检验的,但是这不代表因果和相关性具有等价关系

相关性一般基于三种因素:因果关系,混淆偏差和样本选择

这里我们所做的就是希望去除其他两个因素