Predicting Movie Box Office with Causal Inference and Machine Learning
写在前面
这是Big Data的开题报告pre的文字简略版
虽然选目标(票房预测)的很典, 不过加入因果发现还算有点新意吧
选该主题主要是因为以下几点:
- 对因果发现比较感兴趣,想了解一下,然后选个比较经典的目标做一下方便检验效果
- CV,NLP感觉做的太多了(事实上我听了的pre中好像除了一个组做玻尔兹曼机外,其他组都做些),而且如果做下游再训练感觉没什么创新,而且之前WorkShop2做过类似的
上次项目留下的对于电影方向分析的执念
从确定主题到完稿ppt总共就用了一两天,所以其实还是很仓促的,最开始对于因果推断的沉淀还是不够, 所以其实整个的方案有待改进
Motivation
主要就是引入需求, 我们希望从投资方导演制片人之类的角度来预测电影的票房,比如在还没有具体开拍之前,考虑是不是要增加投资?要不要拉某个演员?或者剔除某个演员?这些举动对于票房的影响可能有多大?
显然这些因素之间不是独立同分布的, 且这涉及到反事实推理的需求
然后就可以引入因果推断
What is ?
这一段主要是很经典的举几个例子来引入因果的概念,同时和传统的票房预测方法作比较
比如经典的辛普森悖论,以此说明很多时候我们关注的是因果关系,不是依赖关系
由此可以引出一个比较基本的因果推断概念:
Correlation does not imply Causal relationship.
Why using ?
这里是进一步举例阐述引入因果相较于单纯基于相关性的优点
夏天随着天气变热,小店里游泳圈的销量和冰激凌的销量是正相关的,但是不能说我们不卖游泳圈就会导致没人买冰淇淋
这是一种虚假相关(Spurious Correlation)
而显然传统机器学习是基于Correlation的,所以它在学习目标函数的时中难免因此受到混淆偏差影响,从而导致出现缺乏迁移能力和可解释低的问题
由此可以发现引入因果相较于传统机器学习的优点
同时在我们这个课题里还有另外一些优点,比如下图所示
这里我们会对于电影评论进行某种基于词向量的语义识别,找可能潜在的一些特征关键词,然后再对这些特征进行因果发现,从而加强对于票房有影响的因素范围,而不是仅仅局限于基于先验知识选定的一些变量
(当然这一步有待进一步实验探索,可能会转为引入因果表征学习的一些相关方法?)
Methods
这是大概的初步流程图,作为一个"包饺子型"的开题报告,我们构建了一个集成学习方案
具体过程就不再赘述了
一个可能被QA的点是(不过老师非常好,没有QA我们):
尽管基于约束构建因果图的方法(指PC,FCI)的时候是基于条件独立性检验的,但是这不代表因果和相关性具有等价关系
相关性一般基于三种因素:因果关系,混淆偏差和样本选择
这里我们所做的就是希望去除其他两个因素
Related Work
略