# A First Course in Causal Inference **Repository Path**: weimsn/a-first-course-in-causal-inference ## Basic Information - **Project Name**: A First Course in Causal Inference - **Description**: A First Course in Causal Inference - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 2 - **Created**: 2025-01-05 - **Last Updated**: 2025-01-05 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # 伯克利"因果推断第一课"书籍, 附PDF书籍、R和Python代码 书籍目录为: - Ding, Peng. 2024. **Linear Model and Extensions**. [-Link-](https://arxiv.org/abs/2401.00649), [-PDF-](https://arxiv.org/pdf/2401.00649) - Ding, Peng. 2023. **A First Course in Causal Inference**. [-Link-](https://doi.org/10.48550/arXiv.2305.18793), [-PDF-](https://arxiv.org/pdf/2305.18793.pdf) - 数据和R代码已在Harvard Dataverse平台:https://github.com/apoorvalal/ding_causalInference_python?continueFlag=ec2eaf0d6252752ec40a0a3ed71bc715 - Python代码:https://dataverse.harvard.edu/dataset.xhtml?persistentId=doi:10.7910/DVN/ZX3VEV&continueFlag=ec2eaf0d6252752ec40a0a3ed71bc715 --- # 过去十年中,因果推断研究和教育的爆炸性增长 过去十年间,因果推断的研究和教育领域出现了爆炸性的兴趣增长,这得益于其在生物医学研究、社会科学、科技公司等领域的广泛应用。这与十年前我作为统计学博士生时的情况大相径庭。那时,因果推断并不是统计学中的主流研究话题,很少有本科和研究生课程提供因果推断的课程。在统计学的学术界,许多人仍然对因果推断的基础持怀疑态度。许多顶尖的统计学家由于其与数学统计传统训练不同的基本概念困难,而不愿接受因果推断。 因果推断在实证研究中的应用改变了统计学在研究和教育领域的面貌。归根结底,统计学不仅仅是关于抽象理论,还涉及到解决现实世界的问题。许多才华横溢的研究人员加入了推进我们对因果推断知识的行列。许多学生渴望学习最新的因果推断理论和方法,以便他们能更好地解决来自各个领域的问题。 由于学生的需求,我的同事们鼓励我开设一门因果推断课程。最初,我在政治科学和统计学下交叉开设了一门研究生级别的课程,这门课程曾由我的前同事Jas Sekhon在加州大学伯克利分校教授多年。后来,我为本科生和研究生都开发了这门课程。在加州大学伯克利分校,“因果推断”的课程编号是Stat 156和Stat 256,本科生在Stat 156,研究生在Stat 256。两个课程的学生使用相同的讲义,并参加由我和我的教学助理给出的相同讲座,尽管他们需要完成不同的家庭作业问题、阅读作业和最终项目。 鉴于我的学生在技术准备上的混合水平,我教学中最具有挑战性的部分是平衡本科生和研究生的兴趣。一方面,我想以直观的方式呈现材料,只要求本科生具备概率、统计、线性回归和逻辑回归的基本知识。另一方面,我还想向研究生介绍最新的研究话题和结果。这本书是我过去七年努力的产物。 # 给教师的建议 前言 本书包含29章正文和3章附录。加州大学伯克利分校实行学期制,每个学期有14周的讲座。我无法在一个学期内完成所有32章。以下是根据我自己的教学经验给出的一些建议。 附录 我从正文的章节开始,但要求我的助教回顾附录A和B中的基础知识。为了鼓励学生在阅读正文之前复习附录A-C,我也在学期初分配了一些来自附录A-C的家庭作业问题。 第一部分 第1章的关键主题是辛普森悖论。第2章介绍了潜在结果的概念,这是整本书的基础。 第二部分 不同的研究人员和教师可能对第二部分关于随机实验的材料有不同的看法。我与许多朋友讨论了第二部分当前呈现方式的利弊。随机实验中的因果推断相对直接,因为随机化消除了未测量的混杂因素。因此,一些朋友认为对于因果推断的初学者来说,第3至9章太长了。这也让我的一些学生感到失望,因为我花了一个月的时间在随机实验上。另一方面,我受过Imbens和Rubin(2015)的书的训练,并且相信要理解观察性研究,最好先理解随机实验。此外,我是Neyman(1923)和Fisher(1935)的经典研究的忠实粉丝。因此,第二部分深刻反映了我自己在统计学上的智力历史和个人品味。其他教师可能不想花一个月的时间在随机实验上,可以快速覆盖第5、7、8和9章。 第三部分 第三部分涵盖了未观测混杂因素的观察性研究的关键思想。观察性研究的四大支柱是结果回归、逆倾向得分加权、双重稳健和匹配估计,分别在第10、11、12和15章中介绍。第13和14章在教学中是可选的。但第13和14章的结果并非不有趣,所以我有时会涵盖其中的一个或两个结果,要求助教在实验室课程中涵盖更多,并鼓励学生通过分配一些来自这些章节的家庭作业问题来阅读它们。 第四部分 第四部分是观察性研究,包括未测量的混杂因素和重叠的新处理。然而,这部分远非完美,因为问题的复杂性和微妙性。第17、18和20章是核心,而第16和19章是可选的。 第五部分 第五部分讨论了工具变量的概念。第21、23和24章是关键,而第22和25章是可选的。 第六部分 第六部分是一些特殊主题。它们在某种意义上都是可选的。鉴于Baron-Kenny方法在中介分析中的流行,可能值得教授第27章。 省略的主题 本书没有涵盖一些流行的计量经济学方法,包括双重差分、面板数据和合成控制。教师可以参考Angrist和Pischke(2008)作为这些主题的参考资料。本书假设对概率和统计的背景知识准备最少。由于大多数入门统计课程使用频率主义者的观点,假设未知参数是固定的,我在本书中采用了这种观点,并省略了因果推断的贝叶斯观点。实际上,许多因果推断的基本思想来自贝叶斯观点,从Rubin(1978)开始。如果读者和学生对贝叶斯因果推断感兴趣,请阅读Li等人(2023)的综述论文。 助教的帮助 我的助教为我在加州大学伯克利分校的课程提供了宝贵的帮助。由于我无法涵盖我的笔记中的所有内容,我始终依赖他们在我的实验室中涵盖一些技术细节或R程序课程。 一些家庭作业问题的解决方案 我还准备了大多数理论问题的解决方案。如果你是因果推断课程的教师,请与我联系以获取解决方案,并提供关于您的课程的详细信息。 给读者和学生的额外建议 读者和学生可以先阅读我上面给教师的建议。此外,我还有另外两个建议。 # 作业问题 前言 本书的每一章都包含家庭作业问题。为了加深理解,尝试一些家庭作业问题是非常重要的。此外,一些家庭作业问题包含了有用的理论结果。即使你没有时间解决这些问题的细节,至少阅读问题的陈述也是有帮助的。 推荐阅读 本书的每一章都包含推荐阅读。如果你想在因果推断领域进行研究,这些推荐论文可以作为文献的有用背景知识。当我在加州大学伯克利分校教授研究生级别的因果推断课程时,我将以下论文分配给学生作为每周阅读,从第一周一直到学期结束: • Bickel等人(1975年); • Holland(1986年); • Miratrix等人(2013年); • Lin(2013年); • Li等人(2018b); • Rosenbaum和Rubin(1983b); • Lunceford和Davidian(2004年); • Ding和VanderWeele(2016年); • Pearl(1995年); • Angrist等人(1996年); • Imbens(2014年); • Frangakis和Rubin(2002年)。 许多学生对阅读上述论文的经历给了我积极的反馈。即使你不读这本书,我也推荐阅读上述论文。 # 书籍特点 在过去的十年中,已经出版了许多优秀的因果推断书籍。其中一些对我有深远的影响。当我在大学时,我在网上阅读了Imbens和Rubin(2015年)的一些草稿章节。它们完全挑战了我对统计学的思考方式,并帮助我建立了对因果推断的研究兴趣。我多次阅读Angrist和Pischke(2008年),并且每次重读都能获得新的见解。Rosenbaum(2002b)、Morgan和Winship(2015年)以及Hernán和Robins(2020年)是另外三本来自因果推断领域领先研究者的杰出书籍。 当我准备这本书时,Cunningham(2021年)、Huntington-Klein(2022年)、Brumback(2022年)和Huber(2023年)作为四本关于因果推断的最新优秀书籍出现。 得益于我在加州大学伯克利分校的教学经验,这本书具有以下特点,教师、学生和读者可能会觉得有吸引力: - 这本书假设对因果推断的准备最少,并在附录中回顾了基本的概率和统计知识。 - 这本书从统计学、生物统计学和计量经济学的角度涵盖因果推断,并从各个领域提取应用。 - 这本书使用R代码和数据分析来说明因果推断的思想。所有的R代码和数据集都在哈佛大学Dataverse上公开可用:[https://doi.org/10.7910/DVN/ZX3VEV](https://doi.org/10.7910/DVN/ZX3VEV)。 - 这本书包含家庭作业问题,可以作为本科生和研究生的教科书。教师也可以向我索要一些家庭作业问题的解决方案。 # 致谢 北京大学的耿直教授在我上大学时向我介绍了因果推断领域。Luke Miratrix、Tirthankar Dasgupta和Don Rubin教授在我哈佛大学统计系的博士论文委员会上任职。Tyler VanderWeele教授在哈佛大学公共卫生学院流行病学系监督我作为博士后研究员。 我在伯克利统计系的同事们创造了一个关键和富有成效的研究环境。Bin Yu和Jas Sekhon自从我成为初级教员以来一直非常支持。我的系主任Deb Nolan、Sandrine Dudoit和Haiyan Huang鼓励我开发“因果推断”课程。这对我而言是一次有益的经历。 我很幸运能与许多合作者合作,特别是Avi Feller、Laura Forastiere、Zhichao Jiang、Fang Han、Fan Li、Xinran Li、Alessandra Mattei、Fabrizia Mealli、Shu Yang和Anqi Zhao。我将在这本书中报告我从他们那里学到的东西。 许多加州大学伯克利分校的学生对我的讲义的早期版本提出了关键和建设性的评论。作为我的“因果推断”课程的助教,Emily Flanagan和Sizhu Lu仔细阅读了我的书的早期版本,并帮助我改进了这本书。 Joe Blitzstein教授仔细阅读了这本书的早期版本,并提出了非常详细的评论。解决他的评论使这本书有了显著的改进。Hongyuan Cao和Zhichao Jiang教授基于这本书的早期版本教授了“因果推断”课程。他们提出了非常宝贵的建议。 我也非常感激Young Woong Min、Fangzhou Su、Chaoran Yu和Lo-Hua Yuan的建议。 如果你发现任何错误,请随时给我发电子邮件。 ---