数据分析4--相关分析

文章详细阐述了如何在数据分析中探究两个或多个变量之间的相关性,包括皮尔逊、斯皮尔曼和肯德尔相关系数的使用。同时强调了相关性不等同于因果性,并介绍了因果推断的重要性,如双重差分法、合成控制法等方法,帮助数据分析师正确理解和建立变量间的关系。
摘要由CSDN通过智能技术生成

数据分析中如何探究两个或者多个变量之间的相关性?注意⚠️相关性并不等于因果性,因此基于相关性,数据分析师还会开展一系列的因果性分析。

相关性分析是数据分析中较为常用的方法,数据分析师在日常工作中经常会使用该方法。举个例子,对于游戏用户留存分析来说,数据分析师会去探讨用户在线时长、好友组队、比赛场次等多种因素与用户留存之间的相关性,以辅助运营人员或产品专员及时调整策略提升用户留存率。

一、相关系数

两变量的相关关系有三种,即正相关、负相关、不相关。

r系数:当r>0时,两变量之间呈现正相关关系;当r=0时,两变量之间无线性相关关系;当r<0时,两变量之间呈现负相关关系。

 

在数据分析中,常用的相关系数有三种,即皮尔森相关系数、斯皮尔曼相关系数、肯德尔相关系数

1. 皮尔逊相关系数:

皮尔逊(Pearson)相关系数也称为积差相关系数,用于度量两个变量x和y之间的线性相关程度。在正式介绍皮尔逊相关系数之前,我们有必要先了解协方差的概念。协方差表示两变量总体的误差,通俗易懂的解释就是两个变量x,y在变化过程中是同向的还是反向的。x变大,y也变大,此时协方差为正;x变大,同时y变小,此时协方差为负。

只有当两个变量x, y满足以下条件,皮尔逊相关系数才适用:(1)两变量x, y之间是连续数据,且呈现线性关系。(2)两变量x, y的总体的数据分布是正态分布,或者接近正态的单峰分布。(3)两变量x, y的观测值是成对的,每对观测值之间相互独立。

2. 斯皮尔曼相关系数:

斯皮尔曼(Spearman)相关系数是一种秩相关系数。“秩”可以理解成一种顺序或者排序。该系数与皮尔逊相关系数类似,只不过把变量x,y的坐标换成各自的秩,即变量x,y的等级。斯皮尔曼相关系数是通过对两个等级变量x,y作差进行计算的,其本质是等级变量之间的皮尔逊相关系数。因此斯皮尔曼相关系数也称为“等级差数法”,它是一种无参数的检验方法,即与数据分布无关。对于样本容量为n的样本,n个原始数据被转换成等级数据,则其相关系数计算公式如公式 (di为两个等级变量x,y的差)

3. 肯德尔相关系数:

肯德尔(Kendall)相关系数也是一种秩相关系数,是用于反映分类变量的相关性的指标。对于样本容量为n的样本,其数据点对分别为[插图],那么一共有[插图]对样本对,然后看每一对中x,y的观测值是否同时增大(或同时减小)。比如,考虑点[插图],[插图],可以计算乘积[插图]是否大于0,如果大于0,则说明x, y同时增大或者同时减小,称这两点为协同(Concordant)点,否则为不协同(Disconcordant)点。如果协同点数多一些,两变量更加正相关一些;如果两变量不协同点数多一些,则两变量更加负相关一些;如果既不正相关,也不负相关,则不相关[7]。肯德尔相关系数的取值范围是-1~1,当其值等于1时,表示两随机变量拥有一致的等级相关性;当其值为-1时,表示两随机变量拥有相反的等级相关性;当其值等于0时,表示两随机变量是相互独立的[7]。肯德尔相关系数适用于两变量x,y为有序分类的情况。 

二、相关与因果

相关性不等于因果性!

相关性很大程度上可以判断两个变量之间的关系。但是作为数据分析师,对于相关性的运用必须谨慎,因为相关性不等于因果性,相关关系不等于因果关系。

为什么会这样呢?这里举几个例子进行说明。根据美国疾病控制预防管理中心统计数据显示,美国的自杀人数与财政在自然科学领域的投入资金呈正相关关系。财政在自然科学领域的投入资金与自杀人数之间虽然呈现正相关关系,但是两变量之间并不存在因果关系,显然美国政府不可能通过减少在自然科学领域的投入资金来降低民众自杀率。由此可见,相关关系不等于因果关系,但因果关系首先是相关关系。类似的案例很多,这里就不再一一列举。通过这个案例,你已经理解了相关性和因果性之间的关系了,知道了相关性并不等于因果性,那么如何才能确定两个变量是否具有因果关系呢?这就涉及因果推断。

从辛普森悖论谈因果推断

 

 

上述辛普森悖论的思路就是基本的因果推断的分析思路,其研究要点有二:

一是因果发现(Causal Discovery),即挖掘变量之间真正因果关系,辨识并剔除伪因果关系;

二是确定因果效应(Causal Effect),即确定实施干预后为观测值带来多大的提升。 

因果推断

 因果推断的方法:

随机试验在实施过程中可能受到多种因素的影响,例如,试验组的样本并未接受干预,如果只分析试验组中接受干预的样本数据,无疑会存在“幸存者偏差”。为了避免“幸存者偏差”,可以考虑将对照组与试验组进行比较,但是试验组中未接受干预的样本会削弱试验效果。面对这种情况可以使用依从者的平均因果效应(ComplierAverage Causal Effect,CACE)法进行因果推断,该方法是工具变量(Instrumental Variable)法的一种[12,13]。

在随机试验时,每个样本都有自己的偏好和需求,因此可能存在同样的干预手段在不同组别中效果不一样的现象。面对这类情况,可以使用异质性处理估计(Heterogeneous Treatment Estimation,HTE)法。另外,营销增益模型(Uplift Model)及分位数回归(Quantile Regression)法在该情况下也适用。如果想要探究干预是如何影响结果的,可以选择中介模型(Mediation Model),该模型可以打开试验干预与结果之间的黑匣子,以揭示潜在机制。 

 断点回归(Regression Discontinuity)是一种接近于准自然试验的设计,其基本思想是将某一连续变量随机进行分段,分析断点前后结果变量是否存在差异。举个例子来说,高考一本线可近似认为是一个断点,研究考上一本和未考上一本对未来收入的影响可近似认为是一个断点回归模型[17]。

双重差分法(Differences-in-Differences)又称“倍差法”,也称“差中差”,是因果推断的重要利器。双重差分法的主要思想是通过对比干预前后结果变量之间的差异,衡量干预行为的效果[10]。双重差分法可用于研究商品价格调整前后客户购买率及复购率的差异。

合成控制法(Synthetic Control Method,SCM)是基于反事实框架的因果推断方法,该方法最初用于评估某个政策在某国家或地区实施的效果[18]。以评估某政策在某区域的实施效果为例,如果使用合成控制法进行因果推断,其实施过程如下。首先,假设该地区没有受到干预,数据分析师通过其他相似的地区合成一个新的地区作为对照组;然后,将对照组与事实上受到干预的试验组做对比,二者之差即“处理效应”。

倾向性得分匹配(Propensity Score PSM)也基于反事实推断理论框架,该方法主要用于减少数据偏差及混杂变量的影响,以更加合理地比较试验组和对照组。倾向性评分是一个能够反映多个混杂因素影响的综合指标,在观察性研究中,数据分析师可以将两组样本按照倾向性评分从小到大进行匹配,以达到仅用倾向性评分一个指标同时控制多个混杂因素的目的。

因果推断常用的框架

 实战:

微软提出的因果推断开源框架DoWhy,通过该框架探究影响用户取消酒店预订的关键因素。

不上晚自习
关注 关注
  • 13
    点赞
  • 69
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
数据存储、数据源头、安全问题、数据代码、敏感数据
Homecon的博客
08-09 620
极客时间《Java业务开发常见错误100例》学习笔记 数据存储 Redis 对单条数据的读取性能远远高于 MySQL,但不适合进行范围搜索。 InfluxDB 对于时间序列数据的聚合效率远远高于 MySQL,但因为没有主键,所以不是一个通用数据库。 ES 对关键字的全文搜索能力远远高于 MySQL,但是字段的更新效率较低,不适合保存频繁更新的数据。 主数据由两种 MySQL 数据表构成,其中索引表承担简单条件的搜索来得到主键,Sharding 表承担大并发的主键查询。主数据由同步写服务写入,写入.
数据分析方法)相关性分析
junerli的博客
05-07 1万+
相关关系是指变量的数值之间存在着依存关系,即一个变量的数值 会随着另一个变量或几个变量的数值变化而呈现出一定的变化规律。很多时候,我们都需要分析数据之间的相关性,相关性分析数据回归前提,具有相关性的数据可以进一步进行回归分析。在 客观现实中,许多现象之间都存在着某种相互关联的关系。例如,降雨 量与云层厚度之间的关系;居民收入增长率与物价指数的关系;人的身 高和体重的关系;汽车行驶速度与行驶里程之间的关系;圆的面积与圆 的半径之间的关系等。
相关性分析相关性分析和差异性分析
最新发布
zhu134的博客
08-03 1489
数学建模的常见算法
5种常用的相关分析方法
热门推荐
xiwan0902的博客
05-16 18万+
相关分析(Analysis of Correlation)是网站分析中经常使用的分析方法之一。通过对不同特征或数据间的关系进行分析,发现业务运营中的关键影响及驱动因素。并对业务的发展进行预测。本篇文章将介绍5种常用的分析方法。在开始介绍相关分析之前,需要特别说明的是相关关系不等于因果关系。 相关分析的方法很多,初级的方法可以快速发现数据之间的关系,如正相关,负相关或不相关。中级的方法
数据分析数据相关性分析
学者的博客
01-07 3293
本文介绍相关性分析的方法和工具。从三个常用相关系数(pearson,spearman,kendall)的定义出发,说明相关性分析的原理和作用。
数据分析与预测(四)——相关性分析
qq_31329259的博客
02-11 6634
变量之间的相关性分析主要包括: 分析变量自身的规律 自相关分析相关分析 分析任意两个等长数列之间的相关性 简单相关分析 允许在一定的间隔下进行简单的相关分析相关分析 分析两组变量的相关性 典型的相关分析 相关图的绘制 一、相关矩阵图 import matplotlib.pyplot as plt import numpy as np import pandas as pd from sklearn import datasets im
旅游数据的分析-旅游数据的分析系统-旅游数据的分析管理系统java代码-基于springboot的旅游数据的分析系统-项目代码
04-11
旅游数据的分析-旅游数据的分析系统-旅游数据的分析系统源码-旅游数据的分析管理系统-旅游数据的分析管理系统java代码-旅游数据的分析系统设计与实现-基于springboot的旅游数据的分析系统-基于Web的旅游数据的分析...
数据分析技术-教案-刘明.docx
03-12
- **SAS软件及有关数据分析过程**:教授如何使用SAS软件进行数据分析的具体操作流程,包括数据导入、清洗、分析等。 #### 五、章节知识点详解 1. **数据描述分析** - **数字特征**:介绍数据的中心趋势度量(均值...
旅游数据的分析-旅游数据的分析系统-旅游数据的分析系统源码-基于Web的旅游数据的分析系统设计与实现-毕设项目java代码-代码
04-11
旅游数据的分析-旅游数据的分析系统-旅游数据的分析系统源码-旅游数据的分析管理系统-旅游数据的分析管理系统java代码-旅游数据的分析系统设计与实现-基于springboot的旅游数据的分析系统-基于Web的旅游数据的分析...
大数据分析技术-航空公司客户价值分析(一).doc
08-21
大数据分析领域,航空公司客户价值分析是至关重要的一个环节,旨在优化运营策略,提升客户满意度,从而增加收入和利润。本实验报告详细介绍了如何利用大数据分析技术对航空公司客户数据进行处理和建模,以评估和...
数据分析-电商数据分析
05-11
- `cosmetic.py`: 包含了与化妆品相关的数据分析函数。 - `table.html`: 表格图表的 HTML 文件。 - `citys.html`: 各城市订单数量统计的 HTML 文件。 - `days.html`: 每日订单趋势图表的 HTML 文件。 - `hours....
数据挖掘入门指南!!!
Datawhale
04-18 2424
Datawhale作者:王瑞楠、吴忠强、徐韬、田杨军摘要:入门数据挖掘,必须理论结合实践。本文梳理了数据挖掘知识体系,帮助大家了解和提升在实际场景中的数据分析、特征工程、建模调参和模...
16种常用的数据分析方法-相关分析
05-26 1万+
相关性分析研究现象之间是否存在某种依存关系,对具体有依存关系的现象探讨相关方向及相关程度。 相关分析是一种简单易行的测量定量数据之间的关系情况的分析方法。可以分析包括变量间的关系情况以及关系强弱程度等。 如:身高和体重的相关性;降水量与河流水位的相关性;工作压力与心理健康的相关性等。 相关性种类 客观事物之间的相关性,大致可归纳为两大类: 一、函数关系 函数关系是两个变量的取值存在一个函数来唯一描述。 比...
数据分析相关性分析相关的概念
m0_46689661的博客
03-04 1824
期望:是描述一组数据的中心倾向的一个指标之一。(均值,求平均数) 方差:是描述一组数据的离散程度的指标,标准差即方差的开方。 协方差: 是用来衡量两个变量的总体误差,如果两个变量的变化趋势一致,协方差就是正值,说明两个变量正相关。 如果两个变量的变化趋势相反,协方差就是负值,说明两个变量负相关。 如果两个变量相互独立,那么协方差就是0,说明两个变量不相关。 相关系数:一般可以使用相关系数来衡量两组数据的相关性,相关系数的取值范围为[-1,1],-1表示完全负相关,+1表示完全正相关。 相关性系
数据分析相关分析
m0_37228052的博客
08-15 5960
在很多研究中,研究者都把数据的相关性放在一个非常重要的位置上。甚至专门写上一整篇的文章阐述其研究变量之间的相关关系,足见其重要性。 通常,我们所说的“相关”都是一个较为模糊的概念,好像直觉告诉我们,这个事和那个人应该有关系,这个数字和那个现象似乎有联系,却始终没有办法得到一个明确的结论。 而相关分析则让这种模糊的直觉有了理论支持。如果想要考察两个变量之间是否存在相关性,我们第一个就...
数据的相关性
qq_39112101的博客
09-16 709
数据进行去重 加载数据 detail = pd.read_excel("./meal_order_detail.xlsx") print("detail :\n",detail) 对amounts 进行去重,拿到菜品的单价数据来评估这家餐厅的消费水平预估。相关性在[-1,1]之间,0<corr是正相关,0>corr是负相关。method默认是皮尔逊相关系数,相...
数据相关
weixin_45010894的博客
10-10 264
关系型数据 JDBC :数据源 JDBCTemplate 自动装配 JPA: 实体映射关系 实体操作 自动装配 事务:Spring事务抽象 JDBC事务处理 自动装配 jabc依赖 <dependency> <groupId>org.springframework.boot</groupId> <artifactId>spring-boot-starter-jdbc</artifactId&gt
用Python进行数据分析——相关分析
CSDN_430422的博客
09-21 8314
近年来,各种机器学习算法越来越多地被应用于数据挖掘与其相关性分析中,旨在实现通过输入数据(特征)即能准确地预测输出数据(标签),从而辅助我们作判断与决策。本篇首先学习两种最基本的机器学习算法:线性回归与逻辑回归。在Python中,使用机器学习算法须导入专用的包scikit-learn,导入方式与numpy/pandas类似。
写文章

热门文章

  • 数据分析4--相关分析 5990
  • 数据分析3--对比法(AB test) 4002
  • 数据分析2--数据指标体系与数据异动分析 2776
  • Python爬虫 914
  • 数据分析--机器学习 629

最新评论

  • 计算机网络

    CSDN-Ada助手: 恭喜您撰写了第9篇博客《计算机网络》!您的持续创作真是令人钦佩。这篇博客对于理解计算机网络的重要性一定起到了很好的引导作用。在下一步的创作中,您可以考虑探索一些具体的网络协议或是深入研究网络安全等相关话题,以便更加全面地帮助读者理解和应用计算机网络。期待您的继续努力!

  • 数据分析1--数据思维

    CSDN-Ada助手: 推荐 MySQL入门 技能树:https://edu.csdn.net/skill/mysql?utm_source=AI_act_mysql

最新文章

  • Python爬虫
  • 计算机网络
  • Data Analysis-统计
2024年1篇
2023年9篇

目录

目录

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43元 前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值

玻璃钢生产厂家广东玻璃钢雕塑摆件怎么样河南玻璃钢花盆设计企业蒙自市玻璃钢雕塑批发厂家苏州仿真玻璃钢雕塑制作玻璃钢雕塑中国风商场美陈恐龙玻璃钢雕塑定制四平卡通玻璃钢雕塑价格黄骅玻璃钢门头雕塑云南玻璃钢卡通雕塑生产厂家乌兰察布玻璃钢雕塑安徽主题公园玻璃钢雕塑工厂温州校园玻璃钢雕塑公园小品玻璃钢雕塑价格台州玻璃钢卡通雕塑价格河北商场美陈生产公司天水动物玻璃钢雕塑价格雕塑玻璃钢雕塑公司2020流行的商场美陈贺州玻璃钢泡沫雕塑公司厂销景观小品玻璃钢鹰雕塑党建玻璃钢雕塑泰州白色玻璃钢花盆佛山玻璃钢脚模型雕塑深圳室内商场美陈销售企业开封玻璃钢卡通雕塑定做厂家江苏特色商场美陈哪家好北京玻璃钢字母座椅雕塑福建常见商场美陈采购杭州玻璃钢雕塑摆件供货商香港通过《维护国家安全条例》两大学生合买彩票中奖一人不认账让美丽中国“从细节出发”19岁小伙救下5人后溺亡 多方发声单亲妈妈陷入热恋 14岁儿子报警汪小菲曝离婚始末遭遇山火的松茸之乡雅江山火三名扑火人员牺牲系谣言何赛飞追着代拍打萧美琴窜访捷克 外交部回应卫健委通报少年有偿捐血浆16次猝死手机成瘾是影响睡眠质量重要因素高校汽车撞人致3死16伤 司机系学生315晚会后胖东来又人满为患了小米汽车超级工厂正式揭幕中国拥有亿元资产的家庭达13.3万户周杰伦一审败诉网易男孩8年未见母亲被告知被遗忘许家印被限制高消费饲养员用铁锨驱打大熊猫被辞退男子被猫抓伤后确诊“猫抓病”特朗普无法缴纳4.54亿美元罚金倪萍分享减重40斤方法联合利华开始重组张家界的山上“长”满了韩国人?张立群任西安交通大学校长杨倩无缘巴黎奥运“重生之我在北大当嫡校长”黑马情侣提车了专访95后高颜值猪保姆考生莫言也上北大硕士复试名单了网友洛杉矶偶遇贾玲专家建议不必谈骨泥色变沉迷短剧的人就像掉进了杀猪盘奥巴马现身唐宁街 黑色着装引猜测七年后宇文玥被薅头发捞上岸事业单位女子向同事水杯投不明物质凯特王妃现身!外出购物视频曝光河南驻马店通报西平中学跳楼事件王树国卸任西安交大校长 师生送别恒大被罚41.75亿到底怎么缴男子被流浪猫绊倒 投喂者赔24万房客欠租失踪 房东直发愁西双版纳热带植物园回应蜉蝣大爆发钱人豪晒法院裁定实锤抄袭外国人感慨凌晨的中国很安全胖东来员工每周单休无小长假白宫:哈马斯三号人物被杀测试车高速逃费 小米:已补缴老人退休金被冒领16年 金额超20万

玻璃钢生产厂家 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化