相关文章
大数据分析案例-基于朴素贝叶斯算法构建电信客户流失分析预警模型
2024-12-07 03:56
大数据分析案例-基于朴素贝叶斯算法构建电信客户流失分析预警模型 数据分析

🤵‍♂️ 个人主页@艾派森的个人主页

大数据分析案例-基于朴素贝叶斯算法构建电信客户流失分析预警模型

🏻作者简介:Python学习者 🐋 希望大家多多支持,我们一起进步😄 如果文章对你有帮助的话, 欢迎评论 💬点赞👍🏻 收藏 📂加关注+


目录

1.项目背景

2.项目简介

2.1数据说明

2.2变量介绍

 2.3技术工具

3.算法原理

4.项目实施步骤

4.1导入数据

4.2理解数据

4.3数据预处理

4.4数据可视化

4.5特征工程

4.6建立模型

5.实验结论与建议


        在进入21世纪以来,中国电信业告别了20世纪最后阶段的高速发展状态,转而进入稳步发展阶段。近年来,随着通信的成本逐年下降,电信市场用户覆盖率近乎100%,几乎没有可开发的新市场,移动、联通、电信三大电信企业完全占据了电信服务市场,电信行业的不断进步,使得各大电信运营商自身服务体系不断完善,目前我国的三大运营商均实现了全业务经营 ,这意味着行业内存在产品、服务、模式等方面的高度同质化,企业间难以实现差异化竞争优势。现如今的竞争环境,迫使运营商的经营重点向有利于电信消费者的方向移动,为了维持客户的保有量,对各运营商的服务体系提出了更高的要求。      

在当今的电信市场环境下,进行客户关系管理(CRM,维系企业与客户之间的关系尤为重要。客户关系管理要求企业在开发新客户和对已有客户进行挽留两方面足够重视。相关机构在对客户满意度进行调查时,有数据表明,对于一个想要不断扩大其客户基数的企业而言,开发一个新客户企业所要花费的成本可以达到挽留一个已有客户所花费成本的五倍。然而,就电信市场而言,维系一位老客户不流失企业可以获得的利润可以达到开发新客户所带来利润的16倍。可以说电信行业通过降低客户流失率同时满足其运营成本降低和利润增加两方面的要求。因此,相较于不断开发新客户而忽视企业已有客户的重要性,维系老客户更契合于电信运营商的价值导向。               

        客户流失现象的发生是必然的,一般情况下无法避免,但可以通过采取积极的预防策略、营销方案等,抑制客户的流失意愿,进而降低客户群体的流失比率。电信企业要提前预测出可能会存在流失问题的客户,通过准确地对可能流失的客户进行定位,可以使得企业调整其决策方向,分配一定的内部资源对可能流失的客户开展积极的挽留政策,降低客户的流失率。解决现有电信服务体系相对于该目标群体存在的问题,提高客户对服务的满意度,进一步减少客户流失带来的损失。

        采用数据挖掘技术和大数据技术是实现预测的关键。利用大数据技术可以处理海量数据的特点,对客户资料、客户的行为方式,包括客户消费行为、使用行为等信息进行提取操作,从数据之间的相互关联性出发,找出不同数据之间可能存在的潜在规律,挖掘出隐藏在数据之间的潜在关系,预测和分析客户的现状和倾向,可以使企业达到及时并有针对性的对可能流失的客户进行挽留。

图2-1 原始数据 

该研究数据来自公开数据集网站,集中包括了客户的21条属性,包括客户ID,性别,是否老年人,婚否等方面信息。

下面对原始数据中的变量进行相关说明,变量说明如下所示。

表2-1相关变量说明

变量名称

变量类型

变量解释

customerID

字符串

客户ID

gender

字符串

性别

SeniorCitizen

数值型

客户是否老年人(是:1;否:0

Partner

字符串

客户是否有伴侣(是:Yes;否:No

Dependents

字符串

客户是否经济独立(是:Yes;否:No

tenure

数值型

客户使用公司服务的月数(0-72之间

PhoneService

字符串

客户是否办有电话服务(是:Yes;否:No

MultipleLines

字符串

客户是否办理了多条电话服务渠道(是:Yes;否:No

InternetService

字符串

客户的网络服务提供线路(DSL:数字用户线路, Fiber optic:光纤线路, No:未办理网络服务

OnlineSecurity

字符串

客户是否使用网络安全服务(是:Yes;否:No;未开通网络:No internet service

OnlineBackup

字符串

用户是否使用网络备份功能(是:Yes;否:No;未开通网络:No internet service

DeviceProtection

字符串

客户是否开启设备保护(是:Yes;否:No;未开通网络:No internet service

TechSupport

字符串

客户是否使用技术支持功能(是:Yes;否:No;未开通网络:No internet service

SteamingTV

字符串

客户是否办理 数字电视功能(是:Yes;否:No;为开通网络:No internet service

SteamingMovies

字符串

客户是否办理数字电影功能(是:Yes;否:No;为开通网络:No internet service

Contract

字符串

客户的合约方式(每月签约:Month-to-month;一年:One year;两年:Two year

PaperlessBilling

字符串

客户是否开通电子账单(是:Yes;否:No

PaymentMethod

字符串

客户的付款方式(电子支票:Electronic check;邮寄支票:Mailed check;银行自动转账:Bank transfer(automatic;信用卡自动扣款:Credit card(automatic

MonthlyuCharges

字符串

客户的每月支出情况

TotalCharges

数值型

客户从使用至今的总支出情况

Churn

字符串

客户是否流失(已流失:Yes;未流失:No

python3.9、vscode编辑器

KNN算法参考

朴素贝叶斯算法参考

决策树算法参考

支持向量机算法参考

随机森林、Adaboost、GradientBoosting、XGBoost算法参考 

导入数据之前,首先把本次项目用的包也都全部导入

 

 导入数据

 

1.查看数据大小

 数据共有7043行,21列

2.查看数据基本信息

 

 

从上述结果看出,每列数据是不存在缺失值的 ,以及可以看出他们的数据类型

3.数值型数据的描述性统计

 

 

 从结果中可以看出这三列特征的均值、方差、最大最小值、四分位数等数值。

4.非数值型数据的描述性统计

 

 

 上面只展示了部分的非数值型特征。

1.缺失值处理

前面理解数据的时候,我们发现数据是没有缺失值的,再验证一下

 

 

经过验证,数据确实不存在缺失值

 2.重复值处理

先检验数据是否存在缺失值

 

 

结果为False ,说明数据没有重复值,如果有重复值的话,直接调用data.drop_duplicates(inplace=True)删除重复值。

3.异常值处理

先通过箱线图查看前面的数值型数据是否异常

 

 

 

 

通过观察上面两幅图,我们发现不存在异常值,而且通过第二幅图我们可以发现流失的客户大都是使用公司服务的月数较短,分布在1-3年内,也有极少数是使用了6年多的。

4.数据类型转换

通过观察数据,我们发现TotalCharges这一列应该是数值型类型,因此我们需要进行转换

 

 

结果,报错了,说的是这一列数据中存在空格的数据,先查看一下

 

 

果真出现了11个空格的数据,因此需要删除这些数据

 

 

 接着,重新进行数据类型转换

 

 接着,我们将TotalCharges和MonthlyCharges数据类型转换为整数类型,能提高后面模型的准确率

 

 

最后,我们将Churn是否流失这一列类型进行转换,便于后面的模型建立。

 

1.用饼图描述流失客户比例

 

 

其中,流失客户占比26.6%,未流失客户占比73.4%。

2.性别、老年人、配偶、亲属对客户流失率的影响

 

 

 由图可知,性别男女在电信企业客户流失中几乎没有影响,老年人相较于年轻人在电信企业流失概率更大,单身客户的流失比率相较于有伴侣的客户更大,经济不独立的客户相较于经济独立的客户流失比率更大。

3.热力图显示相关系数

 

由图可知,颜色越深达标相关性越强电话服务与多线业务之间存在较强的正相关性,设备保护,技术服务支持,网络电视,网络电影之间也存在较强的正相关性。

4.电信用户是否流失与各变量之间的相关性

 

 

由图可知,变量性别与变量电话服务的值接近于0,表明这两个变量对电信企业客户流失的影响特别小,在进行预测研究时,可不考虑。

5.网络安全服务、在线备份业务、设备保护业务、技术支持服务、网络电视、网络电影和无互联网服务对客户流失率的影响

 

 

 

 

由上图可以看出,签订合同方式对客户流失率影响为:按月签订>按一年签订>按两年签订,这可能标明,设定长期合同对留住现有客户更有效。

7.付款方式对客户流失率的影响 

 

 

 有上图可以看出,在四种支付方式中,使用Electronic check的用户流失率最高,而其他三种支付方式基本持平,因此可以推断电子账单在设计上影响用户体验。

数据标准化

 

使用箱线图查看数据是否存在异常值 

 

 

从结果看出,三个变量不存在明显的异常值 

 查看对象类型字段中存在的值

 

 

综合之前的结果来看,在这六个变量中存在NO internet service,即无互联网服务对客户流失率影响很小,这些客户不使用任何互联网产品,因此它和NO是一样的效果,可以使用no进行代替。

 

 

然后使用sklearn标签进行编码,将分类数据转换为整数编码

 

 

1.建立训练集和测试集

 

 

2.选择机器学习算法

 

 3.训练模型

 

4.评估模型

召回率(recall)的含义是:原本为对的当中,预测为对的比例(值越大越好,1为理想状态

精确率、精度(precision)的含义是:预测为对的当中,原本为对的比例(值越大越好,1为理想状态)。

F1分数(F1-Score)指标综合了Precision与Recall的产出的结果。

F1-Score的取值范围为0-1,1代表模型的输出最好,0最差。

 

 

 综上所述,在10中分类算法中朴素贝叶斯(Naive Bayes)的F1分数最大为63.8%,所有使用朴素贝叶斯模型效果最好。

5.结果预测

 

 

 后十位客户中,预测有三位流失,七位不流失。

  针对此研究,目前将电信行业客户流失的原因大体分为五大类,分别为:资费敏感、终端原因、服务原因、竞争对手、客户流动。现就这五大类流失原因进行分析如下

(1)资费敏感

资费敏感的客户可能会由于运营商提供的资费过于昂贵,或者强制被捆绑购买了不需要的套餐或服务而导致流失,转投向资费更便宜实惠的运营商。

(2)终端原因

由于终端原因流失的客户大都是最求高端靓机的客户,原电信运营商不能满足这部分客户追求潮流,追求更新技术的需求,造成了客户流失。

(3)服务原因

由于电信运营商的服务水平造成的客户流失反映在客户投诉上,运营商是否及时对客户的投诉信息进行处理,处理结果是否令客户满意极大影响着客户是否流失。

(4)竞争对手影响

在竞争市场上,如果竞争对手存在更好的服务,更优惠的政策将在一定程度上影响客户在本公司的流失。

(5)客户流动

由于客户搬迁或工作原因,也有可能会造成客户的流失。

客户流失预测研究最大的目的在于为营销部门提供有效的营销方案。对于不同原因流失的客户,企业应当采取不同的营销策略,对其进行挽留,以达到资源节约,效益最大的目的。

具体针对措施如下

1.对于资费敏感的客户,可进行话费赠送或优惠充值的活动,降低资费,挽留客户。

2.对于由于终端原因流失的客户,定期为其发送最新的购机信息,包括性能,活动,价格优惠等政策。

3.对于由于服务原因流失的客户,运营商应该对这类客户进行充分的调研,了解客户的需求,最大程度地满足客户的需求。

4.对于由于竞争对手流失的客户,企业应调研竞争公司的业务体系,找到自身不足之处,优化自身的业务流程,提升对于客户的服务质量。

    以上就是本篇文章【大数据分析案例-基于朴素贝叶斯算法构建电信客户流失分析预警模型】的全部内容了,欢迎阅览 ! 文章地址:http://dgaty.xhstdz.com/news/10426.html 
     栏目首页      相关文章      动态      同类文章      热门文章      网站地图      返回首页 物流园资讯移动站 http://dgaty.xhstdz.com/mobile/ , 查看更多   
最新文章
如何轻松应对Nginx配置文件大小限制提高网站性能与稳定性
为什么需要关注Nginx配置文件大小限制 在使用Nginx作为网站服务器的过程中,配置文件的大小限制是一个常见的问题。当配置文件过大时,会导致服务器性能下降,影响网站的稳定性和访问速度。因此,及时优化和调整配置文件大小非常重要。 如何
打造健康生活新选择:养生馆推广文案写作技巧揭秘
引言:健康生活的追求 在现代社会中,健康已经成为人们最看重的财富之一。快节奏的生活和不断加重的工作压力,使得越来越多的人开始关注自己的身心健康。养生馆作为一种创新的健康生活方式应运而生,它不仅为人们提供了放松身心的场所,还
探索兰州魅力:一份全面的兰州旅游攻略揭开牛肉面与黄河的秘密
探索兰州:邂逅西北的魅力之城 兰州,作为甘肃省的省会,坐落于黄河上游,是一座历史悠久而又充满活力的城市。这里不仅拥有丰富的文化遗产,还有壮观的自然景观。兰州以其独特的地理位置、深厚的文化底蕴和美味的地方美食吸引着越来越多的
如何设置服务器配置提高系统性能?
提高系统性能的重要性 在当今数字化时代,服务器的性能直接影响到企业的竞争力和运营效率。一个高效的服务器配置不仅可以提升系统的稳定性和响应速度,还能提高员工的工作效率和客户体验。 选择适合的硬件和软件配置 首先,要根据企业的实
如何成功启动社区团购:从运营模式到实战技巧的全方位解析
引言:社区团购的崛起 在当今的互联网时代,社区团购以其高效、便捷的特点迅速崛起,成为许多消费者购物的新选择。社区团购不仅能满足居民对日常生活用品的需求,还能通过规模化采购为消费者带来实惠。如何成功启动社区团购,成为了许多创
海底捞学生证折扣使用时间详解:让你的就餐更划算
海底捞学生证折扣使用时间详解 海底捞作为国内知名的火锅连锁品牌,一直以高质量的服务和美味的火锅享誉全国。而对于学生党来说,海底捞更是一个不可多得的福利之地。学生持有效学生证可以享受折扣优惠,让你的就餐更划算。 折扣使用时间
企业网站优化的方法详解
企业网站优化的方法详解 在当今数字化时代,企业网站是企业展示形象、吸引客户、提升品牌的重要窗口。但是,如何使企业网站在竞争激烈的网络世界中脱颖而出,吸引更多潜在客户,成为每家企业都需要思考和解决的问题。 网站内容优化 网站内
探索旅游景区的多样性:常见景观设施类型与特色分析
引言 随着人们生活水平的不断提高,旅游已成为现代生活中不可或缺的一部分。在这个充满活力的行业中,旅游景区以其多样化的景观设施和独特的文化特色,吸引了越来越多的游客。本文将深入探讨旅游景区的多样性,分析常见的景观设施类型以及
企业网站建设优化设计:提升品牌形象与用户体验的必经之路
企业网站建设优化设计的重要性 随着互联网的迅猛发展,企业网站已经成为企业展示自身形象、吸引客户、促进销售的重要工具。而一个优秀的企业网站不仅仅是在页面上简单地展示产品和服务,更需要具备优化设计,提升品牌形象和用户体验,从而
社区团购平台运营模式探析:提升效率与用户体验的双重战略
社区团购的兴起 随着互联网的快速发展,社区团购平台逐渐走进人们的生活,为消费者带来了更加便捷和实惠的购物体验。社区团购是指通过线上平台,将消费者团结在一起,集中采购商品,从而获得更低的价格优惠。这种模式不仅可以提升效率,还
相关文章