做数据分析除了需要良好的数学统计基础,对数据的敏感性,有一个熟练使用的“家伙什儿”是很重要的,那么常用的数据分析挖掘工具都有哪些呢?有哪些又是适合自己工作场景的呢?
1 Excel
Excel,这个很不起眼的,又是最常用的数据分析工具,算是使用范围最广的数据分析工具了。这个工具通常会被那些会写几行low bi 代码的“伪程序员所鄙视”。实际上,只要会用鼠标,哪怕你只是个初中生,也能进行简单的对列求和,平均数,这些生活中很常见的数据分析指标了。Excel可以常规的数据图标、可视化功能,处理150万条以内数据没问题。
当然了,这个软件是微软的office办公套件,是收费的,需要密钥或者软件进行破解,破解的话,随着时间进行,有些方法可能失效,或者盗版预防更加严格,自行百度即可。
2 SPSS
SPSS 的分析结果清晰、直观、易学易用,而且可以直接读取EXCEL及DBF数据文件,现已推广到多种各种操作系统的计算机上,它和SAS、BMDP并称为国际上最有影响的三大统计软件。在国际学术界有条不成文的规定,即在国际学术交流中,凡是用SPSS软件完成的计算和统计分析,可以不必说明算法,由此可见其影响之大和信誉之高。SPSS for Windows的分析结果清晰、直观、易学易用,而且可以直接读取EXCEL及DBF数据文件,现已推广到多种各种操作系统的计算机上,它和SAS、BMDP并称为国际上最有影响的三大统计软件。在国际学术界有条不成文的规定,即在国际学术交流中,凡是用SPSS软件完成的计算和统计分析,可以不必说明算法,由此可见其影响之大和信誉之高。
SPSS做类似于因子分析,回归分析等等的统计分析不错,很方便,鼠标点击,就能得到详细报表。
3 PowerBi
BI(商业智能)和图表的区别在于BI擅长交互和报表,更擅长解释已经发生和正在发生的数据。将要发生的数据是数据挖掘的方向。
BI的好处在于很大程度解放数据分析师的工作,推动全部门的数据意识,另外降低其他部门的数据需求(万恶的导数据)。
BI市面上的产品很多,基本都是建立仪表盘Dashboard,通过维度的联动和钻取,获得可视化的分析。最后需要学习可视化和信息图的制作。
4 Matlab
Matlab这个工具学习工科,数学专业的同学肯定再熟悉不过了。参加大学生数学建模竞赛的话,很多人就是使用的这个工具。
MATLAB(矩阵实验室)是MATrix LABoratory的缩写,是一款由美国The MathWorks公司出品的商业数学软件。MATLAB是一种用于算法开发、数据可视化、数据分析以及数值计算的高级技术计算语言和交互式环境。除了矩阵运算、绘制函数/数据图像等常用功能外,MATLAB还可以用来创建用户界面及与调用其它语言(包括C、C++、Java、Python和FORTRAN)编写的程序。
尽管MATLAB主要用于数值运算,但利用为数众多的附加工具箱(Toolbox)它也适合不同领域的应用,例如控制系统设计与分析、图像处理、信号处理与通讯、金融建模和分析等。另外还有一个配套软件包Simulink,提供一个可视化开发环境,常用于系统模拟、动态/嵌入式系统开发等方面。
收费的,需要密钥或者软件进行破解,破解的话,随着时间进行,有些方法可能失效,或者盗版预防更加严格,自行百度即可。当然了,对于学生,或者参加比赛的适合,可以申请免费使用它。
5 R语言
R是用于统计分析、绘图的语言和操作环境。R是属于GNU系统的一个自由、免费、源代码开放的软件,它是一个用于统计计算和统计制图的优秀工具。R是用于统计分析、绘图的语言和操作环境。R是属于GNU系统的一个自由、免费、源代码开放的软件,它是一个用于统计计算和统计制图的优秀工具。R语言开发IDE通常使用的是Rstudio,社区版免费,通常够用了。
下载地址 https://www.r-project.org/
Rstudio下载地址:https://www.rstudio.com/
6 Python
Python是免费开源的软件,适合于数据分析,机器学习,深度学习。Python还能网站开发,爬虫等等,Python除了不能生孩子,其它都能干。我们暂且理解为:Python是万能的。
Python的开发IDE有很多,像sublime text,PyCharm,VSCode,ipython等等,开发工具实在是太多了,都让人产生选择恐惧症了,其实都一样,本人推荐PyCharm(软件破解有点麻烦),毕竟jetbrains全家桶里面的工具都灰常好用。
Python下载链接:https://www.python.org/
PyCharm下载链接:https://www.jetbrains.com/pycharm/
破解方法:https://blog.csdn.net/u014044812/article/details/78727496
7 SQL
这里的SQL不是单指mysql或者oracle,亦或者hive等,而是指标准SQL查询语言。数据库可以存储大量的数据,通过SQL可以进行复杂的数据关联查询,比如几张表之间的关联信息。写好SQL,也能高效的挖掘出数据之间的关系,做出最有商业价值的数据分析报表。
SQL教程
https://www.liaoxuefeng.com/wiki/1177760294764384
数据分析工具还要很多,像Tableau、Echarts、hive等等,选择适合自己的就好,有精力也可以自己做在线工具实现类似SPSS报表系统一样的工具。
猜你可能喜欢