「零一」《从0开始,教你做数据分析》—07篇上
2024-06-19 0
嗨,你最近好吗?零一很忙哈哈。今天我继续给大家分享。
上次我给大家讲了数据分析的四个任务。今天我跟大家讲第一个任务,预测。
预测任务可以应用于很多场景。例如
预测行业未来的市场趋势
预测买家是否会对我们的营销主张做出回应
股票走势预测/福利彩票号码预测
预测我们自己的体重/身高
你可能会发现它既可以应用于商业,也可以应用于生活。作为数据分析师(以下简称数据分析师,但专指业务数据分析师),你当然不会分析所有因素来决定我们应该做什么分析?
答案是【贸易价值】。
作为数据分析师,我们必须以【商业价值】为指导。如果我们的分析产生了商业价值,我们作为数据分析师就能拥有相应的价值。这就是数据分析师的价值由此而来的原因。
数据分析师的4个要素是
[思想][商业][工具][数据]
【思维】指分析性思维。你可能会发现他们正在逐渐扩展你。
【业务】指的是业务能力,只有深入了解公司或自己的业务需求,才能【点成金】,如果我一不小心请了一个完全不懂电商的数据分析师来帮我今天分析一下,结果令人担忧。因为他可能不知道什么是UV,什么是PV,什么是ROI,以及火车/钻石曝光又如何。
如果把数据分析师比作剑客,那么【思维】和【业务】就是剑客的两个分支。
【工具】有句老话说:工欲善其事,必先利其器,有了工具,才能高效、准确地分析。【工具】就像剑客手中的剑。
【数据】如果数据分析师没有数据,就不会有数据分析师。【资料】就像??剑客体内的血液一样,如果连血液都没有,就无法生存。
在Excel中,结合数据挖掘套件,可以非常简单地完成【预测】的任务。
虽然点击几下鼠标就可以完成【预测】,但是【预测】的方法有很多种,适用于不同的情况。如果使用错误的方法,程序可能会报错。即使没有报告错误,结果也可能不令人满意。
具体采用哪种方法,我们的依据是什么?
答案是【数据类型】
数据分为三种类型,当然有些数据挖掘和数据分析书籍的分类方法可能和我的不一样。
【数据类型】分为【定量】、【定性】和【时间序列】。
【定量】就是我们的数字,一个由1,2,3,4,5,6,7,8,9,0组成的值。当数据是这种类型的值时,我们可以将其归类为【定量】】数据类型。
【定性】一般为字符型数据。例如中文和英文都是字符类型数据。
【时间序列】与数量非常接近,但不同的是时间序列是时间格式的数据。我们来看计算机系统时间,它是时间格式的数据,称为【时间序列】。
相应的分析方法(不限于以下方法)
【定量】-【线性回归】
[定性]-[逻辑回归]
【时间序列】-【时间序列预测】
选择哪种方式取决于我们想要预测的维度以及我们基于什么样的数据变化进行预测。
例如,我们知道销售的时间和数量,并希望预测未来的销售。只要维度之一是时间,就应选择[时间序列预测]。
如果优质产品的数量和交易量已知,那么根据优质产品的数量来预测交易量就是在【定量】中预测【定量】,所以选择【线性回归】。
如果我们知道买家所在的地区、订单数量和购买的商品数量,我们就可以预测买家是否会对我的促销活动做出反应。定量】预测【定性】,比如这个预测结果是A或B或C这种排名情况,应该选择【逻辑回归】
下面3个例子帮助你掌握【预测】
1给定时间和交易量,您需要预测未来几个月的交易量。
源数据如下
源数据很多,仅截取一部分。
源数据可以是表、我们选择的区域或外部数据源这里我们直接选择表内的数据区域。
只要数据必须是日期格式,时间戳就会被自动识别。(Excel中的时间序列为日期格式)
查看模型结果
您可以指定要预测的时间单位数。
可以看到使用了ARIMA算法。事实上,我们还可以在构建模型时配置算法。
模型建立后,就可以使用查询工具了
结果如下所示,给出了时间戳、预测量和标准差。
2您有关于优质产品数量和交易量的两个事实如果您现在知道未来几个月的优质产品数量,您可以使用来预测交易量。
数据来源如下
参数中,我们可以选择算法,设置参数这里我们只选择线性回归,参数就不解释了。
定性集(国内翻译称为训练集)和测试集是数据挖掘中非常重要的概念。这也是与统计学不同的想法。在统计学中,统计方法用于检验模型是否可靠,而在数据挖掘中,数据源分为两部分,一部分用于构建模型,这部分数据称为训练集。一旦模型建立起来,另一部分就返回到模型中并进行测试,以查看模型的准确性。这部分数据称为测试集。现在数据量很小,比如可以将测试集的百分比设置为0,即不拆分数据,使用所有数据来构建模型。
您将在模型窗口中看到回归方程。如果你不懂回归方程,可以找一本高等数学教材来阅读或直接学习。
打开查询工具,让模型进行预测。
下图中看到的优质产品数量是已知条件。优质产品数量已知,但交易量未知。
预测的意思是预测。这里将预测值添加为输出。
输出结果如下。输出字段1是模型预测的结果。
3、保留买家订单、买家所在地区、订单数量、购买件数的历史数据(只要对源数据进行处理,就可以得到是否重复购买的数据,1表示将重复购买)。,0表示否)
在模型导航中,您可以看到重复购买者的特征和非重复购买者的特征。
假设以下数据来自新买家,我们需要预测这四位新买家是否会重复购买并成为回头客。
结果如下。该模型决定了只有王六会重复购买。
第三个例子有一个很严重的问题,就是数据源太少。这只是一个例子。
本文使用的工具下载地址及教程:https://panbaiducom/s/1yzGzZKiQq7zj18QLKx1ZIQ
本站文章均由用户上传或转载而来,该文章内容本站无法检测是否存在侵权,如果本文存在侵权,请联系邮箱:2287318951@qq.com告知,本站在7天内对其进行处理。