扣丁学堂大数据培训之算法应用场景首篇:统计与分布
2019-03-22 17:44:00
373浏览
今天扣丁学堂大数据培训老师给大家分享一篇关于大数据算法应用场景首篇:统计与分布的详细介绍,首先算法是大数据的最核心价值部分。大数据的挖掘是从海量、不完整、噪声、模糊、随机、碎片数据中发现其中隐藏的价值,以及潜在的有用信息和知识的过程。什么情况用什么算法呢?今天给大家做个大数据算法入门。
一、统计分布
统计分布(frequencydistribution)亦称“次数(频数)分布(分配)”。在统计分组的基础上,将总体中的所有单位按组归类整理,形成总体单位在各组间的分布。分布在各组中的单位数叫做次数或频数。各组次数与总次数(全部总体单位数)之比,称为比率或频率。将各组别与次数依次编排而成的数列就叫做统计分布数列,简称分布数列或分配数列。它可以反映总体中所有单位在各组间的分布状态和分布特征,研究这种分布特征是统计分析的一项重要内容。如上的BLABLA的一堆,具体来看看到底能干什么吧。
1)平均值
举个栗子!中国男人背上“油腻”一词好几年了,根据《2017中国人运动报告》数据显示,至少在步行量上,男生要高于女生:男生平均每天走5874步,女生日均步数达到5268步。注重运动加上更新一下观念,中国男人或许能保持一下少年感。
2)同比和环比
同比一般情况下是今年第n月与去年第n月比。
环比,表示连续2个单位周期(比如连续两月)内的量的变化比。
3)高斯分布
正态分布(Normaldistribution),也称“常态分布”,又名高斯分布(Gaussiandistribution),最早由A.棣莫弗在求二项分布的渐近公式中得到。C.F.高斯在研究测量误差时从另一个角度导出了它。P.S.拉普拉斯和高斯研究了它的性质。是一个在数学、物理及工程等领域都非常重要的概率分布,在统计学的许多方面有着重大的影响力。
高斯分布怎么用?举个栗子:这张图大家都见过吧。收集尽量多的用户的开机时间,然后,查看时间的分布如何。
4)柏松分布
Poisson分布,是一种统计与概率学里常见到的离散概率分布,由法国数学家西莫恩·德尼·泊松(Siméon-DenisPoisson)在1838年时发表。
栗子1:玩电商和仓储的,进来看看。已知某家小杂货店,平均每周售出2个水果罐头。请问该店水果罐头的最佳库存量是多少?
假定不存在季节因素,可以近似认为,这个问题满足以下三个条件:
a.顾客购买水果罐头是小概率事件。
b.购买水果罐头的顾客是独立的,不会互相影响。
c.顾客购买水果罐头的概率是稳定的。
在统计学上,只要某类事件满足上面三个条件,它就服从"泊松分布"。
大数据算法及应用场景-第一篇:统计与分布
根据公式,计算得到每周销量的分布:从上表可见,如果存货4个罐头,95%的概率不会缺货(平均每19周发生一次);如果存货5个罐头,98%的概率不会缺货(平均59周发生一次)。
5)伯努利分布
伯努利分布(英语:Bernoullidistribution,又名两点分布或者0-1分布,是一个离散型概率分布,为纪念瑞士科学家雅各布·伯努利而命名。)。通俗讲,一件事情,只有两种可能的结果。伯努利分布描述了其中一种结果的概率为a,另一种结果的概率为100%-a。再通俗的讲,生一次孩子,生男孩子概率为p,生女孩纸概率1-p,这个就是伯努利分布。
以上就是关于扣丁学堂大数据培训之算法应用场景首篇:统计与分布的详细介绍,
希望对小伙伴们有所帮助,想要了解更多内容的小伙伴可以登录扣丁学堂官网咨询。想要学好大数据开发小编给大家推荐口碑良好的扣丁学堂,扣丁学堂有专业老师制定的大数据学习路线图辅助学员学习,此外还有与时俱进的大数据视频教程供大家学习,想要学好Python开发技术的小伙伴快快行动吧。扣丁学堂大数据学习群:209080834。
【关注微信公众号获取更多学习资料】 【扫码进入HTML5前端开发VIP免费公开课】
查看更多关于“大数据培训资讯”的相关文章>
标签:
大数据培训
大数据视频教程
大数据分析培训
大数据学习视频
Hadoop生态圈