扣丁学堂剖析如何快速使用python处理大数据

2018-07-12 10:35:38 397浏览

在现如今，在处理数据基础操作上大多时候采用awk以及java程序即可。但突然有百万级数据需要处理,通过awk则发生无法匹配,采用java处理很慢,起码在1天以上，当另辟奇径采用采用python来处理时,结果速度有了质的提升，下面就由扣丁学堂python培训老师给大家分享下如何快速使用python处理大数据。

1、安装python

第一步首先下载python软件，在开始里面找到python的exe,点击开然后输入1+1就可以看出是否安装成功了。

2、IEDA编辑器如何使用python

首先我们在idea中打开设置然后点击plugins,在里面有个输入框中输入python,根据提示找到如下的这个(idea版本不同可能影响python版本)

然后开始创建idea工程

file->New->Project->python(其他的下一步然后就会创建工程了)

3、开发前知识准备

文件的读取,python读取文件非常的简单,我现在直接贴代码提供给大家

　　defreadData(fileName):
　　result=""
　　count=0
　　withopen(fileName,'r')asf:
　　forlineinf.readlines():
　　result+=line
　　count+=1
　　printcount
　　returnresult
　　"""写入文件"""
　　defwriteData(fileName,data):
　　withopen(fileName,'a+')asf:
　　f.write(data)

其中def是函数的定义,如果我们写定义一个函数直接前面加上def,返回值可以获取后直接用return即可

python我们直接采用withopen('文件路径',模式)asf的方式来打开文件

模式：

跨文件引用:同一个层级python是采用import直接导入文件名的方式,看下一个代码

　　importIoUtils
　　fileName1='D:\\works\\pythons\\files\\userids.txt'
　　userIds=IoUtils.readData(fileName1).split('\n')
　　fileName2='D:\\works\\pythons\\files\\records.txt'
　　records=IoUtils.readData(fileName2).strip()
　　recordsArr=records.split('\n')
　　count=0;
　　fordatainrecordsArr:
　　count+=1
　　ifdata.split('\t')[2]inuserIds:
　　IoUtils.writeData('D:\\works\\pythons\\files\\20180604.txt',data+'\n')
　　printcount

其他说明：

其中split和java程序的split一样,strip是去掉空格换行符等,循环(forin)模式,判断某个元素是否在数组中存在则直接使用元素in数组。

以上就是扣丁学堂剖析如何快速使用python处理大数据的详细介绍，希望对小伙伴们有所帮助，想要了解更多内容的小伙伴可以登录扣丁学堂官网咨询。扣丁学堂有专业的Python视频教程供大家在线学习，不仅有时俱进的课程体系还有专业的老师授课，定能让你轻松学习，高薪就业。扣丁学堂Python技术交流群：279521237。

扣丁学堂微信公众号

【关注微信公众号获取更多学习资料】

查看更多关于"Python开发资讯"的相关文章>

标签: Python培训 Python视频教程 python处理大数据 Python学习教程

上一篇扣丁学堂分享Python通过属性手段实现只允许调用一次的示例下一篇扣丁学堂Python视频教程Django框架中方法访问和查找详解

扣丁学堂剖析如何快速使用python处理大数据

热门专区

课程推荐