python统计词频实训报告,python英语词频统计
Part I:词频统计并返回topN
统计的文本数据:
你是做什么的你是怎么做的你是怎么做的你是从运算符导入来自pyspark的add导入SparkContextdef sort _ t():sc=spark context(appName= testWC )data=sc。并行性([你是做什么的,你是怎么做的,你是怎么做的,你好吗])结果=数据。平面映射(lambda x:x . split())).map(x:(x,1)).\ reduceByKey(add).\ sortBy(lambda x: x[1],False).对结果中的k,v取(3):print k,vif __name__==__main__: sort_t()
Part II:调用排序算法并返回topN
样本数据数字_数据。txt:
15561112-40514671122348561112-3453467111 1212345 789 3414561 -2112112 101 100-4 2351467111243415567132-1451467111237
from py spark import SparkContextdef solve():sc=spark context(appName= Sort _ test _ example )lines=sc。文本文件(./输入/数字_数据。txt )结果=行。平面映射(lambda x:x . split())).map(lambda x: (int(x),1)).sortByKey(ascending=False).取(3)输出=输出中(键,值)的结果:print key print key if _ _ name _ _= _ _ main _ _ :
求解()注:若出现并列时,返回多个并列的数
转载于:https://www。cnblogs。com/seasky 0606/p/7762703。超文本标记语言
郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。