python统计词频实训报告,python英语词频统计

　　Part I：词频统计并返回topN

　　统计的文本数据：

　　你是做什么的你是怎么做的你是怎么做的你是从运算符导入来自pyspark的add导入SparkContextdef sort _ t():sc=spark context(appName= testWC )data=sc。并行性([你是做什么的,你是怎么做的,你是怎么做的,你好吗])结果=数据。平面映射(lambda x:x . split())).map(x:(x，1)).\ reduceByKey(add).\ sortBy(lambda x: x[1]，False).对结果中的k，v取(3):print k，vif __name__==__main__: sort_t()

　　Part II：调用排序算法并返回topN

　　样本数据数字_数据。txt:

　　15561112-40514671122348561112-3453467111 1212345 789 3414561 -2112112 101 100-4 2351467111243415567132-1451467111237

　　from py spark import SparkContextdef solve():sc=spark context(appName= Sort _ test _ example )lines=sc。文本文件(./输入/数字_数据。txt )结果=行。平面映射(lambda x:x . split())).map(lambda x: (int(x)，1)).sortByKey(ascending=False).取(3)输出=输出中(键，值)的结果：print key print key if _ _ name _ _= _ _ main _ _ :

　　求解()注：若出现并列时，返回多个并列的数

　　转载于：https://www。cnblogs。com/seasky 0606/p/7762703。超文本标记语言