当前位置: 首页 > news >正文

南昌网站小程序开发网站推广优化方式

南昌网站小程序开发,网站推广优化方式,wordpress集成后台无法登录,生日礼物自己做网站搜索引擎日志分析 要求: 读取文件转换成RDD,并完成: 打印输出:热门搜索时间段(小时精度)Top3打印输出:热门搜索词Top3打印输出:统计黑马程序员关键字在哪个时段被搜索最多将数据转…

搜索引擎日志分析

要求:

读取文件转换成RDD,并完成:

  • 打印输出:热门搜索时间段(小时精度)Top3
  • 打印输出:热门搜索词Top3
  • 打印输出:统计黑马程序员关键字在哪个时段被搜索最多
  • 将数据转换为JSON格式,写出为文件

代码:

"""
综合案例
要求:读取文件转换成RDD,并完成:打印输出:热门搜索时间段(小时精度)Top3打印输出:热门搜索词Top3打印输出:统计黑马程序员关键字在哪个时段被搜索最多将数据转换为JSON格式,写出为文件
"""
# 构建执行环境入口对象
import json
from pyspark import SparkConf, SparkContext
import osos.environ['PYSPARK_PYTHON'] = "D:/Python/Python311/python.exe"
conf = SparkConf().setMaster("local[*]").setAppName("test_spark")
conf.set('spark.default.parallelism', '1')
sc = SparkContext(conf=conf)# 读取文件转换成RDD,并完成:
rdd = sc.textFile("E:/百度网盘/1、Python快速入门(8天零基础入门到精通)/资料/第15章资料/资料/search_log.txt")
# print(rdd.collect())
# TOOP 需求1:热门搜索时间段(小时精度)Top3
# 1.1 取出全部的时间并转换为小时
# 1.2 转换为(小时,1)的二元元组
# 1.3 Key分组聚合Value
# 1.4 排序(降序)
# 1.5 取前三
# result1 = rdd.map(lambda x: x.split("\t")).\
#     map(lambda x: x[0][:2]).\
#     map(lambda x: (x, 1)).\
#     reduceByKey(lambda a, b: a + b).\
#     sortBy(lambda x: x[1], ascending=False, numPartitions=1).\
#     take(3)
# print("需求1的结果:", result1)
result1 = rdd.map(lambda x: (x.split("\t")[0][:2], 1)). \reduceByKey(lambda a, b: a + b). \sortBy(lambda x: x[1], ascending=False, numPartitions=1). \take(3)
print("需求1的结果:", result1)# TOOP 需求2:热门搜索词Top3
# 2.1 取出全部的搜索词
# 2.2 (词,1)二元元组
# 2.3 分组聚合
# 2.4 排序
# 2.5 Top3
result2 = rdd.map(lambda x: (x.split("\t")[2], 1)). \reduceByKey(lambda a, b: a + b). \sortBy(lambda x: x[1], ascending=False, numPartitions=1). \take(3)
print("需求2的结果:", result2)# TOOP 需求3:统计黑马程序员关键字在哪个时段被搜索最多
# 3.1 过滤内容,只保留黑马程序员关键字
# 3.2 转换为(小时,1)的二元元组
# 3.3 Key分组聚合Value
# 3.4 排序(降序)
# 3.5 取前1
result3 = rdd.map(lambda x: x.split("\t")).\filter(lambda x: x[2] == '黑马程序员').\map(lambda x: (x[0][:2], 1)).\reduceByKey(lambda a, b: a + b).\sortBy(lambda x: x[1], ascending=False, numPartitions=1).\take(1)
print("需求3的结果:", result3)# TOOP 需求4:将数据转换为JSON格式,写出为文件
# 4.1 转换为JSON格式的RDD
# 4.2 写出为文件
rdd.map(lambda x: x.split("\t")).\map(lambda x: {'time': x[0], 'user_id': x[1], 'key_word': x[2], 'rank1': x[3], 'rank2': x[4], 'url': x[5]}).\saveAsTextFile("D:/output_json")

 

 

 

http://www.ds6.com.cn/news/13363.html

相关文章:

  • 什么能建我的网站呢电商运营公司简介
  • 那些网站被k恢复是怎么做的seo排名哪家正规
  • 做h5的免费软件seo百度发包工具
  • 武汉制作公司网站及推广官网优化 报价
  • wordpress图片购买下载seo在哪学
  • wordpress调用百度文库企业网站优化公司
  • 如何做网站不容易被攻击哪些平台可以做推广
  • WordPress仿牌整站优化工具
  • 麻油厂网站怎么做网址查询工具
  • 毕业设计做网站哪种好seo的内容主要有哪些方面
  • 专业制作网站 郑惠州seo
  • 医疗器械网站制作网络舆情分析报告
  • 用自己的电脑做服务器建网站南宁百度推广代理商
  • 无锡做网站哪个公司好考研比较厉害的培训机构
  • 专做蔬菜大棚的网站软文范例300字
  • wordpress前台登录注册密码找回好的seo网站
  • 澳大利亚房产网站大全邯郸百度推广公司
  • 正规投资软件app哪个好聊石家庄seo
  • 磁力网站怎么做的免费的自媒体一键发布平台
  • 展会展台搭建服务长沙关键词优化推荐
  • 网站首页怎么做百度广告联盟平台的使用知识
  • 做购物网站的公司seo常用工具包括
  • 三级a一级a做爰网站系统优化大师
  • nba新闻那个网站做的好亚马逊查关键词排名工具
  • 西安做网站的公司电话如何搭建一个网站平台
  • wordpress是不是cms昆明关键词优化
  • 小游戏网站代码百度免费资源网站
  • 织梦dede门户资讯新闻网站源码域名注册人查询
  • 自己做app建网站百度怎么推广产品
  • 网站设计网页版整站优化系统厂家