当前位置: 首页 > news >正文

证券公司网站建设方案嘉兴seo排名外包

证券公司网站建设方案,嘉兴seo排名外包,计算机选什么专业最好,做资源网站需要什么软件Hive Sampling 抽样函数 文章目录Hive Sampling 抽样函数Random随机抽样Block 基于数据块抽样Bucket table 基于分桶表抽样语法在HQL中,可以通过三种方式采样数据:随机采样,存储桶表采样和块采样。Random随机抽样 随机抽样使用rand()函数确保…

Hive Sampling 抽样函数

文章目录

  • Hive Sampling 抽样函数
    • Random随机抽样
    • Block 基于数据块抽样
    • Bucket table 基于分桶表抽样
      • 语法

在HQL中,可以通过三种方式采样数据:随机采样,存储桶表采样和块采样。

Random随机抽样

  • 随机抽样使用rand()函数确保随机获取数据,LIMIT来限制抽取的数据个数。
  • 表数据多时抽样速度不快,但随机。
  • 有两种用法:
    方法一:(效率较高)
SELECT * FROM student
DISTRIBUTE BY RAND() SORT BY RAND() LIMIT 2;

方法二:

SELECT * FROM student
ORDER BY RAND() LIMIT 2;

Block 基于数据块抽样

  • 允许随机获取n行数据、百分比数据、指定大小的数据
  • 采样粒度是HDFS块大小
  • 优点是速度快,但不随机
  • 例:
  1. 获取1行数据:
SELECT * FROM student
TABLESAMPLE(1 ROWS);
  1. 百分比数据:
SELECT * FROM student
TABLESAMPLE(50 PERCENT);
  1. 指定大小的数据:
SELECT * FROM student
TABLESAMPLE(1k);

Bucket table 基于分桶表抽样

  • 一种特殊的采样方法,针对分桶表进行了优化
  • 抽样既随机,速度也很快。

语法

  • y必须是table总桶数的倍数或因子。hive根据y的大小,决定抽样的比例。(当y=2,有4个桶时,抽取4/2个桶的数据)
  • x表示从哪个桶开始抽取。
  • x的值必须小于y的值。
  • ON colname表示基于什么抽
    1. ON RAND():表示随机抽
    2. ON 分桶字段:表示基于分桶字段抽样,效率更高
TABLESAMPLE (BUCKET x OUT OF y [ON colname])
  • 例:
SELECT * FROM t_usa_covid19_bucket TABLESAMPLE(BUCKET 1 OUT OF 5 ON RAND());
http://www.ds6.com.cn/news/87117.html

相关文章:

  • 个人帮企业做网站如何优化网络速度
  • 做网站找不到客户抖音矩阵排名软件seo
  • 莱芜地板街50一次海外seo培训
  • 城乡与建设厅网站首页seo服务建议
  • 手机app开发流程图seo推广经验
  • 40个超好玩的网页小游戏优化大师官方正版下载
  • 玉器珠宝做网站营销策划公司取名大全
  • 做国外的营销的网站搜索引擎优化包括哪些方面
  • 手机怎么做网站服务器360网站收录提交入口
  • 杭州亚运村建设指挥部网站福州seo按天收费
  • WordPress数字商城模板短视频seo排名
  • 大连住房和城乡建设部网站微信营销平台系统
  • 怎么学网站设计网站建设策划方案
  • 建设网站可选择的方案有网站优化技术
  • 网站开发使用架构百度竞价官网
  • 灰色网站怎么做今天全国疫情最新消息
  • 中英网站模板 照明人民日报最新消息
  • wordpress添加收藏功能seo与sem的区别和联系
  • 有没有好的网站可以学做头发网站内搜索
  • 网页制作网站首页设计下载百度卫星导航
  • 做网站运营用什么软件2024年重大政治时事汇总
  • 成都商城网站建设十大成功营销策划案例
  • 北京seo服务商网站seo关键词
  • 长沙如何做百度的网站国内seo服务商
  • 造纸公司网站建设七牛云
  • b2b平台的优势seo人人网
  • 单页网站怎么做开发网站建设
  • 淄博 建设网站seo优化效果
  • 广州营销型网站建设公司哪家名气大中国纪检监察报
  • 濮阳公司建站春哥seo博客