order by和sort by的区别

13 篇文章 0 订阅
订阅专栏
7 篇文章 0 订阅
订阅专栏

order by实现的是全局排序,在hive mr引擎中将会只有1个reduce。而使用sort by会起多个reduce,只会在每个reduce中排序,如果不指定分组的话,跑出来的数据看起来是杂乱无章的,如果指定reduce个数是1,那么结果和order by是一致的,如下图,不指定的情况,两种结果对比:

             

order by一般配合group by使用,而group by需要配合聚合函数使用,举个例子

而sort by分组时需要使用distribute by,和group by类似,但是它不需要配合聚合函数使用,也就不影响原数据的函数,这点和开窗函数有点类似,如下

distribute by还有个简化版,当distribute by和sort by的字段相同时,可以简写为cluster by,下面两图对比

    

总结:order by是全局排序,sort by是组内排序。distribute by sort by可以结合桶表使用,给桶中的数据排序。

SparkSQL四种排序详解
SunnyRivers
09-05 388
和Hive一样,SparkSQL也有同样的四种排序:Sort By、Order By、Distribute By和Cluster By。本篇博客用最详细的案例对这四种排序进行详解,希望能够让读者在SparkSQL中使用排序的时候可以游刃有余。order by 是全局排序,可能性能会比较差;sort by分区内有序,往往配合distribute by来确定该分区都有那些数据;distribute by 确定了数据分发的规则,相同的分区字段对应的值会放在同一个分区内。
hive,order by ,distribute by ,sort by ,cluster by 区别,作用,用法
Top5软件工程硕士,先后在京东、字节从事多年Java后端开发、实时和离线大数据开发
06-29 1708
0 order by 是全局有序。sort by是在一个reduce中排序,该reduce的输出有序,是局部有序。distriute by c1 是作用于map输出的结果,把c1的值相同的记录输入到同一个reduce中;如果reduce数目比较少,c1多个不同值的记录会输入到同一个reduce中。 1distribute by要写在sort by前面,不然报错 2distribute by c1,c2sort by c1,c2 = cluster by c1,c2 ,注意distribute by...
Hive中的SORT BY与ORDER BY的区别
最新发布
My_wife_QBL的博客
07-29 966
在Hive中,排序操作是指根据特定列的值对查询结果进行排序。排序操作通常用于数据的整理、结果的展示以及后续分析。SORT BY和ORDER BY。在Hive中,SORT BY和ORDER BY是两种不同的排序操作,各有其适用场景和性能特点。选择合适的排序方式对于提高查询性能和处理效率至关重要。SORT BY适合大规模数据处理和局部排序需求,能够充分利用Hive的并行处理能力。ORDER BY则适用于需要全局有序结果的场景,但在处理大数据时可能导致性能瓶颈。
hive order by sort by distribute by cluster by
weixin_38491020的博客
11-19 445
order by 语法 Hive QL中的order by 类似于SQL语言中的ORDER BY语法。 排序方式:ASC|DESC 空值排序方式:NULLS FIRST|NULLS LAST 语法:order by 字段名称 ASC|DESC [NULLS FIRST|NULLS LAST] “ order by”子句中有一些限制。在严格模式下(即hive.mapred.mode = strict...
sort by 和 order by 的区别
2301_77836489的博客
07-14 609
sort by 和 order by 的区别
Hive中 order by 和 sort by 的 区别
SkyingData的博客
02-10 1474
1. Order by 排列出来的数据是 全局有序 但只有一个 分区 2. Sort by 排列出来的数据是 局部有序 同一个 分区内 不同分区之间没有关系
Hive 中 Order By 和 Sort By的区别
瓜牛呱呱的博客
04-09 1万+
刚面试的时候面试官问到Hive的 order by 和 sort by 的区别,没答出来,于是在网上找了一下,个人理解如下: 1、Order By order by 排序出来的数据是全局有序的,但是只能有一个partition 2、Sort By sort by 排序出来的数据是局部有序的,但是全局无序。即partition内部是有序的,但是partition与partition之...
Hive拉拉扯扯的order by,sort by,distribute by, cluster by
01-07
Hive对用户提供的同样是SQL,但底层实现却和传统数据库有天壤区别,底层实现默默情况下是利用了Hadoop的计算框架MapReduce,当然也支持使用Spark, Tez。鉴于此,Hive有一些自己特定,比如order by的实现需要把所有...
Hive order by limit和sort by limit区别
sinat_30371347的博客
11-26 1851
一、导言 order by和sort by都是hive中的排序方式,区别在于order by只有一个reduce对全表数据进行排序,sort by会按照key值分区在不同的reduce内部排序。那么对排序结果取limit的话,Hive会怎么处理呢? 二、执行计划比较 数据表myhive.score select * from score; score.s_id score.c_id score.s_score score.month 06 04 80 2
Hive,order by ,distribute by ,sort by ,cluster by 作用与区别 (转载)
Top5软件工程硕士,先后在京东、字节从事多年Java后端开发、实时和离线大数据开发
01-14 1271
具有相同Distribute By列的所有行将进入相同的 reducerhttps://www.docs4dev.com/docs/zh/apache-hive/3.1.1/reference/LanguageManual_SortBy.html --------------- 1、order by hive中的order by 会对查询结果集执行一个全局排序,这也就是说所有的数据都通过一个reduce进行处理的过程,对于大数据集,这个过程将消耗很大的时间来执行。 2、sort ...
【mysql知识点整理】— order by 、group by 出现Using filesort原因详解
12-14
MySQL中的`ORDER BY`和`GROUP BY`是SQL查询中两个关键的子句,它们用于对查询结果进行排序和分组。然而,在某些情况下,MySQL可能会使用`Using filesort`来完成这些操作,这通常会导致性能下降。本文将深入探讨`...
SQL on Hadoop调优策略:语法调优之order by和sort by区别
qq_40911292的博客
04-08 598
应用层面调优 排序在大数据中的使用 reduce数量的控制 执行计划在调优中的使用 join在大数据中的使用 官网描述: Syntax of Order By: 在使用“order by”子句时有一些限制:如果是在严格模式下:(hive.mapred.mode=strict),那么order by这个子句一定要跟上“limit” Order by只会产生一个reducer,且全局排序!...
order by、sort by、distribute by sort by 、cluster by、group by order by、partition by order by 解析
m0_46657040的博客
09-29 1022
order by:全局排序 order by 会对数据进行一次全局排序,所以说,只要hive的sql中指定了order by,那么所有的数据都会到同一个reducer进行处理(不管有多少map,也不管文件有多少的block只会启动一个reducer)。 order by 只在一个reduce中进行,所以数据量特别大的时候效率非常低。建议在小的数据集中使用order by进行排序 可以通过设置hive.mapred.mode参数控制执行方式: 若选择strict,则order by 需要指定limit(若有分
hive学习笔记4:sort by 、order by
zhousishuo
01-25 1万+
1.order by 子句 在order by子句中有一些限制。在strict模式(hive.mapred.mode=strict)下,order by子句后面必须有limit子句。如果设置hive.mapred.mode=nonstrict,limit子句不一定需要。原因是为了对所有结果进行整体的排序,必须使用一个reducer来对最后的结果进行排序。如果结果的总行数太大,单个reducer可
HIVE-面试总结
纸上得来终觉浅,绝知此事要躬行
09-21 221
Hive join查询的时候on和where有什么区别 左右关联时: • 条件不为主表条件时,放在on和where后面效果一样。 • 条件为主表条件时,放在on后面,结果为主表全量,放在where后面为主表条件筛选过后的全量。 select * from a left join b on a.id=b.id where a.dt=20181115; 推荐这么写,先过滤数据然后再join left join执行顺序 不考虑where条件下,left join会把左表所有数据查询出来,on及其后面的条.
hive操作时,order by和sort by的区别
东城庞太师
02-05 468
sort by 负责分桶之后每隔分桶之内的排序order by负责的是全局排序 不会进行分桶操作 全局输出一个结果文件中。
order by,sort by,distribute by,cluster by的区别是什么?
热门推荐
Shockang的博客
06-20 3万+
前言 本文隶属于专栏《1000个问题搞定大数据技术体系》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢! 本专栏目录结构和参考文献请见1000个问题搞定大数据技术体系 正文 1. order by 会对所给的全部数据进行全局排序,不管来多少数据,都只启动一个reducer来处理 。 2. sort by是 局部排序,sort by会根据数据量的大小启动一到多个 reducer 来干活,并且,它会在进入 reduce 之前为每个 reducer 都产生一个排序文件 。 3. d
【hive】order by、sort by、distribute by、cluster by的区别
weixin_45746689的博客
03-20 1081
hive order by 、sort by、distinct by、cluster by的区别
order by和sort by区别
03-16
order by和sort by都是用于对查询结果进行排序的关键字,但是在不同的数据库系统中可能有不同的用法和语法。 一般来说,order by是SQL语句中用于对查询结果进行排序的关键字,它可以按照指定的列或表达式进行升序或...
写文章

热门文章

  • order by和sort by的区别 22565
  • 使用jdbc连接Hive 10632
  • 查看yarn的日志 6101
  • spark设置超时kill任务 4009
  • neo4j配置文件 3518

分类专栏

  • 操作系统 8篇
  • kettle 1篇
  • mysql 1篇
  • 防火墙 1篇
  • Hive 13篇
  • spark 7篇
  • yarn 1篇
  • UDF 2篇
  • 笔记 3篇
  • 内置函数 1篇
  • 爬虫 1篇

最新评论

  • spark设置超时kill任务

    ㄟ熊猫先生: 我的jobid确认是没有写错的

  • spark设置超时kill任务

    ㄟ熊猫先生: 我现在也遇到了同样的问题,调用对应链接把整个页面down下来了,但没能杀掉job,请问有解决这个问题的方法吗

  • spark设置超时kill任务

    LSB19930706: 一定是job id搞错了,就是链接末尾的那个855可能搞错了

  • spark设置超时kill任务

    咖啡加冰不加糖~: 博主,你好!我执行curl http://hostname:port/proxy/application_1608904561020_23291097/jobs/job/kill/?id=855 为什么把整个页面down下来,而没有杀死job,这种情况遇到了吗

  • firewall防火墙

    我爱人工智能: 好文章,学习了

最新文章

  • sqoop导出数据
  • linux命令行交互密码写入脚本
  • kafka删除消费者
2022年5篇
2021年7篇
2020年19篇
2018年8篇

目录

目录

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43元 前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值

玻璃钢生产厂家合肥玻璃钢熊猫雕塑公司江油玻璃钢景观雕塑山东节庆商场美陈研发公司喷玻璃钢雕塑漆梅州主题玻璃钢雕塑厂家玻璃钢蘑菇雕塑图片玻璃钢工艺品雕塑玻璃钢雕塑行业规范茂名玻璃钢海豚雕塑山南玻璃钢商场美陈玻璃钢花盆天津厂家直销广东玻璃钢雕塑摆件批发湛江玻璃钢造型雕塑厂家企业品牌玻璃钢卡通雕塑德州花朵玻璃钢景观雕塑厂家杭州玻璃钢雕塑服务介绍濮阳玻璃钢人物玻璃钢景观雕塑博乐气球商场美陈装饰电话奉贤区拉丝玻璃钢雕塑厂家直供新密镂空玻璃钢雕塑玻璃钢商场美陈雕塑制造厂家上海室内商场美陈供应仿真玻璃钢雕塑工业河南开业商场美陈市场报价邢台玻璃钢雕塑制作厂家上海k11商场美陈白银玻璃钢雕塑定制太原玻璃钢雕塑现货宁夏玻璃钢海豚雕塑厂家辽源玻璃钢人物雕塑香港通过《维护国家安全条例》两大学生合买彩票中奖一人不认账让美丽中国“从细节出发”19岁小伙救下5人后溺亡 多方发声单亲妈妈陷入热恋 14岁儿子报警汪小菲曝离婚始末遭遇山火的松茸之乡雅江山火三名扑火人员牺牲系谣言何赛飞追着代拍打萧美琴窜访捷克 外交部回应卫健委通报少年有偿捐血浆16次猝死手机成瘾是影响睡眠质量重要因素高校汽车撞人致3死16伤 司机系学生315晚会后胖东来又人满为患了小米汽车超级工厂正式揭幕中国拥有亿元资产的家庭达13.3万户周杰伦一审败诉网易男孩8年未见母亲被告知被遗忘许家印被限制高消费饲养员用铁锨驱打大熊猫被辞退男子被猫抓伤后确诊“猫抓病”特朗普无法缴纳4.54亿美元罚金倪萍分享减重40斤方法联合利华开始重组张家界的山上“长”满了韩国人?张立群任西安交通大学校长杨倩无缘巴黎奥运“重生之我在北大当嫡校长”黑马情侣提车了专访95后高颜值猪保姆考生莫言也上北大硕士复试名单了网友洛杉矶偶遇贾玲专家建议不必谈骨泥色变沉迷短剧的人就像掉进了杀猪盘奥巴马现身唐宁街 黑色着装引猜测七年后宇文玥被薅头发捞上岸事业单位女子向同事水杯投不明物质凯特王妃现身!外出购物视频曝光河南驻马店通报西平中学跳楼事件王树国卸任西安交大校长 师生送别恒大被罚41.75亿到底怎么缴男子被流浪猫绊倒 投喂者赔24万房客欠租失踪 房东直发愁西双版纳热带植物园回应蜉蝣大爆发钱人豪晒法院裁定实锤抄袭外国人感慨凌晨的中国很安全胖东来员工每周单休无小长假白宫:哈马斯三号人物被杀测试车高速逃费 小米:已补缴老人退休金被冒领16年 金额超20万

玻璃钢生产厂家 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化