微课sql优化(16)、表的连接方法(5)-关于Merge Join(排序合连接)

orastar
2020-03-04 11:10:25
Oracle
原创

1、原理解释

排序合并连接，将两个数据集都读出来，并按照连接条件的字段进行排序。

当以上操作完成后，两个工作区的内容就会被合并。通常情况下，Hash Join会比

Merge Join性能更好，除非在同时满足以下两个条件时，Merge Join的性能更优，

1、数据集已经排序

2、不需要进行排序操作。

当两个表之间的连接条件不是=连接时，如连接条件是<，<=，>，或>=。排序合并连接对于大型数据集的性能优于嵌套循环连接。除非有相等的条件，否则不能使用散列连接。

2、Merge Join特点

1、每个子节点只会执行一次

2、每个输入数据集都必须按照连接条件的字段进行排序

3、由于排序操作，在返回第一条结果前，两个数据集都必须被完全读出并排序。

3、适用场景

Merge Join将两个表排序，然后将两个表合并。通常情况下，只有在以下情况发生时，才会使用此种JOIN方式：

2.不等价关联(>,<,>=,<=,<>)

3.HASH_JOIN_ENABLED=false

4.数据源已排序

4、Merge Join示例

SQL> select /*+ ordered use_merge(a)*/c.cons_no,c.cons_name,a.AMT_YM,a.amt

from ht.c_cons_hash c,ht.a_amt_hash a

where c.cons_no=a.cons_no

and c.cons_name='Hash_Join'

order by 1; 2 3 4 5

----------------------------------------------------------

Plan hash value: 1313733800

--------------------------------------------------------------------------------------------------------------

| Id | Operation | Name | Rows | Bytes |TempSpc| Cost (%CPU)| Time |

--------------------------------------------------------------------------------------------------------------

| 0 | SELECT STATEMENT | | 12 | 360 | | 401 (1)| 00:00:05 |

| 1 | MERGE JOIN | | 12 | 360 | | 401 (1)| 00:00:05 |

| 2 | SORT JOIN | | 2 | 26 | | 4 (25)| 00:00:01 |

| 3 | TABLE ACCESS BY INDEX ROWID| C_CONS_HASH | 2 | 26 | | 3 (0)| 00:00:01 |

|* 4 | INDEX RANGE SCAN | IDX_C_CONS_HASH_NAME | 2 | | | 1 (0)| 00:00:01 |

|* 5 | SORT JOIN | | 59968 | 995K| 3320K| 397 (1)| 00:00:05 |

| 6 | TABLE ACCESS FULL | A_AMT_HASH | 59968 | 995K| | 65 (0)| 00:00:01 |

--------------------------------------------------------------------------------------------------------------

Predicate Information (identified by operation id):

---------------------------------------------------

4 - access("C"."CONS_NAME"='Hash_Join')

5 - access("C"."CONS_NO"="A"."CONS_NO")

filter("C"."CONS_NO"="A"."CONS_NO")

5、三种连接方式比较

NL: 从一张表中读取数据，访问另一张表（通常是索引）来做匹配，nested loops适用的场合是驱动表行数较小时，效率会更高。

Hash join：将一个表（通常是小一点的那个表）对连接键做hash运算，将Hash结果做为索引值和行信息存储到Hash表中，从另一个表中抽取记录，对连接键做hash运算，到Hash表中查找匹配的行。

Merge Join 是先将关联表的关联列各自做排序，然后从各自的排序表中抽取数据，到另一个排序表中做匹配，因为merge join需要做更多的排序，所以消耗的资源更多。通常情况下，Hash Join会比 Merge Join性能更好。

6、参数文档

《Oracle? Database Performance Tuning Guide 11g Release 2 (11.2)》

《Troubleshooting Oracle Performance》