MySQL中的窗口函数使用及说明
作者:m0_38063172
MySQL中的窗口函数
从version 8.0开始,MySQL支持在查询中使用窗口函数。
这篇文章是对一篇英文资料的不完全翻译,加上自己的一些理解。
如果有兴趣可以去看看原文章。
文中的示例用到的建表语句和插值语句如下:
CREATE TABLE sales( sales_employee VARCHAR(50) NOT NULL, fiscal_year INT NOT NULL, sale DECIMAL(14,2) NOT NULL, PRIMARY KEY(sales_employee,fiscal_year) ); INSERT INTO sales(sales_employee,fiscal_year,sale) VALUES('Bob',2016,100), ('Bob',2017,150), ('Bob',2018,200), ('Alice',2016,150), ('Alice',2017,100), ('Alice',2018,200), ('John',2016,200), ('John',2017,150), ('John',2018,250);
先看一个例子:
SELECT fiscal_year, sales_employee, sale, SUM(sale) OVER (PARTITION BY fiscal_year) total_sales FROM sales;
执行后得到的结果如下:
+-------------+----------------+--------+-------------+ | fiscal_year | sales_employee | sale | total_sales | +-------------+----------------+--------+-------------+ | 2016 | Alice | 150.00 | 450.00 | | 2016 | Bob | 100.00 | 450.00 | | 2016 | John | 200.00 | 450.00 | | 2017 | Alice | 100.00 | 400.00 | | 2017 | Bob | 150.00 | 400.00 | | 2017 | John | 150.00 | 400.00 | | 2018 | Alice | 200.00 | 650.00 | | 2018 | Bob | 200.00 | 650.00 | | 2018 | John | 250.00 | 650.00 | +-------------+----------------+--------+-------------+ 9 rows in set (0.00 sec)
这里,sum()函数充当了窗口函数,得到了根据fiscal_year计算出的sale的总和total_sales列,但是又不像它作为聚合函数使用时一样,这里的结果保留了每一行的信息。
原因就在于窗口函数的执行顺序(逻辑上的)是在FROM,JOIN,WHERE,GROUP BY,HAVING之后,在ORDER BY,LIMIT,SELECT DISTINCT之前。
它执行时GROUP BY的聚合过程已经完成了,所以不会再产生数据聚合。
窗口函数的语法
window_function_name(expression) OVER ( [partition_defintion] [order_definition] [frame_definition] )
先指定作为窗口函数的函数名,然后是OVER(…),就算OVER里面没有内容,括号也需要保留。
窗口函数的一个概念是当前行,当前行属于某个窗口,窗口由“[partition_defintion]”,“[order_definition]”,“[frame_definition]“确定。
1.partition_defintion
翻译过来应该是分区,语法是"PARTITION BY < expression>[{,< expression>…}]",它会根据单个或者多个表达式的计算结果来分区(列名也是一种表达式,它的结果就是列名本身)。
在前面的例子中,结果中的每一行都有自己的分区,total_sales列的值就是它所属的分区里面的sum(sale)的结果。
2.frame_definition
这里先讲frame_definition,可能应该是叫帧吧。
它的作用是在分区里面再进一步细分窗口。
语法是"frame_unit {< frame_start>|< frame_between>}",frame_unit有两种,分别是ROWS和RANGE,由ROWS定义的frame是由开始和结束位置的行确定的,由RANGE定义的frame由在某个值区间的行确定。
如果只指定了frame的开始位置,那么结束位置就默认为当前行。
frame_start有三种:
- UNBOUNDED PRECEDING: 区间的第一行
- N PRECEDING: 当前行之前的N行,N可以是数字,也可以是一个能计算出数字的表达式
- CURRENT ROW: 当前行
frame_between的可以取的值如下:
- frame_start:如前面所列
- UNBOUNDED FOLLOWING:区间的最后一行
- N FOLLOWING:当前行之后的N行,N可以是数字,也可以是一个能计算出数字的表达式
- 如果没显式指定frame的话,MySQL会认为frame是“ROWS BETWEEN UNBOUNDED PRECEDING AND UNBOUNDED FOLLOWING”
这个有点复杂,看个例子:
SELECT fiscal_year, sales_employee, sale, SUM(sale) OVER (PARTITION BY sales_employee ROWS BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW) total_sales FROM sales;
执行结果如下:
+-------------+----------------+--------+-------------+ | fiscal_year | sales_employee | sale | total_sales | +-------------+----------------+--------+-------------+ | 2016 | Alice | 150.00 | 150.00 | | 2017 | Alice | 100.00 | 250.00 | | 2018 | Alice | 200.00 | 450.00 | | 2016 | Bob | 100.00 | 100.00 | | 2017 | Bob | 150.00 | 250.00 | | 2018 | Bob | 200.00 | 450.00 | | 2016 | John | 200.00 | 200.00 | | 2017 | John | 150.00 | 350.00 | | 2018 | John | 250.00 | 600.00 | +-------------+----------------+--------+-------------+ 9 rows in set (0.00 sec)
第一行所在的区间是sales_employee为Alice的区间,所在的帧是区间第一行到当前行,只有一行,total_sales为150;
第二行所在的区间是sales_employee为Alice的区间,所在的帧是区间第一行到当前行,有两行,total_sales为150+100=250;
第一行所在的区间是sales_employee为Alice的区间,所在的帧是区间第一行到当前行,有三行,total_sales为150+100+200=450。
3.order_definition
定义了分区内的行的排列顺序,语法是“ORDER BY < expression> [ASC|DESC], [{,< expression>…}]”。没什么好讲的。
总结
以上为个人经验,希望能给大家一个参考,也希望大家多多支持脚本之家。