通常,开发者和管理员在一个查询里,用临时表和列相关的子查询来计算产生行号。现在SQL Server 2005提供了一个函数,代替所有多余的代码来产生行号。
我们假设有一个资料库[EMPLOYEETEST],资料库中有一个表[EMPLOYEE],你可以用下面的脚本来产生资料库,表和对应的数据。
USE [ MASTER ]
GO
IF EXISTS ( SELECT NAME FROM SYS.DATABASES WHERE NAME = N ' EMPLOYEE TEST ' ) DROP DATABASE [ EMPLOYEE TEST ]
GO
CREATE DATABASE [ EMPLOYEE TEST ]
GO
USE [ EMPLOYEE TEST ]
GO
IF EXISTS SELECT * FROM SYS.OBJECTS HERE OBJECT_ID = OBJECT_ID (N ' [DBO].[EMPLOYEE] ' ) AND TYPE IN (N ' U ' ))
DROP TABLE [ DBO ] . [ EMPLOYEE ]
GO
CREATE TABLE EMPLOYEE (EMPID INT , FNAME VARCHAR ( 50 ),LNAME VARCHAR ( 50 ))
GO
INSERT INTO EMPLOYEE (EMPID, FNAME, LNAME) VALUES ( 2021110 , ' MICHAEL ' , ' POLAND ' )
INSERT INTO EMPLOYEE (EMPID, FNAME, LNAME) VALUES ( 2021110 , ' MICHAEL ' , ' POLAND ' )
INSERT INTO EMPLOYEE (EMPID, FNAME, LNAME) VALUES ( 2021115 , ' JIM ' , ' KENNEDY ' )
INSERT INTO EMPLOYEE (EMPID, FNAME, LNAME) VALUES ( 2121000 , ' JAMES ' , ' SMITH ' )
INSERT INTO EMPLOYEE (EMPID, FNAME, LNAME) VALUES ( 2011111 , ' ADAM ' , ' ACKERMAN ' )
INSERT INTO EMPLOYEE (EMPID, FNAME, LNAME) VALUES ( 3015670 , ' MARTHA ' , ' LEDERER ' )
INSERT INTO EMPLOYEE (EMPID, FNAME, LNAME) VALUES ( 1021710 , ' MARIAH ' , ' MANDEZ ' )
GO
我们可以用下面的脚本查询EMPLOYEE表。
这个查询的结果应该如图1.0
2021110 |
MICHAEL |
|
2021110 |
MICHAEL |
|
2021115 |
JIM |
KENNEDY |
2121000 |
JAMES |
SMITH |
2011111 |
ADAM |
ACKERMAN |
3015670 |
MARTHA |
LEDERER |
1021710 |
MARIAH |
MANDEZ |
图1.0
在SQL Server 2005,要根据这个表中的数据产生行号,我通常使用下面的查询。
这个查询创建了一个新的表,用identify函数来产生行号。我们用下面的查询来看看这个表的数据。
SELECT ROWID, EMPID, FNAME, LNAME FROM EMPLOYEE2
上面的查询结果如图1.1
1 |
1021710 |
MARIAH |
MANDEZ |
2 |
2011111 |
ADAM |
ACKERMAN |
3 |
2021110 |
MICHAEL |
|
4 |
2021110 |
MICHAEL |
|
5 |
2021115 |
JIM |
KENNEDY |
6 |
2121000 |
JAMES |
SMITH |
7 |
3015670 |
MARTHA |
LEDERER |
图1.1
这个查询结果很明显EMP=2021110的行是重复的数据。
要删除EMPID=2021110的重复数据,我们必须在EMPLOYEE2表中删除,不能直接在EMPLOYEE中删除。
SQL Server 2005提供了一个新的函数(Row_Number())来产生行号。我们可以使用这个新函数来删除原来表中的重复数据,只用通常的表达方式再加上Row_Number()函数。
让我们用Row_Number()函数根据EMPID来产生ROWID。
上面的查询结果如图1.2
1 |
1021710 |
MARIAH |
MANDEZ |
2 |
2011111 |
ADAM |
ACKERMAN |
3 |
2021110 |
MICHAEL |
|
4 |
2021110 |
MICHAEL |
|
5 |
2021115 |
JIM |
KENNEDY |
6 |
2121000 |
JAMES |
SMITH |
7 |
3015670 |
MARTHA |
LEDERER |
图1.2
在这个结果中,我们可以区别EMPID是2021110的重复数据。
我们可以用通用表查询表达式和Row_Numner()函数来选出重复的那行数据。
( SELECT ROW_NUMBER() OVER ( ORDER BY EMPID ASC ) AS ROWID, * FROM EMPLOYEE)
SELECT * FROM [ EMPLOYEE ORDERED BY ROWID ] WHERE ROWID = 4
上面的查询结果如图1.3
4 |
2021110 |
MICHAEL |
|
图1.3
这一行重复的数据可以用下面这个通用表和Row_Number()函数来删除。
( SELECT ROW_NUMBER() OVER ( ORDER BY EMPID ASC ) AS ROWID, * FROM EMPLOYEE)
DELETE FROM [ EMPLOYEE ORDERED BY ROWID ] WHERE ROWID = 4
删除以后,我们可以用下面的查询语句看一下结果。
这个查询结果如图1.4
2021110 |
MICHAEL |
|
2021115 |
JIM |
KENNEDY |
2121000 |
JAMES |
SMITH |
2011111 |
ADAM |
ACKERMAN |
3015670 |
MARTHA |
LEDERER |
1021710 |
MARIAH |
MANDEZ |
图 1.4
这里我们可以看到,重复的数据已经被删除了。
总结
在这篇文章中,我们讨论了SQL Server 2005 的新特性Row_Number()函数,还有通常的表表达式,然后如何使用这两个来删除重复的行。
______________________________________________
原文:http://www.databasejournal.com/features/mssql/article.php/3577481
Feedback
#1楼 211.136.253.* 回复 引用
2008-10-15 10:20 by yangxh[未注册用户]
如果需要删除大量重复数据时,可以使用如下脚本:
( SELECT ROW_NUMBER() OVER (PARTITION BY EMPID,FNAME,LNAME ORDER BY EMPID ASC ) AS ROWID, * FROM EMPLOYEE)
SELECT * FROM [ EMPLOYEE ORDERED BY ROWID ] WHERE ROWID >= 2
如果数据量超大时,建议不要使用通用表达式,通用表达式的效率远比临时表要低很多.