当前位置：首页 > Python > 正文

Python数组去重方法大全 - 高效处理重复元素

YuchiJunNeng
Python
2025-07-15
1248

Python数组去重方法大全

在Python编程中，处理数组或列表数据时，经常需要去除重复元素。本文将详细介绍多种高效的去重方法，每种方法都包含示例代码和适用场景分析。

1. 使用set()方法

set是Python中的集合类型，它不允许重复元素。这是最简单快速的去重方法，但会丢失原始顺序。

# 使用set去重
original_list = [3, 2, 1, 2, 4, 3, 5]
unique_list = list(set(original_list))
print(unique_list)  # 输出可能是 [1, 2, 3, 4, 5] 顺序不固定

特点： 时间复杂度O(n)，高效快速；不保留原始顺序；只适用于可哈希元素。

2. 使用字典键去重

利用字典键的唯一性来去重，同时可以保持元素的插入顺序（Python 3.7+）。

# 使用字典键去重（保留顺序）
original_list = ['apple', 'banana', 'apple', 'orange', 'banana', 'pear']
unique_list = list(dict.fromkeys(original_list))
print(unique_list)  # 输出: ['apple', 'banana', 'orange', 'pear']

特点： 时间复杂度O(n)；保留原始顺序；适用于Python 3.7及以上版本。

3. 使用列表推导式

通过遍历列表并检查元素是否已在新列表中，可以保留顺序但效率较低。

# 使用列表推导式去重（保留顺序）
original_list = [10, 20, 30, 20, 10, 40, 30]
unique_list = []
[unique_list.append(x) for x in original_list if x not in unique_list]
print(unique_list)  # 输出: [10, 20, 30, 40]

特点： 时间复杂度O(n²)，效率低；保留原始顺序；适用于小型列表。

4. 使用OrderedDict

对于Python 3.7以下版本，可以使用OrderedDict保持顺序。

# 使用OrderedDict去重（保留顺序）
from collections import OrderedDict

original_list = ['red', 'blue', 'green', 'blue', 'red']
unique_list = list(OrderedDict.fromkeys(original_list))
print(unique_list)  # 输出: ['red', 'blue', 'green']

特点： 适用于Python 3.7以下版本；保留原始顺序；需要导入collections模块。

5. 使用pandas库

对于大型数据集，pandas提供了高效的unique()方法。

# 使用pandas去重
import pandas as pd

original_list = [5, 3, 5, 2, 1, 3, 4]
unique_list = pd.Series(original_list).unique().tolist()
print(unique_list)  # 输出: [5, 3, 2, 1, 4]

特点： 适合处理大型数据集；需要安装pandas库；不保留原始顺序。

各种去重方法比较

方法	保留顺序	时间复杂度	适用场景
set()	否	O(n)	简单快速去重，不关心顺序
字典键	是	O(n)	Python 3.7+，需要保留顺序
列表推导式	是	O(n²)	小型列表，简单逻辑
OrderedDict	是	O(n)	Python 3.7以下版本
pandas	否	O(n)	大型数据集，已使用pandas