当前位置：首页 > Python > 正文

Python去除重复项操作教程 - 多种方法详解 | Python去重指南

YangJieZheng
Python
2025-07-18
980

Python去除重复项操作教程

在数据处理和清洗过程中，去除重复项是最常见的操作之一。Python提供了多种高效的方法来处理重复数据，本教程将详细介绍各种去重方法及其适用场景。

1. 使用set去重

set是Python中最简单高效的去重方法，但会丢失原始顺序：

# 基本列表去重
original_list = [3, 2, 1, 2, 4, 3, 5]
unique_list = list(set(original_list))
print(unique_list)  # 输出: [1, 2, 3, 4, 5]（顺序可能不同）

# 字符串去重
text = "hello world"
unique_chars = ''.join(set(text))
print(unique_chars)  # 输出类似: "helo wrd"（顺序不固定）

优点： 简单高效，时间复杂度O(n)

缺点： 不保留原始顺序，仅适用于可哈希元素

2. 保持顺序去重

使用dict.fromkeys()方法可以在去重的同时保持元素顺序：

def remove_duplicates_ordered(lst):
    return list(dict.fromkeys(lst))

# 测试保持顺序去重
ordered_list = [3, 2, 1, 2, 4, 3, 5]
result = remove_duplicates_ordered(ordered_list)
print(result)  # 输出: [3, 2, 1, 4, 5]

优点： 保留元素首次出现的顺序，时间复杂度O(n)

适用场景： 需要保持原始顺序的去重操作

3. 列表推导式去重

结合列表推导式和条件判断可以实现去重：

def remove_duplicates_comprehension(lst):
    seen = set()
    return [x for x in lst if not (x in seen or seen.add(x))]

# 测试列表推导式去重
data = ['apple', 'banana', 'apple', 'orange', 'banana', 'grape']
unique_fruits = remove_duplicates_comprehension(data)
print(unique_fruits)  # 输出: ['apple', 'banana', 'orange', 'grape']

优点： 代码简洁，保持原始顺序

注意： 利用set.add()方法返回None的特性实现条件判断

4. 字典去重

字典键的唯一性可用于去重操作，特别适合处理键值对数据：

# 字典列表去重
data = [
    {'id': 1, 'name': 'Alice'},
    {'id': 2, 'name': 'Bob'},
    {'id': 1, 'name': 'Alice'},
    {'id': 3, 'name': 'Charlie'}
]

# 基于特定键去重
seen = set()
unique_data = []
for d in data:
    # 根据'id'去重
    if d['id'] not in seen:
        seen.add(d['id'])
        unique_data.append(d)

print(unique_data)
# 输出: [{'id': 1, 'name': 'Alice'}, {'id': 2, 'name': 'Bob'}, {'id': 3, 'name': 'Charlie'}]

优点： 灵活处理复杂数据结构

适用场景： 字典列表根据特定键去重，JSON数据处理

5. Pandas去重

Pandas库提供强大的DataFrame去重功能：

import pandas as pd

# 创建示例DataFrame
data = {
    'id': [1, 2, 3, 2, 4],
    'name': ['Alice', 'Bob', 'Charlie', 'Bob', 'David'],
    'score': [85, 90, 78, 90, 92]
}
df = pd.DataFrame(data)

# 基本去重
df_unique = df.drop_duplicates()
print("基本去重结果:")
print(df_unique)

# 根据特定列去重
df_unique_id = df.drop_duplicates(subset=['id'])
print("\n根据ID去重结果:")
print(df_unique_id)

# 保留最后一次出现的重复项
df_unique_last = df.drop_duplicates(subset=['name'], keep='last')
print("\n保留最后一次出现的重复项:")
print(df_unique_last)

优点： 功能强大，支持复杂数据操作

适用场景： 数据分析、大型数据集处理

6. 复杂数据结构去重

处理嵌套列表、元组等不可哈希元素的去重：

# 嵌套列表去重
nested_list = [[1, 2], [3, 4], [1, 2], [5, 6]]

# 方法1: 使用tuple转换
unique_nested = [list(x) for x in set(tuple(x) for x in nested_list)]
print("使用tuple转换去重:", unique_nested)

# 方法2: 保持顺序的去重
def remove_duplicates_nested(lst):
    seen = set()
    unique = []
    for item in lst:
        t = tuple(item)
        if t not in seen:
            seen.add(t)
            unique.append(item)
    return unique

print("保持顺序的去重:", remove_duplicates_nested(nested_list))

关键点： 将可变元素转换为不可变类型（如tuple）后再去重

适用场景： 列表的列表、字典的列表等复杂数据结构

方法对比与选择建议

方法	时间复杂度	是否保序	适用场景
set()转换	O(n)	否	简单列表/元组快速去重
dict.fromkeys()	O(n)	是	需要保持顺序的去重
列表推导式	O(n)	是	代码简洁的保序去重
字典键去重	O(n)	是	字典列表根据特定键去重
Pandas去重	O(n)	可选	DataFrame数据处理
元组转换去重	O(n)	否	嵌套列表等不可哈希元素