Python 列表去重方法大全与性能对比：从原理到实测的完整指南-猿码集

一、基础去重方法概览

使用集合（set）去重的原理与性能

在Python中，集合（set）是实现快速去重的常用结构，因为集合的底层基于哈希表，能够在平均情况下实现O(n)的时间复杂度。空间复杂度通常为O(n)，取决于去重后需要存储的唯一元素数量。通过直接将列表转换为集合，再转回列表，可以实现快速的去重，但会打乱原有的顺序。

下面给出一个最简单的示例，展示将一个列表直接去重的方法并转回列表。使用set的去重在大多数场景下性能较好，尤其是数据规模较大且对顺序不重要时。简单易用、代码短小是它的主要优点。

items = [1, 2, 1, 3, 2, 4]
unique = list(set(items))  # 去重但不保留原始顺序

如果你的需求是尽可能快速地完成去重，而对顺序没有要求，那么这是“完整指南”中最常用的一种实现路径。值得注意的是，集合去重会改变原数据的顺序，因此在需要保持顺序时需要采用其他方法。

二、保留原有顺序的去重方法

借助字典从键去重并保持顺序

在Python 3.7及以后的实现中，字典的键具有全局有序性，因此可以利用dict.fromkeys来实现去重并保持原始顺序。其核心思想是将元素作为字典键，字典天然去重，随后再将键转为列表。时间复杂度为O(n)，空间复杂度为O(n)，且能保持输入的顺序。

下面是一个典型的示例，演示如何在保留顺序的前提下完成去重。该方法简单直观，适用于需要保持输入顺序的场景。实现简洁、低额外复杂度是它的优势之一。

items = [3, 1, 2, 1, 3, 2]
unique = list(dict.fromkeys(items))  # 保留原始顺序的去重

除了dict.fromkeys，还有一种等价但更显式的做法：通过手动维护一个set来记录已经见过的元素，并构建结果列表。这种实现方式对初学者更直观，且在Python的官方实现中也常被使用。遍历式去重在保持顺序的同时具有可控性。

items = [3, 1, 2, 1, 3, 2]
seen = set()
unique = []
for x in items:if x not in seen:seen.add(x)unique.append(x)  # 保留顺序的去重结果

两种顺序保留的实现都强调原始序列的稳定性，在需要对输出进行后续处理（如按原序列定位去重后的位置）时尤为有用。若数据元素类型不具备可哈希性，字典/集合的方法将不可用，此时需要采用其他策略。

三、基于排序的去重与性能对比

先排序再分组的思路

另一类思路是先对数据进行排序，再基于相邻元素的等价性进行去重。排序后再去重的时间复杂度通常为O(n log n)，适用于对数据整体有序性要求较高的场景。为了避免额外的散列开销，可以结合itertools.groupby实现高效分组提取唯一值。排序带来的额外成本在于对原始顺序的破坏，需要在输出阶段重新组织结果。

下面给出一个按排序后分组去重的常用实现，展示如何在不借助哈希集合的情况下完成去重。注意，该方法对原始顺序没有要求。按值分组去重、简洁实现是它的主要特性。

import itertools
items = [3, 1, 2, 1, 3, 2]
items_sorted = sorted(items)
unique = [k for k, _ in itertools.groupby(items_sorted)]

如果需要保留某种稳定的排序特性（例如先按某个键排序再去重），该方案也可以扩展为结合排序键的分组去重。对于大规模数据集，排序的时间成本往往高于基于哈希的去重，因此在选择策略时应结合具体需求权衡。实测对比通常显示，不保持顺序的集合去重在多数情况下更快，而保持顺序的方法则需要额外的线性扫描成本。

# 使用 NumPy 的去重（保持或不保持顺序视需求而定）
import numpy as np
arr = np.array([3, 1, 2, 1, 3, 2])
unique_no_order = np.unique(arr)  # 返回无序的去重结果，且类型保持为 ndarray
# 如果需要保持输入顺序的输出，可以先排序后去重，或使用其他实现

除了上述基于排序的方式，基于外部库的去重实现也提供了高效的选项，尤其是在处理数值矩阵或大规模数据时。对于序列型数据，排序后再分组的策略往往能显著降低额外的哈希开销，但需要记住这会改变输出的相对顺序。

Python 列表去重方法大全与性能对比：从原理到实测的完整指南

四、结合外部库的去重方法与实测对比

使用 pandas 的 unique/drop_duplicates 的对比

当数据属于数据表结构（如 Series 或 DataFrame）时，pandas 提供专门的去重方法，性能与易用性都很突出。unique 会返回去重后的数组，drop_duplicates 让你保留原始数据结构，同时提供对某些列的去重能力。对于数据科学工作流，这类方法通常比纯 Python 实现更高效且更方便链式处理。

下面演示在 pandas 中对一个 Series 的去重：包括两种常用的输出形式，一种是返回唯一值的数组，另一种是保持原始顺序的去重结果。兼容性好、API 清晰是它的显著优点。

import pandas as pd
s = pd.Series([1, 2, 1, 3, 2])
unique_values = s.unique()           # 不保证保持原始顺序的唯一值
ordered_unique = s.drop_duplicates().tolist()  # 保持原始顺序的去重结果

在实际数据处理中，若数据已经处于 DataFrame/Series 形式，结合 向量化操作与简洁的 API，pandas 的去重能力通常优于纯 Python 循环。需要注意的是，不同方法返回的结果类型可能不同（ndarray、Series、List），在后续处理时应保持类型一致性。