如何从 Python 中的 Dataframe 获取唯一值?

各位读者大家好!在本文中,我们将重点讨论如何从Python 中的 DataFrame获取唯一值。

那么,让我们开始吧!


什么是 Python 数据框?

Python Pandas 模块为我们提供了各种数据结构和函数来存储和操作大量数据。

DataFrame是 Pandas 模块提供的一种数据结构化产品,用于处理多个维度的大型数据集,例如巨大的 csv 或 excel 文件等。

由于我们可以在数据框中存储大量数据,因此我们经常遇到从可能包含冗余或重复值的数据集中查找唯一数据值的情况。

这就是pandas.dataframe.unique() function出现的时候。

现在让我们在下一节中重点关注 unique() 函数的功能。


Python pandas.unique() 函数从数据框中获取唯一值

返回pandas.unique() function数据集中存在的唯一值。

它基本上使用基于哈希表的技术从数据帧/系列数据结构中存在的值集中返回非冗余值。

让我们尝试通过一个例子来理解 unique 函数的作用——

考虑包含如下值的数据集:1,2,3,2,4,3,2

现在,如果我们应用 unique() 函数,我们将获得以下结果:1,2,3,4。这样,我们就很容易找到数据集的唯一值。

现在,让我们在下一节中讨论 pandas.unique() 函数的结构。


Python unique() 函数的语法

看看下面的语法:

pandas.unique(data)

当数据是一维时,上述语法很有用。它表示一维数据值(系列数据结构)中的唯一值。

但是,如果数据包含多个维度(即行和列)怎么办?是的,我们确实有一个解决方案,语法如下:

pandas.dataframe.column-name.unique()

此语法使我们能够从数据集的特定列中查找唯一值。

数据最好是分类类型,这样独特的函数才能获得正确的结果。此外,数据按照其在数据集中出现的顺序显示。


Python unique() 函数与 Pandas 系列

在下面的示例中,我们创建了一个包含冗余值的列表。

此外,我们已将列表转换为系列数据结构,因为它具有单一维度。最后,我们应用了 unique() 函数从数据中获取唯一值。

例子:

lst = [1,2,3,4,2,4]
df = pandas.Series(lst)
print("Unique values:\n")
print(pandas.unique(df))

输出:

Unique values:
[1 2 3 4]

Python unique() 函数与 Pandas DataFrame

让我们首先将数据集加载到环境中,如下所示 –

import pandas
BIKE = pandas.read_csv("Bike.csv")

您可以在此处找到数据集

表示pandas.dataframe.nunique() function数据帧每列中存在的唯一值。

BIKE.nunique()

输出:

season          4
yr              2
mnth           12
holiday         2
weathersit      3
temp          494
hum           586
windspeed     636
cnt           684
dtype: int64

此外,我们使用下面的代码表示“季节”列中呈现的唯一值 –

BIKE.season.unique()

输出:

array([1, 2, 3, 4], dtype=int64)

结论

至此,我们这个话题就结束了。如果您遇到任何问题,请随时在下面发表评论。

有关更多与 Python 相关的此类帖子,请继续关注,直到那时,快乐学习!🙂