Pandas 重复值统计

🏰 体育365地址 📅 2026-02-16 17:03:37 👤 admin 👁️ 9516 👑 706
Pandas 重复值统计

Pandas 重复值统计

在本文中,我们将介绍如何使用Pandas在DataFrame中统计重复值。

阅读更多:Pandas 教程

检查重复值

我们可以使用duplicated()函数来检查DataFrame中的重复值。该函数将返回一个布尔型数组,表示DataFrame中每个元素是否重复出现。例如,我们有一个读取自CSV的DataFrame:

import pandas as pd

df = pd.read_csv('data.csv')

print(df)

输出:

Name Age

0 Bob 23

1 Tom 28

2 Jack 23

3 Bob 23

4 Bob 28

我们可以使用duplicated()函数来检查每个元素是否重复:

print(df.duplicated())

输出:

0 False

1 False

2 False

3 True

4 False

dtype: bool

在这个例子中,第4个元素是一个重复值。我们可以在DataFrame中使用drop_duplicates()函数来删除重复值:

df = df.drop_duplicates()

print(df)

输出:

Name Age

0 Bob 23

1 Tom 28

2 Jack 23

4 Bob 28

现在,我们的DataFrame中只剩下4个唯一的值。

统计重复值

我们可以使用value_counts()函数来统计重复值的数量。该函数将返回一个Pandas Series对象,其中包含每个唯一值出现的次数。例如,我们可以对上述DataFrame中的Name列进行统计:

print(df['Name'].value_counts())

输出:

Bob 2

Jack 1

Tom 1

Name: Name, dtype: int64

在这个例子中,Bob出现了两次,Jack和Tom各出现了一次。

统计重复值的比例

我们可以使用value_counts()函数和normalize=True参数来计算重复值出现的比例。例如,我们可以对上述DataFrame中的Age列进行统计:

print(df['Age'].value_counts(normalize=True))

输出:

23 0.5

28 0.5

Name: Age, dtype: float64

在这个例子中,23和28等比例出现。

总结

本文介绍了在Pandas中统计DataFrame中重复值的方法,包括检查重复值、删除重复值、统计重复值和统计重复值的比例。这些功能可以帮助我们更好地分析和理解数据。

皇家推荐

招商银行信用卡中心工作体验及面经分享(附内推链接)
365bet体育线上投注

招商银行信用卡中心工作体验及面经分享(附内推链接)

📅 09-17 👁️ 4118
上海投资酒吧 上海投资酒吧多少钱
必定赢365线路检测

上海投资酒吧 上海投资酒吧多少钱

📅 10-08 👁️ 6585
幻兽帕鲁焰煌boss入口位置在哪 焰煌boss入口位置详细图文介绍
阿隆索:姆巴佩明天很有可能上;卡瓦哈尔和米利唐会进大名单
《刀剑乱舞》短刀练级技巧
365bet体育线上投注

《刀剑乱舞》短刀练级技巧

📅 08-24 👁️ 9237
2017年母亲节是几月几号
体育365地址

2017年母亲节是几月几号

📅 10-30 👁️ 2081