Pandas 形状属性 – 完整指南

Pandas 是一个用于外部数据预处理和内部数据集创建的广泛库。它是帮助预处理信息和清理信息以便更好地使用的主要包之一。

最好的功能是它可以从服务器读取和获取大量数据。

这对于Python的网络抓取和在线关键点收集有很大帮助。本文讨论了该模块的显着特征之一,即 熊猫的形状属性。

先决条件

在我们开始之前,主要的事情是我们需要检查这个游戏的工具和武器。所以,让我们确认一下。

工具和技术:

  1. Python:3.6或以上版本
  2. IDE:Jupyter 笔记本
  3. 浏览器:谷歌浏览器
  4. 环境:蟒蛇
  5. 支持包:NumpyMatplotlib
  6. 稳定的互联网连接(仅需要从服务器读取数据)

我们还将确定本文将介绍哪些内容:

我们将在本文中介绍的内容:

  1. Pandas 中的 shape 属性是什么
  2. 读取数据集
  3. 使用该数据集中的形状

现在我们已准备好执行此操作,所以让我们立即开始吧!

Pandas 中的 shape 属性是什么?

表1 通用格式

数据框是有关特定主题的信息的实际表示。这可以来自各种数据流和行业部门。在这个现代化世界中,可能来自特定部门的每个个人和组织都维护着关键数据。其主要或主要格式是表格。但这些表格数据有各种扩展,如 SQL、Excel、JSON 等。下图显示了实际图片:

它可以小也可以大。在大多数情况下,数据表比我们预期的要大得多。因此,在记录行数和列数时可能会发生一些人为错误。

因此,为了解决这个困难,pandas 库中的 shape 属性用于检查数据集或数据框中的实际行数和列数。

读取任何数据集形状的语法– 这是读取数据集形状的通用语法:

dataframe.shape

读取 Pandas 中的数据集

数据集的读取将数据中实际存在的内容带入图片中。这是使用Pandas 中的read函数执行的。对于不同的文件扩展名,它有不同的形式。我们将读取三个数据集来检查每个数据集的形状。

使用的数据集:

  1. 测试集.csv
  2. 工资.csv
  3. 泰坦尼克号.csv

读取数据集的通用语法:

import pandas as pd
data_variable = pd.read_file('filename.extension')
 
# The read_file method is an example. There are different methods for each file extension.

数据集1

读取数据集 1 并检索其形状

在上图中,我们可以看到 shape 属性是如何工作的。它返回一个具有两个值的元组。请记住,第一个值表示行数,第二个值表示列数。简而言之,这告诉我们数据集要大得多。它有 2,671 行和 10 列

数据集2

读取数据集 2 并检索其形状

它的名称是salary.csv,这个数据集形状是(16, 4)。因此它有 16 行和 4 列。

数据集3

读取数据集3

该数据集是 titanic.csv。从形状属性中,我们可以看到该数据集中有 418 行和 12 列

使用 shape 属性的一些不同方法

现在我们通过这三个例子了解了如何使用形状我们可以利用这个属性的一些值得注意的关键点。

  1. 仅检索行数。
  2. 仅检索列数。

我们知道它返回一个行、列的元组。因此,我们可以使用索引切片来实现这一点。元组是不可变的,但是可以通过索引方法访问元素。这与我们对列表的处理相同。让我们看一个代码库示例:

tupple_1 = (12, 42, 45,90)
 
tuple_1[3]
tuple_1[0]
tuple_1[1]
 
# Output
# 90
# 12
# 42

要检索行计数,请访问第零个索引;要检索列计数,请访问第一个索引

data.shape[0] # returns number of rows
data.shape[1] # returns number of columns

结论

这就是 shape 属性在 Pandas 中的执行方式。这是我们用于数据预处理的一个非常重要的关键函数之一。