Pandas 形状属性 – 完整指南

Pandas 是一个用于外部数据预处理和内部数据集创建的广泛库。它是帮助预处理信息和清理信息以便更好地使用的主要包之一。

最好的功能是它可以从服务器读取和获取大量数据。

这对于Python的网络抓取和在线关键点收集有很大帮助。本文讨论了该模块的显着特征之一，即 熊猫的形状属性。

先决条件

在我们开始之前，主要的事情是我们需要检查这个游戏的工具和武器。所以，让我们确认一下。

工具和技术：

Python：3.6或以上版本
IDE：Jupyter 笔记本
浏览器：谷歌浏览器
环境：蟒蛇
支持包：Numpy和Matplotlib
稳定的互联网连接（仅需要从服务器读取数据）。

我们还将确定本文将介绍哪些内容：

我们将在本文中介绍的内容：

Pandas 中的 shape 属性是什么
读取数据集
使用该数据集中的形状

现在我们已准备好执行此操作，所以让我们立即开始吧！

Pandas 中的 shape 属性是什么？

表1 通用格式

数据框是有关特定主题的信息的实际表示。这可以来自各种数据流和行业部门。在这个现代化世界中，可能来自特定部门的每个个人和组织都维护着关键数据。其主要或主要格式是表格。但这些表格数据有各种扩展，如 SQL、Excel、JSON 等。下图显示了实际图片：

它可以小也可以大。在大多数情况下，数据表比我们预期的要大得多。因此，在记录行数和列数时可能会发生一些人为错误。

因此，为了解决这个困难，pandas 库中的 shape 属性用于检查数据集或数据框中的实际行数和列数。

读取任何数据集形状的语法– 这是读取数据集形状的通用语法：

dataframe.shape

读取 Pandas 中的数据集

数据集的读取将数据中实际存在的内容带入图片中。这是使用Pandas 中的read函数执行的。对于不同的文件扩展名，它有不同的形式。我们将读取三个数据集来检查每个数据集的形状。

使用的数据集：

测试集.csv
工资.csv
泰坦尼克号.csv

读取数据集的通用语法：

import pandas as pd
data_variable = pd.read_file('filename.extension') 
 
# The read_file method is an example. There are different methods for each file extension.

数据集1

读取数据集 1 并检索其形状

在上图中，我们可以看到 shape 属性是如何工作的。它返回一个具有两个值的元组。请记住，第一个值表示行数，第二个值表示列数。简而言之，这告诉我们数据集要大得多。它有 2,671 行和 10 列。

数据集2

读取数据集 2 并检索其形状

它的名称是salary.csv，这个数据集形状是(16, 4)。因此它有 16 行和 4 列。

数据集3

读取数据集3

该数据集是 titanic.csv。从形状属性中，我们可以看到该数据集中有 418 行和 12 列。

使用 shape 属性的一些不同方法

现在我们通过这三个例子了解了如何使用形状。我们可以利用这个属性的一些值得注意的关键点。

仅检索行数。
仅检索列数。

我们知道它返回一个行、列的元组。因此，我们可以使用索引切片来实现这一点。元组是不可变的，但是可以通过索引方法访问元素。这与我们对列表的处理相同。让我们看一个代码库示例：

tupple_1 = (12, 42, 45,90)
 
tuple_1[3]
tuple_1[0]
tuple_1[1]
 
# Output
# 90
# 12
# 42

要检索行计数，请访问第零个索引；要检索列计数，请访问第一个索引

data.shape[0] # returns number of rows
data.shape[1] # returns number of columns

结论

这就是 shape 属性在 Pandas 中的执行方式。这是我们用于数据预处理的一个非常重要的关键函数之一。