Pandas 是一个用于外部数据预处理和内部数据集创建的广泛库。它是帮助预处理信息和清理信息以便更好地使用的主要包之一。
最好的功能是它可以从服务器读取和获取大量数据。
这对于Python的网络抓取和在线关键点收集有很大帮助。本文讨论了该模块的显着特征之一,即 熊猫的形状属性。
先决条件
在我们开始之前,主要的事情是我们需要检查这个游戏的工具和武器。所以,让我们确认一下。
工具和技术:
- Python:3.6或以上版本
- IDE:Jupyter 笔记本
- 浏览器:谷歌浏览器
- 环境:蟒蛇
- 支持包:Numpy和Matplotlib
- 稳定的互联网连接(仅需要从服务器读取数据)。
我们还将确定本文将介绍哪些内容:
我们将在本文中介绍的内容:
- Pandas 中的 shape 属性是什么
- 读取数据集
- 使用该数据集中的形状
现在我们已准备好执行此操作,所以让我们立即开始吧!
Pandas 中的 shape 属性是什么?
数据框是有关特定主题的信息的实际表示。这可以来自各种数据流和行业部门。在这个现代化世界中,可能来自特定部门的每个个人和组织都维护着关键数据。其主要或主要格式是表格。但这些表格数据有各种扩展,如 SQL、Excel、JSON 等。下图显示了实际图片:
它可以小也可以大。在大多数情况下,数据表比我们预期的要大得多。因此,在记录行数和列数时可能会发生一些人为错误。
因此,为了解决这个困难,pandas 库中的 shape 属性用于检查数据集或数据框中的实际行数和列数。
读取任何数据集形状的语法– 这是读取数据集形状的通用语法:
dataframe.shape |
读取 Pandas 中的数据集
数据集的读取将数据中实际存在的内容带入图片中。这是使用Pandas 中的read函数执行的。对于不同的文件扩展名,它有不同的形式。我们将读取三个数据集来检查每个数据集的形状。
使用的数据集:
- 测试集.csv
- 工资.csv
- 泰坦尼克号.csv
读取数据集的通用语法:
import pandas as pd data_variable = pd.read_file( 'filename.extension' ) # The read_file method is an example. There are different methods for each file extension. |
数据集1
在上图中,我们可以看到 shape 属性是如何工作的。它返回一个具有两个值的元组。请记住,第一个值表示行数,第二个值表示列数。简而言之,这告诉我们数据集要大得多。它有 2,671 行和 10 列。
数据集2
它的名称是salary.csv,这个数据集形状是(16, 4)。因此它有 16 行和 4 列。
数据集3
该数据集是 titanic.csv。从形状属性中,我们可以看到该数据集中有 418 行和 12 列。
使用 shape 属性的一些不同方法
现在我们通过这三个例子了解了如何使用形状。我们可以利用这个属性的一些值得注意的关键点。
- 仅检索行数。
- 仅检索列数。
我们知道它返回一个行、列的元组。因此,我们可以使用索引切片来实现这一点。元组是不可变的,但是可以通过索引方法访问元素。这与我们对列表的处理相同。让我们看一个代码库示例:
tupple_1 = ( 12 , 42 , 45 , 90 ) tuple_1[ 3 ] tuple_1[ 0 ] tuple_1[ 1 ] # Output # 90 # 12 # 42 |
要检索行计数,请访问第零个索引;要检索列计数,请访问第一个索引
data.shape[ 0 ] # returns number of rows data.shape[ 1 ] # returns number of columns |
结论
这就是 shape 属性在 Pandas 中的执行方式。这是我们用于数据预处理的一个非常重要的关键函数之一。