Pandas ExcelFile.Parse – 您需要知道的一切

说到数据分析，首要任务是将数据导入到分析数据的工具中。棘手的部分在于导入数据，因为没有通用格式来整合数据。有些人更喜欢电子表格，而另一些人则使用“.csv”文件。有些人甚至可能直接从网站导入数据，而另一些人则希望以“.txt”文件的形式导入数据。

由于导入数据的方式有多种，数据分析工具应该与可用的不同格式的数据存储库兼容。本文重点介绍一种在记录数据中无处不在的存储库——MS Excel。我们将使用pandas库中的ExcelFile.Parse( )函数导入 MS Excel 文件的详细信息。

因此，让我们首先使用以下代码导入pandas库。

import pandas as pd

此后，我们将通过以下各节更深入地了解ExcelFile.Parse( ) 函数。

ExcelFile.Parse( ) 函数的语法
ExcelFile.Parse () 函数举例说明

ExcelFile.Parse( ) 函数的语法

以下是包含ExcelFile.Parse( )函数正常运行所需的强制和可选构造的语法。

pandas.ExcelFile.Parse(sheet_name=0, header=0, names=None, 
index_col=None, usecols=None, sqeeze=None, converters=None,
true_values=None, false_values=None, skiprows=None,
nrows=None, na_values=None, parse_dates=False,
date_parser=None, thousands=None, comment=None,
skipfooter=0, convert_float=None, mangle_dupe_col=True, **kwds)

在哪里，

sheet_name – 包含要导入的数据的 MS Excel 文件中工作表的名称或页码。
header –默认设置为零 (0)，用于指定包含要解析的数据标签的行。
名称 –默认设置为“无”，用于指定要使用的列名称。
index_col –默认设置为“无”，用于指定用作解析数据的行标签的列。
usecols –用于根据输入列是设置为字符串还是字符串/数字列表来返回输入列的子集。默认情况下设置为“无”，它还可以设置为可调用。
挤压 –默认设置为“None”，用于当解析的数据仅包含一列时返回一系列，但在1.4.0以下的版本中已弃用。
Converters –默认设置为“None”，用于指定可以转换特定列中的值的函数字典。
true_values –默认设置为“None”，用于指定解析数据时被视为“True”的值。
false_values –默认设置为“None”，用于指定解析数据时被视为“False”的值。
Skiprows –默认设置为“无”，用于指定行号或从文件开头跳过的行数。
nrows –默认设置为“None”，用于指定要解析的行数。
na_values –默认设置为“None”，用于指定被视为 NA 值的字符串，例如“#N/A”、“#NA”、“NaN”、“na”等。
parse_dates –默认设置为“False”，用于指定要解析的输入数据中的日期列表。
date_parser –默认设置为“无”，用于将包含字符串的列转换为“日期时间”格式的数组。
千位 –默认设置为“无”，用于在输入数据中以“文本”格式存储的列值包含千位分隔符。
comment –默认设置为“无”，用于通过传递字符来突出显示输入 MS Excel 文件中注释的位置。
Skipfooter –默认设置为零 (0)，用于跳过输入数据末尾的行。
Convert_float –默认设置为“None”，用于将存储为“float”的数据转换为“int”，但在 1.3.0 之后的版本中已弃用。
mangle_dupe_col –默认设置为“True”，用于将重复列指定为“X”、“X.1”、…。如果设置为“False”，“X.N”& 用于覆盖重复列中的数据。它在 1.5.0 之后的版本中已弃用。
**kwds – kwargs 或关键字参数，它是一个可选构造，用于将参数的关键字变量长度传递给函数。

ExcelFile.Parse( ) 函数通过示例进行解释

让我们首先指定包含要在ExcelFile( )函数中解析的数据的文件的位置，如下所示。

XL = pd.ExcelFile('D:\Ask Python\Examples.xlsx')

完成后，就可以解析该文件中的数据，特别是感兴趣的数据是位于第一张表的前三列中的数据。这可以使用以下代码来完成。

df = XL.parse('Sheet1', usecols = [1, 2, 3])
print (df)

打印数据帧会产生以下结果。

选定的数据框已重新调整

现在假设我们希望输出的第一列，即那些带有“0,1,2&3”的列被替换为第二列中的内容，那么，可以按如下方式完成相同的操作。

df = XL.parse('Sheet1', usecols = [1, 2, 3], index_col = 0)
print (df)

修改后的数据框

假设只需要前三行的结果，可以使用nrows选项来实现这一点。

df = XL.parse('Sheet1', usecols = [1, 2, 3], index_col = 0, nrows = 3)
print (df)

仅解析 3 行的数据框

结论

现在我们已经到了本文的结尾，希望它已经详细说明了如何使用pandas库中的ExcelFile.Parse( )函数。这是另一篇文章，详细介绍了Python 中numpy库中的convolve()函数的用法。AskPython中还有许多其他有趣且内容丰富的文章，可能对那些希望提高 Python 水平的人有很大帮助。Audere est Facere！

参考

Pandas.ExcelFile.Parse( ) – 源文档