Pandas ExcelFile.Parse – 您需要知道的一切

说到数据分析,首要任务是将数据导入到分析数据的工具中。棘手的部分在于导入数据,因为没有通用格式来整合数据。有些人更喜欢电子表格,而另一些人则使用“.csv”文件。有些人甚至可能直接从网站导入数据,而另一些人则希望以“.txt”文件的形式导入数据。

由于导入数据的方式有多种,数据分析工具应该与可用的不同格式的数据存储库兼容。本文重点介绍一种在记录数据中无处不在的存储库——MS Excel。我们将使用pandas库中的ExcelFile.Parse( )函数导入 MS Excel 文件的详细信息

 因此,让我们首先使用以下代码导入pandas库。

import pandas as pd

此后,我们将通过以下各节更深入地了解ExcelFile.Parse( ) 函数。

  • ExcelFile.Parse( ) 函数的语法
  • ExcelFile.Parse () 函数举例说明

ExcelFile.Parse( ) 函数的语法

以下是包含ExcelFile.Parse( )函数正常运行所需的强制和可选构造的语法

pandas.ExcelFile.Parse(sheet_name=0, header=0, names=None,
index_col=None, usecols=None, sqeeze=None, converters=None,
true_values=None, false_values=None, skiprows=None,
nrows=None, na_values=None, parse_dates=False,
date_parser=None, thousands=None, comment=None,
skipfooter=0, convert_float=None, mangle_dupe_col=True, **kwds)

在哪里,

  • sheet_name – 包含要导入的数据的 MS Excel 文件中工作表的名称或页码。
  • header 默认设置为零 (0),用于指定包含要解析的数据标签的行。
  • 名称 –默认设置为“无”,用于指定要使用的列名称。
  • index_col –默认设置为“无”,用于指定用作解析数据的行标签的列。
  • usecols –用于根据输入列是设置为字符串还是字符串/数字列表来返回输入列的子集。默认情况下设置为“无”,它还可以设置为可调用。
  • 挤压 –默认设置为“None”,用于当解析的数据仅包含一列时返回一系列,但在1.4.0以下的版本中已弃用。
  • Converters –默认设置为“None”,用于指定可以转换特定列中的值的函数字典。
  • true_values –默认设置为“None”,用于指定解析数据时被视为“True”的值。
  • false_values –默认设置为“None”,用于指定解析数据时被视为“False”的值。
  • Skiprows –默认设置为“无”,用于指定行号或从文件开头跳过的行数。
  • nrows –默认设置为“None”,用于指定要解析的行数。
  • na_values –默认设置为“None”,用于指定被视为 NA 值的字符串,例如“#N/A”、“#NA”、“NaN”、“na”等。
  • parse_dates –默认设置为“False”,用​​于指定要解析的输入数据中的日期列表。
  • date_parser –默认设置为“无”,用于将包含字符串的列转换为“日期时间”格式的数组。
  • 千位 –默认设置为“无”,用于在输入数据中以“文本”格式存储的列值包含千位分隔符。
  • comment –默认设置为“无”,用于通过传递字符来突出显示输入 MS Excel 文件中注释的位置。
  • Skipfooter 默认设置为零 (0),用于跳过输入数据末尾的行。
  • Convert_float –默认设置为“None”,用于将存储为“float”的数据转换为“int”,但在 1.3.0 之后的版本中已弃用。
  • mangle_dupe_col 默认设置为“True”,用于将重复列指定为“X”、“X.1”、…。如果设置为“False”,“X.N”& 用于覆盖重复列中的数据。它在 1.5.0 之后的版本中已弃用。
  • **kwds – kwargs 或关键字参数,它是一个可选构造,用于将参数的关键字变量长度传递给函数。

ExcelFile.Parse( ) 函数通过示例进行解释

让我们首先指定包含要在ExcelFile( )函数中解析的数据的文件的位置,如下所示。

XL = pd.ExcelFile('D:\Ask Python\Examples.xlsx')

完成后,就可以解析该文件中的数据,特别是感兴趣的数据是位于第一张表的前三列中的数据。这可以使用以下代码来完成。

df = XL.parse('Sheet1', usecols = [1, 2, 3])
print (df)

打印数据帧会产生以下结果。

选定的数据框已重新调整

现在假设我们希望输出的第一列,即那些带有“0,1,2&3”的列被替换为第二列中的内容,那么,可以按如下方式完成相同的操作。

df = XL.parse('Sheet1', usecols = [1, 2, 3], index_col = 0)
print (df)
修改后的数据框

假设只需要前三行的结果,可以使用nrows选项来实现这一点。

df = XL.parse('Sheet1', usecols = [1, 2, 3], index_col = 0, nrows = 3)
print (df)
仅解析 3 行的数据框

结论

现在我们已经到了本文的结尾,希望它已经详细说明了如何使用pandas库中的ExcelFile.Parse( )函数这是另一篇文章,详细介绍了Python 中numpy库中的convolve()函数的用法AskPython中还有许多其他有趣且内容丰富的文章,可能对那些希望提高 Python 水平的人有很大帮助。Audere est Facere!


参考