说到数据分析,首要任务是将数据导入到分析数据的工具中。棘手的部分在于导入数据,因为没有通用格式来整合数据。有些人更喜欢电子表格,而另一些人则使用“.csv”文件。有些人甚至可能直接从网站导入数据,而另一些人则希望以“.txt”文件的形式导入数据。
由于导入数据的方式有多种,数据分析工具应该与可用的不同格式的数据存储库兼容。本文重点介绍一种在记录数据中无处不在的存储库——MS Excel。我们将使用pandas库中的ExcelFile.Parse( )函数导入 MS Excel 文件的详细信息。
因此,让我们首先使用以下代码导入pandas库。
import pandas as pd |
此后,我们将通过以下各节更深入地了解ExcelFile.Parse( ) 函数。
- ExcelFile.Parse( ) 函数的语法
- ExcelFile.Parse () 函数举例说明
ExcelFile.Parse( ) 函数的语法
以下是包含ExcelFile.Parse( )函数正常运行所需的强制和可选构造的语法。
pandas.ExcelFile.Parse(sheet_name = 0 , header = 0 , names = None , index_col = None , usecols = None , sqeeze = None , converters = None , true_values = None , false_values = None , skiprows = None , nrows = None , na_values = None , parse_dates = False , date_parser = None , thousands = None , comment = None , skipfooter = 0 , convert_float = None , mangle_dupe_col = True , * * kwds) |
在哪里,
- sheet_name – 包含要导入的数据的 MS Excel 文件中工作表的名称或页码。
- header –默认设置为零 (0),用于指定包含要解析的数据标签的行。
- 名称 –默认设置为“无”,用于指定要使用的列名称。
- index_col –默认设置为“无”,用于指定用作解析数据的行标签的列。
- usecols –用于根据输入列是设置为字符串还是字符串/数字列表来返回输入列的子集。默认情况下设置为“无”,它还可以设置为可调用。
- 挤压 –默认设置为“None”,用于当解析的数据仅包含一列时返回一系列,但在1.4.0以下的版本中已弃用。
- Converters –默认设置为“None”,用于指定可以转换特定列中的值的函数字典。
- true_values –默认设置为“None”,用于指定解析数据时被视为“True”的值。
- false_values –默认设置为“None”,用于指定解析数据时被视为“False”的值。
- Skiprows –默认设置为“无”,用于指定行号或从文件开头跳过的行数。
- nrows –默认设置为“None”,用于指定要解析的行数。
- na_values –默认设置为“None”,用于指定被视为 NA 值的字符串,例如“#N/A”、“#NA”、“NaN”、“na”等。
- parse_dates –默认设置为“False”,用于指定要解析的输入数据中的日期列表。
- date_parser –默认设置为“无”,用于将包含字符串的列转换为“日期时间”格式的数组。
- 千位 –默认设置为“无”,用于在输入数据中以“文本”格式存储的列值包含千位分隔符。
- comment –默认设置为“无”,用于通过传递字符来突出显示输入 MS Excel 文件中注释的位置。
- Skipfooter –默认设置为零 (0),用于跳过输入数据末尾的行。
- Convert_float –默认设置为“None”,用于将存储为“float”的数据转换为“int”,但在 1.3.0 之后的版本中已弃用。
- mangle_dupe_col –默认设置为“True”,用于将重复列指定为“X”、“X.1”、…。如果设置为“False”,“X.N”& 用于覆盖重复列中的数据。它在 1.5.0 之后的版本中已弃用。
- **kwds – kwargs 或关键字参数,它是一个可选构造,用于将参数的关键字变量长度传递给函数。
ExcelFile.Parse( ) 函数通过示例进行解释
让我们首先指定包含要在ExcelFile( )函数中解析的数据的文件的位置,如下所示。
XL = pd.ExcelFile( 'D:\Ask Python\Examples.xlsx' ) |
完成后,就可以解析该文件中的数据,特别是感兴趣的数据是位于第一张表的前三列中的数据。这可以使用以下代码来完成。
df = XL.parse( 'Sheet1' , usecols = [ 1 , 2 , 3 ]) print (df) |
打印数据帧会产生以下结果。
现在假设我们希望输出的第一列,即那些带有“0,1,2&3”的列被替换为第二列中的内容,那么,可以按如下方式完成相同的操作。
df = XL.parse( 'Sheet1' , usecols = [ 1 , 2 , 3 ], index_col = 0 ) print (df) |
假设只需要前三行的结果,可以使用nrows选项来实现这一点。
df = XL.parse( 'Sheet1' , usecols = [ 1 , 2 , 3 ], index_col = 0 , nrows = 3 ) print (df) |
结论
现在我们已经到了本文的结尾,希望它已经详细说明了如何使用pandas库中的ExcelFile.Parse( )函数。这是另一篇文章,详细介绍了Python 中numpy库中的convolve()函数的用法。AskPython中还有许多其他有趣且内容丰富的文章,可能对那些希望提高 Python 水平的人有很大帮助。Audere est Facere!