Excel 文件是一种电子表格文件,包含行和列中的一些单元格(表格视图),可以帮助排列、计算、排序和管理数据。电子表格中的数据可以是数字、文本、公式、超链接、函数等。XLS 文件将数据存储为二进制流。它只能由最流行的 MS Excel 或其他电子表格程序创建。文件格式 .xlsx 始终表示其本身是一个 Excel 文件。
下图描绘了由 MS-excel 程序创建的 Excel 文件:
如何使用Python读取Excel文件
要使用Python读取excel文件,我们需要使用一些流行的Python模块和方法。让我们也了解一下这些。
使用Python xlrd模块
xlrd
是一个Python库或模块,用于读取和管理Excel文件(即.格式的文件)中的信息xlsx
。该模块不适用于除 . xlsx
文件。
让我们快速了解一下如何安装xlrd
模块。
C:\Users\pc> pip install xlrd |
当您使用 python 时,您必须下载软件包安装程序。您还可以使用您选择的其他 Python 包管理器。 pip
在此方法中,我们将使用xlwings
模块以及与其关联的方法(即xlwings.Book()
)。
这个方法会自动在后台为我们在其原始程序(即MS-Excel)中打开我们的.xlsx,我们可以在其中操作和管理我们的数据。
#importing the xlwings module as xw import xlwings as xw #you can get ur excel file already been opened after execution of this command ws = xw.Book( "C:\\Users\\pc\\Desktop\\students.xlsx" ).sheets[ 'Sheet1' ] |
从上面的代码片段中,我们可以在桌面上自动打开 Excel,以便我们可以访问它。
使用Python pandas模块
Pandas是一个开源 Python 库或模块,提供内置的高性能数据结构和数据分析工具。它最适合与其他两个核心 Python 库一起用于分析数据 –Matplotlib
用于数据可视化和NumPy
数学运算。
我们将使用 pip 安装程序以与之前的模块相同的方式安装此模块,如下所示。
C:\Users\pc> pip install pandas |
上面的代码片段将为pandas
我们安装模块,如下所示。
要读取 Excel 文件,让我们运行以下代码片段。
# importing pandas module as pd import pandas as pd #using read_excel() method to read our excel file and storing the same in the variable named "df " df = pd.read_excel( "C:\\Users\\pc\\Desktop\\students.xlsx" ) #printing our spreadsheet using print() method print (df) |
在上面的方法中,我们使用read_excel
() 方法来读取我们的 . xlsx
文件。我们可以将此方法与 pandas 模块一起使用,将 excel 文件数据读入 DataFrame 对象(此处为“ ”)。panda.read_excel()
df
上面的代码片段将打印我们的电子表格,如下所示。
使用 Python openpyxl 模块
Openpyxl
是一个用于读取或写入 Excel 文件的 Python 库或模块。需要安装此模块才能使用某些方法,例如 load_workbook(),否则,我们无法使用这些方法,它会抛出error
。让我们使用命令提示符安装此模块。
C:\Users\pc> pip install openpyxl |
上面的代码片段将安装我们的openpyxl
模块,如下所示。
在第二种方法中,我们将使用 openpyxl 模块和 load_workbook() 方法作为以下代码片段。
# importing openpyxl module import openpyxl #using load_workbook() method to read our excel file and storing to dataframe object table1 table1 = openpyxl.load_workbook( "C:\\Users\\pc\\Desktop\\students.xlsx" ) #To access the table1 we need to activate and store to an another object (Here it is table2) table2 = table1.active for row in range ( 1 , table2.max_row): for col in table2.iter_cols( 1 , table2.max_column): print (col[row].value, end = " " ) print ( "\n" ) |
在上面的代码片段中,我们使用 load_workbook() 方法来读取所需的 excel 文件以及 openpyxl 模块。如果不导入这个库或模块,我们就无法使用这个方法。不仅如此,该模块还负责在我们的 read_excel() 方法中读取位置作为参数(这里是“C:\Users\pc\Desktop\students.xlsx”)。
读取我们的excel文件并将其分配给table1后,需要激活它。否则,如果我们打印 table1,则会出现以下输出。
我们将使用 for 循环访问 table2,如上面的代码片段所示。我们将得到如下结果。
结论
在本文中,我们介绍了使用 Python 读取 Excel 文件的不同方法。我们讨论了一些流行的模块以及一些适当的输出所需的 Python 方法。希望您一定已经练习并喜欢我们的代码片段。我们必须带着一些更令人兴奋的话题再次访问。