数据分析读取文档读取Excel
目录
【数据分析】读取文档(读取Excel)
与读取CSV文件相似, Excel文件的读取也差不多。
因为Excel文件读取和CSV文件读取之间的区别就是一个词Excel。但它们的参数不完全通用,例如:encoding。
在学习 读取Excel文件 前,我们需要先安装一个用于读取Excel文件的辅助工具: xlrd 模块。 |
在终端中输入pip install xlrd==1.2.0安装xlrd模块。 |
读取Excel文件
在pandas模块中,读取Excel文件主要使用
pd.read_excel()
函数。
将 必选参数 - Excel文件的
路径
传入该函数中,便可以得到对应的DataFrame格式的数据。
下面是一个简单的示例:将一份2019年的超市销售订单数据的Excel文件
路径
传入
pd.read_excel()
函数后,得到了该数据对应的DataFrame格式的数据。
此时,读取出的数据会被自动添加默认从0开始的行索引index和列索引columns,并且columns默认是原来数据的第一行。
面对特殊情况的处理
和读取CSV文件一样,
pd.read_excel()
函数也为我们提供了大量的可选参数来处理形形色色的情况。
之前学习的参数也可以用在
pd.read_excel()
函数中。
除此之外,还有1个特殊的场景是只在处理Excel文件时能遇到的。
接下来,我们将通过分析这个场景来帮助大家理解
pd.read_excel()
函数中另一个最常用的可选参数。
读取指定工作表
当Excel文件里有多个工作表时,默认情况下, pd.read_excel() 函数会读取第一个工作表。 but now,我们想要具体分析该超市的销售情况,那么就需要读取Excel文件中的第二个工作表 - “销售订单数据”。 |
读取指定工作表- sheet_name 当我们需要读取指定工作表时, pd.read_excel() 函数提供了一个参数: sheet_name ,将要读取的工作表名称作为字符串传入该参数即可。 |
# 导入pandas模块,并以"pd"为该模块的简写 import pandas as pd # TODO 使用pd.read_excel()函数和sheet_name参数 # 读取路径为 “/Users/yequ/2019年4月销售订单.xlsx” 的Excel文件里:“销售订单数据” 这个工作表 # 并将结果赋值给变量data data = pd.read_excel( “/Users/yequ/2019年4月销售订单.xlsx”,sheet_name=“销售订单数据”) # 使用print()输出变量data print(data) |
总结:
读取Excel文件 |
在pandas模块中,读取Excel文件主要使用pd.read_excel()函数。 当我们需要读取指定工作表时,pd.read_excel()函数提供了一个参数:sheet_name,将要读取的工作表名称作为字符串传入该参数即可 |