数据分析读取文件
目录
【数据分析】读取文件
读取指定列
针对只需要读取数据中的某一列或多列的情况, pd.read_csv() 函数提供了一个参数: usecols ,将 包含对应的columns的列表 传入该参数即可。 |
上面,我们学习了读取 “payment”
和 “items_count”
这两列的数据。
当然,Pandas也提供了
to_csv()
函数,用于将DataFrame转换为CSV数据。
导入pandas模块,并以"pd"为该模块的简写
import pandas as pd
使用pd.read_csv()函数和usecols参数
读取路径为 “/Users/yequ/电商数据清洗.csv” 的CSV文件里的"payment"和"items_count"这两列中的数据
并将结果赋值给变量data
data = pd.read_csv("/Users/yequ/电商数据清洗.csv", usecols=[“payment”,“items_count”])
将data保存到指定路径
data.to_csv("/Users/yequ/电商数据清洗2.csv")
ps
:对DataFrame对象使用
to_csv()
函数,将文件保存路径作为参数,即可将DataFrame保存到指定的文件路径,并存储为后缀名是
.csv
的文件。
如图,我们在调用
to_csv()
若只设置路径参数,会将 行索引信息写入
CSV
文件的第1列。
to_csv()
函数和
read_csv()
函数类似,除了路径这个参数外,还有大量
可以选用。
对于
to_csv()
函数,我们再简单了解2个可选参数。
对于前面的情况,我们通过设置参数
index=False
,这样就不会将行索引信息写入第一列。
# 导入pandas模块,并以"pd"为该模块的简写 import pandas as pd # 使用pd.read_csv()函数和usecols参数 # 读取路径为 “/Users/yequ/电商数据清洗.csv” 的CSV文件里的"payment"和"items_count"这两列中的数据 # 并将结果赋值给变量data data = pd.read_csv("/Users/yequ/电商数据清洗.csv", usecols=[“payment”,“items_count”]) # 将data保存到指定路径,并不将行索引信息写入第一列 data.to_csv("/Users/yequ/电商数据清洗2.csv",index=False) |
同样的道理,使用to_csv()函数,也有可能因为中文字符的编码问题,造成生成的csv文件乱码。
此时,我们可以将参数encoding设置为"utf-8-sig"。
格式:
encoding=“utf-8-sig”
示例代码: import pandas as pd data = pd.read_csv("/Users/yequ/电商数据清洗.csv", usecols=[“payment”,“items_count”]) # 将data保存到指定路径 data.to_csv("/Users/yequ/电商数据清洗2.csv",encoding=“utf-8-sig”) |
保存CSV文件
Pandas 也提供了to_csv()函数,用于将DataFrame转换为CSV数据。 必选参数:要保存的CSV文件的 文件路径 可选参数: 1. 设置保存编码格式 : encoding="utf-8-sig" 2. 不将行索引写入第一列 : index = False |
与读取CSV文件相似, Excel文件的读取也差不多。