目录

数据分析读取文件

目录

【数据分析】读取文件

https://i-blog.csdnimg.cn/direct/10dfa642733d4a6ba02725b929d6a59a.png

读取指定列

针对只需要读取数据中的某一列或多列的情况, pd.read_csv() 函数提供了一个参数: usecols ,将 包含对应的columns的列表 传入该参数即可。

上面,我们学习了读取 “payment”

和 “items_count”

这两列的数据。

当然,Pandas也提供了 to_csv()

函数,用于将DataFrame转换为CSV数据。

导入pandas模块,并以"pd"为该模块的简写

import pandas as pd

使用pd.read_csv()函数和usecols参数

读取路径为 “/Users/yequ/电商数据清洗.csv” 的CSV文件里的"payment"和"items_count"这两列中的数据

并将结果赋值给变量data

data = pd.read_csv("/Users/yequ/电商数据清洗.csv", usecols=[“payment”,“items_count”])

将data保存到指定路径

data.to_csv("/Users/yequ/电商数据清洗2.csv")

ps

:对DataFrame对象使用

to_csv()

函数,将文件保存路径作为参数,即可将DataFrame保存到指定的文件路径,并存储为后缀名是

.csv

的文件。

如图,我们在调用 to_csv()

若只设置路径参数,会将 行索引信息写入

CSV

文件的第1列。

https://i-blog.csdnimg.cn/direct/dccc1d25e3ae4717b1500d8c9db86b2c.png

to_csv()

函数和 read_csv()

函数类似,除了路径这个参数外,还有大量

可以选用。

对于 to_csv()

函数,我们再简单了解2个可选参数。

对于前面的情况,我们通过设置参数 index=False

,这样就不会将行索引信息写入第一列。

# 导入pandas模块,并以"pd"为该模块的简写 import pandas as pd # 使用pd.read_csv()函数和usecols参数 # 读取路径为 “/Users/yequ/电商数据清洗.csv” 的CSV文件里的"payment"和"items_count"这两列中的数据 # 并将结果赋值给变量data data = pd.read_csv("/Users/yequ/电商数据清洗.csv", usecols=[“payment”,“items_count”]) # 将data保存到指定路径,并不将行索引信息写入第一列 data.to_csv("/Users/yequ/电商数据清洗2.csv",index=False)

同样的道理,使用to_csv()函数,也有可能因为中文字符的编码问题,造成生成的csv文件乱码。

此时,我们可以将参数encoding设置为"utf-8-sig"。

格式:

encoding=“utf-8-sig”

示例代码: import pandas as pd data = pd.read_csv("/Users/yequ/电商数据清洗.csv", usecols=[“payment”,“items_count”]) # 将data保存到指定路径 data.to_csv("/Users/yequ/电商数据清洗2.csv",encoding=“utf-8-sig”)

保存CSV文件

Pandas 也提供了to_csv()函数,用于将DataFrame转换为CSV数据。 必选参数:要保存的CSV文件的 文件路径 可选参数: 1. 设置保存编码格式 : encoding="utf-8-sig" 2. 不将行索引写入第一列 : index = False

与读取CSV文件相似, Excel文件的读取也差不多。