数据分析读取文件

2025-03-13 约 1291 字预计阅读 3 分钟

https://bing.ee123.net/img/rand?artid=146235344

【数据分析】读取文件

读取指定列


针对只需要读取数据中的某一列或多列的情况， `pd.read_csv()` 函数提供了一个参数： `usecols` ，将包含对应的columns的列表传入该参数即可。

上面，我们学习了读取 “payment”

和 “items_count”

这两列的数据。

当然，Pandas也提供了 to_csv()

函数，用于将DataFrame转换为CSV数据。

导入pandas模块，并以"pd"为该模块的简写

import pandas as pd

使用pd.read_csv()函数和usecols参数

读取路径为 “/Users/yequ/电商数据清洗.csv” 的CSV文件里的"payment"和"items_count"这两列中的数据

并将结果赋值给变量data

data = pd.read_csv("/Users/yequ/电商数据清洗.csv", usecols=[“payment”,“items_count”])

将data保存到指定路径

data.to_csv("/Users/yequ/电商数据清洗2.csv")

：对DataFrame对象使用

to_csv()

函数，将文件保存路径作为参数，即可将DataFrame保存到指定的文件路径，并存储为后缀名是

.csv

的文件。

如图，我们在调用 to_csv()

若只设置路径参数，会将行索引信息写入

CSV

文件的第1列。

to_csv()

函数和 read_csv()

函数类似，除了路径这个参数外，还有大量

可以选用。

对于 to_csv()

函数，我们再简单了解2个可选参数。

对于前面的情况，我们通过设置参数 index=False

，这样就不会将行索引信息写入第一列。


# 导入pandas模块，并以"pd"为该模块的简写 import pandas as pd # 使用pd.read_csv()函数和usecols参数 # 读取路径为 “/Users/yequ/电商数据清洗.csv” 的CSV文件里的"payment"和"items_count"这两列中的数据 # 并将结果赋值给变量data data = pd.read_csv("/Users/yequ/电商数据清洗.csv", usecols=[“payment”,“items_count”]) # 将data保存到指定路径，并不将行索引信息写入第一列 data.to_csv("/Users/yequ/电商数据清洗2.csv",index=False)

# 导入pandas模块，并以"pd"为该模块的简写 import pandas as pd # 使用pd.read_csv()函数和usecols参数 # 读取路径为 “/Users/yequ/电商数据清洗.csv” 的CSV文件里的"payment"和"items_count"这两列中的数据 # 并将结果赋值给变量data data = pd.read_csv("/Users/yequ/电商数据清洗.csv", usecols=[“payment”,“items_count”]) # 将data保存到指定路径，并不将行索引信息写入第一列 data.to_csv("/Users/yequ/电商数据清洗2.csv",index=False)

同样的道理，使用to_csv()函数，也有可能因为中文字符的编码问题，造成生成的csv文件乱码。

此时，我们可以将参数encoding设置为"utf-8-sig"。

格式：

encoding=“utf-8-sig”


示例代码： import pandas as pd data = pd.read_csv("/Users/yequ/电商数据清洗.csv", usecols=[“payment”,“items_count”]) # 将data保存到指定路径 data.to_csv("/Users/yequ/电商数据清洗2.csv",encoding=“utf-8-sig”)

保存CSV文件


Pandas 也提供了to_csv()函数，用于将DataFrame转换为CSV数据。必选参数：要保存的CSV文件的文件路径可选参数： 1. 设置保存编码格式： `encoding="utf-8-sig"` 2. 不将行索引写入第一列： `index = False`

与读取CSV文件相似， Excel文件的读取也差不多。