使用-Python-将-PDF-转换为文本打造一个简单高效的提取工具

2025-03-09 约 1893 字预计阅读 4 分钟

https://bing.ee123.net/img/rand?artid=146127970

使用 Python 将 PDF 转换为文本：打造一个简单高效的提取工具

在数字化时代，PDF 文件是我们日常生活中常见的文档格式。无论是学术论文、工作报告还是电子书，PDF 的广泛使用让提取其中文字内容成为一个常见需求。手动复制粘贴显然效率低下，而借助 Python，我们可以轻松实现自动化提取。本文将介绍一个基于 Python 和 PyPDF2 的工具，用于将 PDF 文件中的文字提取并保存为文本文件。让我们一起来探索它的实现过程吧！

背景与需求

PDF 文件通常包含丰富的文本信息，但其格式特性使得直接访问内容并不总是直观。许多场景下，我们需要将 PDF 转为纯文本，例如：

将电子书内容导入笔记软件。
提取报告数据进行分析。
为后续自然语言处理任务准备数据。

Python 的 PyPDF2 库为我们提供了读取 PDF 文件并提取文字的便捷方法。通过编写一个简单的脚本，我们可以实现从 PDF 到 TXT 的转换，并支持交互式操作。这个工具的目标是：

输入单个 PDF 文件路径。
提取所有页面的文字内容。
将结果保存为同名的 TXT 文件。
提供错误提示和用户友好的交互界面。

功能概览

脚本包含以下核心功能：

文本提取 ：逐页读取 PDF 并提取文字。
文件处理 ：将提取的文本保存为 TXT 文件。
错误管理 ：处理文件不存在、格式错误等问题。
交互式界面 ：支持用户输入路径并选择是否继续。

接下来，我们将深入探讨代码的实现细节。

技术实现

依赖库

脚本依赖以下两个库：

os ：用于文件路径操作。
PyPDF2 ：用于读取 PDF 文件并提取文本。

安装 PyPDF2 的命令如下：

pip install PyPDF2

核心函数解析

pdf_to_txt(pdf_path)
- 功能：将指定 PDF 文件的文字提取并保存为 TXT 文件。
- 逻辑：
  - 检查文件是否存在及是否为 PDF 格式。
  - 使用 PdfReader 打开 PDF 文件。
  - 逐页提取文本并拼接。
  - 将结果写入同名 TXT 文件（UTF-8 编码）。
- 错误处理 ：
  - FileNotFoundError ：文件不存在。
  - ValueError ：文件不是 PDF 格式。
  - 通用异常：其他潜在错误。
- 返回值 ：布尔值，表示操作是否成功。
main()
- 功能：提供交互式入口。
- 流程：
  - 提示用户输入 PDF 文件路径。
  - 调用 pdf_to_txt 执行转换。
  - 根据结果询问是否继续处理其他文件。
  - 支持输入 ‘q’ 退出程序。

代码亮点

异常处理 ：通过多层次 try-except ，确保程序在遇到问题时不会崩溃，并给出清晰提示。
简洁性 ：核心逻辑集中在 pdf_to_txt 函数中，易于维护和扩展。
用户体验 ：交互式设计让操作直观，支持非技术用户。

使用场景

假设你有一份学术论文的 PDF 文件，想提取其中的文字进行引用或分析。你可以：

运行脚本，输入文件路径（例如 C:/Docs/paper.pdf ）。
脚本自动生成 paper.txt ，包含所有页面文字。
打开 TXT 文件，轻松复制或编辑内容。

输出文件示例：

第一页内容...
第二页内容...

如何运行

确保安装了 Python 和 PyPDF2 。
将脚本保存为 pdf_to_txt.py 。
在终端运行：
```
python pdf_to_txt.py
```
按照提示输入 PDF 文件路径即可。

注意事项

文字提取限制 ： PyPDF2 的 extract_text() 方法依赖 PDF 的文本编码。如果 PDF 是扫描件或图像格式，提取可能失败（需配合 OCR 工具如 Tesseract）。
编码支持 ：使用 UTF-8 确保多语言兼容性。
文件覆盖 ：如果目标 TXT 文件已存在，会被覆盖。

完整代码

以下是完整的 Python 脚本：

import PyPDF2
import os

def pdf_to_txt(pdf_path):
    try:
        # 检查文件是否存在
        if not os.path.exists(pdf_path):
            raise FileNotFoundError("指定的PDF文件未找到")
            
        # 检查文件是否为PDF
        if not pdf_path.lower().endswith('.pdf'):
            raise ValueError("文件必须是PDF格式")
            
        # 获取文件名（不含扩展名）
        file_name = os.path.splitext(pdf_path)[0]
        # 创建输出txt文件路径
        txt_path = f"{file_name}.txt"
        
        # 打开PDF文件
        with open(pdf_path, 'rb') as pdf_file:
            # 创建PDF阅读器对象
            pdf_reader = PyPDF2.PdfReader(pdf_file)
            # 获取PDF页数
            num_pages = len(pdf_reader.pages)
            
            # 初始化存储提取文本的字符串
            text = ""
            
            # 逐页提取文字
            for page_num in range(num_pages):
                # 获取页面对象
                page = pdf_reader.pages[page_num]
                # 提取文字并添加到text中
                text += page.extract_text() + "\n"  # 每页后加换行符
                
            # 将提取的文字写入txt文件
            with open(txt_path, 'w', encoding='utf-8') as txt_file:
                txt_file.write(text)
                
        print(f"\n成功提取 {num_pages} 页内容！")
        print(f"文字已保存到: {txt_path}")
        return True
        
    except FileNotFoundError as e:
        print(f"\n错误: {str(e)}")
        return False
    except ValueError as e:
        print(f"\n错误: {str(e)}")
        return False
    except Exception as e:
        print(f"\n发生错误: {str(e)}")
        return False

def main():
    print("欢迎使用 PDF 文字提取工具！")
    print("请输入完整的 PDF 文件路径（或输入 'q' 退出）")
    
    while True:
        # 获取用户输入
        pdf_path = input("\nPDF 文件路径: ").strip()
        
        # 检查是否退出
        if pdf_path.lower() == 'q':
            print("程序已退出")
            break
            
        # 执行转换
        success = pdf_to_txt(pdf_path)
        
        # 如果成功，问是否继续
        if success:
            while True:
                choice = input("\n是否继续处理其他文件？(y/n): ").lower().strip()
                if choice in ['y', 'n']:
                    break
                print("请输入 'y' 或 'n'")
            
            if choice == 'n':
                print("程序已退出")
                break
        else:
            print("请检查文件路径后重试")

if __name__ == "__main__":
    main()

总结

这个简单的工具展示了 Python 在文档处理中的实用性。通过 PyPDF2 ，我们能够快速提取 PDF 中的文字，并以用户友好的方式呈现结果。如果你需要处理大量 PDF 文件，可以考虑扩展脚本，例如支持批量处理目录中的文件，或者集成 OCR 功能以处理扫描件。