java提取图片文字
目录
java提取图片文字
pom.xml文件添加依赖
<dependency>
<groupId>net.sourceforge.tess4j</groupId>
<artifactId>tess4j</artifactId>
<version>3.2.1</version>
</dependency>
准备文件和图片
java测试代码
public static void main(String[] args) {
System.out.println("---------------------start--------------------------");
Tesseract tesseract = new Tesseract();
tesseract.setDatapath("D://DataScience//tessdata"); //下载的语言文件地址
tesseract.setLanguage("jpn"); //使用的语言(默认是英语:eng)
try {
System.out.println(tesseract.doOCR(new File("D://DataScience//tessdata//test.jpg")));
} catch (TesseractException e) {
e.printStackTrace();
}
System.out.println("----------------------end---------------------------");
}
注:
(1)语言与图片中的文字不匹配的话输出内容会出现乱码
(2)