PDF中的有些文字是无法复制的, 面对整篇的文字,让我们一个字一个字的输入需要耗费大量的时间与经历,如果需要几百页的文字,那就更不可能了.小弟在Linux中找到了几款转换工具,亲测效果相当不错,下面一一介绍.
安装软件
sudo apt-get install gocr
sudo apt-get install tesseract-ocr
打开Screenshot截屏软件截取你要转换的文字
打开libreOffice Writer,将刚才截屏的图片托进去.
点击保存为PDF格式文件,文件名为text
找到保存好的text.pdf文件,右键打开终端.
在终端中输入pdftoppm text.pdf a,得到a-1.ppm文件
然后输入命令:tesseract a-1.ppm a,得到a.txt文件.