使用tesseract-ocr做文字识别
Tesseract-OCR是一个开源的文字识别引擎。它默认支持一些主要的西方语言,包括荷兰语等,并有Linux和Windows二进制版本。直接作为命令行工具使用十分方便:”tesseract(.exe) *.tiff|bmp *.txt -l en|nld” , 也就是制定一个tiff或bmp(在Windows上)图像文件作为输入,然后给出一个文字识别后的txt文件,“-l”参数指定语言(例如,nld就是荷兰语的缩写)。默认的字典在./tessdata/中并按语言分子目录。
有些网友说提供的图像文件要足够大才有较好的识别率。
此外tesseract-OCR还支持训练功能,以提高(对不同字体的)识别效率或者对新语种的支持。大致就是通过给定的包含已知字符的tiff文件生成相应的box文件,经过手工更正后,训练tesseract-OCR的识别能力。也可以用一些训练工具完成这个过程。
有了这个工具就可以把网页或者pdf的内容转换为图片,进行OCR,可以编写脚本对多图进行批处理。
