利用MSOFFICE自带功能OCR整本PDF或DJVU图书利用MSOFFICE自带功能OCR整本PDF或DJVU图书在一次偶然的搜索,发现了这个功能:首先确定MS的虚拟打印机你已经安装(打印机里可以看到这个Microsoft Office Document Image Writer),如没安装请完全安装office(阉割版的office没有这个功能)。将你要识别的文件打印,打印机选Microsoft Office Document Image Writer,确认后将该文件输出为MDI格式的虚拟打印文件。 运行Microsoft Office Document Imaging,并利用它来打开刚才保存的MDI文件,选择“工具→将文本发送到Word”菜单,在弹出的窗口中选中“在输出时保持图片版式不变”,确认后系统会提示“必须在执行此操作前重新运行OCR。这可能需要一些时间”,不管它,确认即可。 这样的识别率相当高。如须识别繁体的,必须安装多一个繁体版的office,然后在识别之前设置一下语言。
帮忙置顶吧,虚拟打印机500K不到,附件只能50,不传了。
-----------搞不懂。请明言。
-----------看糊涂了。请说清楚一点。
...