-- OCR --
OCR全称是光学字符识别技术(Optical Character Recognition,简称OCR),也就是文本代码化。中献拓方公司的OCR识别字符差错率可控制在万分之一以内。部分工序如下:
识别(画框):该工序操作员在生产系统中下载工作包。画框时要求将横排文本、竖排文本、表格、插图分开画框,框线不得压字、压图。画框完成后对整个工作包进行检查,是否有画框错误及漏画等现象。
多核心识别:
该工序由机器自动处理,系统使用三个不同的识别核心对同一页进行识别,识别后对三个结果进行比较,三个识别核心都识别成同一个字,并且都是可信字时才将该字列为可信字,这样大大保证了可信字的准确率。多核心识别后利用语义分析技术分析文档,找出一些不合逻辑或语法的错误。最后将所有有问题的可疑字进行局部截取,截取后利用校对软件校对时,操作员看不到整页图书,只能看到页面的局部,有效的保证数据安全。
改字与改字检查:
由于在多核心处理时已经将图像需要校对的部门进行了局部截取,操作员仅凭借图像片断是无法判断出图像内容。改字界面设计非常人性化,绿色等颜色的使用能够减轻长时间操作对眼睛的刺激。针对一些易混的相似字,有专门的表格提示,标点符号及特殊符号有明确规定,保证数据内容统一。改字检查是为了确保改字的差错率在万分之0.8以下而设置的,标准可参照改字。
XML编码:
参考复合出版工程制定的图书数据标准,制定出切合客户实际应用的数据标准。Dtd制定完成后在标识程序加入相应标签,例如段标签、标题标签、上标标签、下标标签等,使操作员能够进行标识工作。编写相应的xsl文件,使XML文件能够正常显示,操作员可以根据显示结果检查标识正确与否。
www.cnbod.com
联系我们 | 网站地图 | 版权声明 | 信息量统计 | 网站支持单位 | 关于我们
网站维护:北京中献拓方科技发展有限公司
版权所有:北京中献拓方科技发展有限公司 未经许可不得复制
ICP备案编号:京ICP备05069088号