版面分析
版面分析是将扫描得到的图像,划分出每一个区域块。对于各个不同的区域块不仅给出其自身的属性(如横排的文字、竖排的文字、图形图像以及表格等等和区域字体类型(简体、繁体、纯英文等类型),而且标明不同区域块之间的顺序,以便系统进行识别处理。
版面分析有两种模式,一种是自动版面分析,一种为手动版面分析。
1 自动版面分析
在文通鉴-th-ocr 系统中利用自动版面分析功能,在命令菜单中,选择版面分析命令,将图像自动分为若干个属性不同的区域(图形图像、竖排文本、横排文本、表格等)。对于特别复杂的图像版面,自动分析后,须人工手动来辅助调整。
2 手动版面分析
【手动版面分析】是用鼠标划分出每一个想要处理的区域,同时确定其区域属性。
包括区域的类型,区域文字等属性。区域顺序,也就是您在画区域框线时的顺序。
对图像进行版面分析时,请注意排列各区域之间的顺序。文通鉴-th-ocr 对图像文件的识别顺序是根据版面分析时的区域顺序而进行的。区域顺序会影响识别后得到的结果文本的排序。
请参阅文通鉴-th-ocr 帮助文件以获取有关自动版面分析和手动版面分析的详细信息。