文/王新禧
大家平常扫描识别一些文字资料的时候,通常会用到OCR文字识别软件,不过有时候手头没有这类软件或者懒得安装,这就需要笔者推荐的在线OCR网站来帮忙了。在线OCR识别网站(www.netocr.net)应用了清华大学研制的国际领先OCR识别技术,支持TIF、BMP、JPG等多种常见图像格式,能识别出纯英文、简繁体中文、日文、韩文以及手写体和中英文混排的文本图像。通过它,可以从此告别OCR软件,随时随地轻松搞定文字识别。
一、注册会员
要使用该网站提供的服务,我们需要先注册。点击首页上十分显眼的“注册”按钮,进入注册页面,填入各项相关内容即可。此处要注意的是,在“邮箱”一栏中,请务必填入正确的电子信箱地址,以便网站将识别结果发送到你的信箱。注册完成后,输入用户名、密码,登录至用户文件管理页面(图1),在这里进行图像的在线OCR操作。
图1
二、上传图像
在本地硬盘上准备好需要OCR的图片文件,单击管理页面中的“识别”按钮,进入如(图2)所示的“上传识别”页面,在此点击“浏览”按钮,选择硬盘中欲识别的图像文件,而后依次选择好需要识别的文件语言、输出文字的格式、识别要求等基本选项。如果勾选“显示其他选项”,还可进行识别方式、设置内码类型、导出格式、发送识别文件至用户信箱等更多方面的设置,可按各人实际需求选取。最后单击“上传识别”按钮,即开始OCR识别工作。
图2
提示:为了取得较为理想的识别效果,用户上传的图像最好为TIF格式,分辨率越高识别效果越好,不过图像文件变大会导致上传速度变慢。注册用户可以免费在线识别999幅图像,但一天之内不超过99幅图像,且提交的识别图像总空间也不能超过50MB。
三、输出结果
从图像中识别出文本字符,由于图片大小、网络速度等客观因素的存在,因此识别需要一段时间,当识别工作完成后,识别出来的文字会显示在“识别结果”文本框中(图3)。
图3
此时文本框中的文字已经变成了纯文本文字,你可以将文本复制、粘贴到Word或wps等文字处理软件中进行编辑。如果你先前选中了“显示其他选项”,此时还可选择将文字以RTF、HTML、PDF三种文件格式导出,或者将识别结果发送至自己的邮箱。
提示;现在不少网站都加强了网页的保护,不允许保存网页或者在文字中夹杂了无关内容,通过在线OCR,我们可以将这些网页抓图再识别,这样再高明的网页保护也不攻自破了。