首页 理论教育教育技术学中的文本采集技术

教育技术学中的文本采集技术

【摘要】:Word2003也可将文本另保存为这种格式。(二)文本文件的采集技术1.键盘输入的方式获取文本通过键盘输入的方式获取文本,通常要结合某个文本编辑处理软件,常用的如Microsoft Word和WPS。Word提供一套绘制图形和图片功能,可以十分方便地创建多种效果的文本和图形。Word提供了一套内容丰富的功能,以便使用全球广域网。

(一)常用的文本文件格式

本文界定,将文本文件格式分为两种,一种是“可修改”的文本格式,如TXT和DOC等,另一种是“不可修改”的文本各种,如PDF和图片形式的文本。

1.常用“可修改”的文本文件格式

常见的有DOC,HTM,TXT,RTF,WPS等格式。下面对其进行简单介绍:

●DOC:当在Microsoft Word2003中保存一个新文档时,默认情况下,Word会以扩展名为DOC的Word2003格式进行保存。

●TXT:是纯文本格式,只保存文本,不保存其格式设置。将所有的分节符、分页符、换行符转换为段落标记。使用ANSI字符集。用记事本编辑的文本在默认情况下,就是以TXT格式进行保存的。

●HTM:是Web页格式。如果将文件保存为Web页,则所有的支持文件(如项目符号、背景纹理和图形)在默认情况下都将保存在支持文件夹中。默认情况下,支持文件夹的名称是由Web页的名称加上下划线(_)、句点(.)或连字符(-)及单词“files”组成的。单词“files”将显示为与将文件保存为Web页时所使用的Microsoft Office2003语言版本相对应的语言。某些Web浏览器可能不支持能够在Word中使用的某些文件格式。在将Word文档保存为Web页时,Word可以取消不支持的格式设置,并应用Web浏览器支持的格式。

●Rtf:保存所有格式设置。将格式设置转换为其他程序(包括兼容的Microsoft程序)能阅读和解释的指令。Word2003也可将文本另保存为这种格式。

●WRI:用写字板文件编辑时,文件保存的格式。

●WPS:当用WPS进行编辑文本时,默认的文本格式就是WPS格式。

2,常见的“不可修改”的文本格式

常见的主要有PDF,CAJ,KDH,PDG,WDL,VIP以及图片形式的文本等格式。一般来说,每种格式的文本都对应的一种浏览器,以下简单介绍:

●PDF格式的文本用adobe Reader浏览。

●CAJ、KDH格式的文本用caj viewer浏览。

●PDG格式的文本用超星浏览器浏览。

●WDL格式的文本用华康浏览器浏览。

●VIP格式的文本用维普浏览器浏览。

(二)文本文件的采集技术

1.键盘输入的方式获取文本

通过键盘输入的方式获取文本,通常要结合某个文本编辑处理软件,常用的如Microsoft Word和WPS。

(1)Microsoft Word。最常用的文字编辑处理软件是Microsoft公司的Microsoft Office办公自动化应用软件的Word2003。Word2003是在Windows环境下运行的字处理软件,其图文并茂,具有强大的处理文字、表格、图片等功能。Word2003中文版是Microsoft公司为中国用户推出的汉化版本。Word2003是Microsoft Office2003的成员软件之一,具有较强的文字处理功能,其主要功能如下:

●编辑修改功能。Word充分利用Windows提供的图形界面,大量使用菜单、对话框、快捷方式和帮助系统,使操作变得简单,可方便地进行复制、移动、删除、恢复、撤销、查找、替换等基本编辑操作。

●格式设置功能。Word具有丰富的文字修饰效果功能,可以设置文字的多种格式,如:字体、大小、颜色等,还可以设置空心、阴文、阳文、加粗、加下划线等效果;可使用格式刷快速复制格式;可直接套用各种标题格式。

●自动化功能。具有语法、拼写自动检查功能,在输入的同时,会自动检查语法和拼写错误。具有自动输入功能,会自动创建编号列表、项目符号表,并自动套用缩进量。另外,Word提供了自动更正、自动套用格式、信函向导等一套丰富的自动功能,使用户可以轻轻松松地完成日常工作。

●表格处理功能。Word具有较强的表格处理功能,能任意地对表格的大小、位置进行调整,表格中可以包含图形或其他表格,可以创建、编辑复杂的表格等。可以使用公式对表格数据进行简单的计算、排序,并根据数据创建图表。

●图文混排功能。Word提供一套绘制图形和图片功能,可以十分方便地创建多种效果的文本和图形。绘图功能提供了100多种自选图形和4种填充效果。增强了图文混排功能,使图片的拖放、插入等操作更加简单。崭新的剪贴库提供了丰富的图片资料。

●边框和底纹。Word提供了100多种边框样式用于改变文档的外观(包括三维效果),集中了多种用于专业文档的流行样式,特别适合于制作专业化的文档。

●Web工具。Word提供了一套内容丰富的功能,以便使用全球广域网。可以将Word作为电子邮件编辑器,利用电子邮件在Internet上发送文档,利用网页模板可以方便地制作出精美的网页,使用“WebFolders”功能可以管理用户存放在网络服务器上的文件。

(2)Word2003的界面。Word2003的界面如图7-1所示。

(3)WPS。除了Word2003以外,金山公司推出的WPS系列字处理系统也是优秀的字处理软件。WPSOffice是一款国产的优秀的办公软件,集成了电子文档、电子表格、多媒体演示/制作、电子邮件、网页浏览、图片浏览各功能模块,功能非常强大,符合现代企业办公实际需要。

图7-1 Word 2003的界面

WPSOffice2007是一套办公软件组合,包括金山文字处理2007、金山电子表格2007、金山电子邮件2007、金山电子演示2007四款软件。

WPS的全称是Word Processing System,它是金山公司开发的一个集编辑与打印为一体的汉字处理系统,主要功能就是用来做全屏幕文字编辑处理和具有多种格式的打印输出控制。现在的WPS已经是WPSOffice办公组合中的一个重要组成部分。由于它的用户界面友好,操作简便,易学易用,所以在我国广泛应用。

WPS最值得我们称道的是它众多的模板功能,最新的WPSOffice2007在WPSOffice已有文字处理功能的基础上,提供了12类、近百种模板,更加方便用户使用,具有一定的普遍性和实用性。彻底解决了表格跨页和在同一表格内设置不同字属性问题;同时新增批注功能、定制特殊打印功能等。另外,WPS还针对特殊用户做了特殊设计,如金山公司作为北京市政府办公软件的供应商,在WPSOffice2007中还预置了国家机关最新公文模板、合同范本,不但加快了文档起草速度,而且统一了行文规范。WPSOffice2007的特点如下:(www.chuimin.cn)

●兼容文件格式多。WPSOffice2007遵循XML标准,采用“数据中间层”技术,格式兼容实现突破性进展。不仅可以读入,甚至可以直接生成Word,Excel,PowerPoint文件。方便用户数据交换,信息沟通更加顺畅。

●整合办公自动化。WPSOffice2007采用COM技术,提供标准的开发接口,支持基于LotusNotes,MSExchange以及Web化的办公应用,从而实现与办公自动化系统的无缝连接,满足用户个性化定制和应用开发的双重需要。

●语言支持全球性。WPSOffice2007采用Unicode内核,支持国际化多语言文字编辑,适应全世界80种以上的语言,实现跨国、跨地区的文档交流。

●图文混排很专业。WPSOffice2007超越一般办公软件文字排版内核的设计思路,采用先进的图文混排引擎,保证能够排出复杂的版面,在同类软件中处于领先地位。

●集成办公更高效。WPSOffice2007提供技术全面优化的四大模块,运行效率显著提高。基于XP的使用风格,界面友好,简易上手。

(4)WPSOffice2007的界面。WPSOffice2007的界面如图7-2所示。除了以上提到的两种字处理软件,还可以使用Windows平台上的文字处理软件,如写字板、记事本处理文字。不过它们只能进行文字输入和简单的文字编辑。

2.通过手写板输入文本

随着手写板的降价,使得手写板的应用也逐渐普及,这无疑对那些不会用键盘输入文字的人们带来了极大的方便。另外,手写板还能用来进行绘画、电子签名、模拟鼠标对计算机控制等工作,已有不少人将手写板作为自己的输入和控制设备。

图7-2 WPSOffice 2007的界面

手写板的使用必须安装相应的驱动程序,驱动程序一般都会在购买的手写板中配有。驱动程序的安装也很方便.安装时只需按照安装提示即可完成。打开程序,切换到书写模式,用书写笔可在该书写窗中书写文字供识别。书写模式如图7-3所示:

尽管各种手写板存在一定差异,但其连接和使用基本相同。使用手写板输入文字给完成文本输入工作带来了极大的方便。

3.通过OCR插件或软件获取

(1)OCR插件获取文本素材。当浏览“不可修改”的文本格式(PDF、CAJ、KDH等)时,要想获取其中的文本,必须安装OCR插件,有的浏览器考虑到用户的使用方便,将OCR插件捆绑在浏览器的安装软件内。例如,CAJ和KDH格式浏览器CAJViewer6.0,该软件捆绑了OCR插件,安装该浏览器后,即可进行文字识别,如图7-4CAJViewer6.0文字识别所示。

OCR(Optical Character Recognition光学字符识别)软件,通常又称为汉字识别软件,它是使用扫描仪处理文稿的最重要和使用最多的工具。通过OCR汉字识别软件,可以将纸张和图片上的文字信息转变为计算机可以识别的文本文字信息,是一种省时省力、方便快捷的文字输入方法。随着扫描仪应用的普及,使用OCR文字识别软件来完成文字的输入工作,将越来越广泛。

图7-3 书写模式

图7-4 CAJViewer 6.0文字识别

(2)OCR软件获取文本素材。用于汉字识别的OCR软件,目前主要有:清华紫光V7.5、尚书6.0、丹青V4.0和汉王5.0等。上述各种OCR识别软件的汉字识别率相差不多,基本上都能达到所标称的98%以上。而且它们使用的方法和步骤也大同小异,只要掌握了一种OCR识别软件的使用方法,其他OCR识别软件的使用也可轻易上手。

4.通过语音软件获取文本

(1)Word200“3语音”录入。一般情况下,在Word 2003选择“工具”→“语音”,会弹出练习15分钟的对话框,如不想练习,点取消;若想练习,点击下一步,按照向导一步一步的操作,完成后要求练习朗读,以便语音输入的内容更加的准确。完成后,就可以用语音输入了。

如果选择“语音”后,没有任何反应请查一下,一个是你的Word是不是使用的完全安装模式,语音这方面的功能安装了没有;另一个是你的输入法里“,语音识别”是不是没有添加或误删除了。另外,还要安装语音库,例如安装了IBM的ViaVoice实现语音输入,一般情况,只要完全安装了Office2003,然后你有麦克风,音量控制里麦克风属性是打开的,就不会有问题的。

(2)语音录入软件“语音输入王2008”。要正常运行本软件,需要下载安装SDK和SDK语言包,否则在打开软件时会出现“语音识别引擎未安装”的提示。并且软件不可用。

打开“我的电脑”→“控制面板”→“语音”图标项。在打开的“语音属性”→“语言(L)”下面的选择框中选择为“:Microsoft Simplified Chinese Recognizer V5.1”。点窗口下边的“确定”按钮关闭窗口。

至此,已经基本完成了软件使用前的配置。请重新打开运行软件进行语音输入吧。如下图7-5所示:

5.网页中获取文本素材

一般情况下,网页中的文本都可以“复制”操作的,这种状况下,获取文本是很简单的;但也例外,网页不允许进行复制操作的,网页中加了代码控制,那么这样的网页如何获取文本呢?

图7-5 语音录入操作

(1)重新保存的方式。选中网页窗口中的“文件”→“另存为”,在“保存类型”栏中选择“文本文件(*.TXT)”格式,单击“保存”即可,所需要的文字就可以在TXT文件中找到。

(2)禁用活动脚本的方式。选中“工具”→“Internet选项”→“安全”→“自定义级别”,在安全设置的栏中选择将“活动脚本”项设为禁用,重新打开网页,这时网页中的文本即可进行复制操作了。操作如图7-6所示。

图7-6 禁用“活动脚本”操作