舍得这里所讲的语料库,通俗点讲就是句库,把平时看到的中英对照句子收集在一起,便于查询。

对于这类语料库来说,关键是要有一个查询速度够快的搜索引擎,其次是操作足够方便,用雪人CAT来做语料库的平台,正好符合这两点要求。

 

一、语料库的用途


语料库主要用途是:

1.查询英文句子,作为范例参考,或用于英文翻译;

2.通过中文查询英文的表达方法;

 

二、为何选择雪人CAT作为语料库平台


雪人CAT是一个翻译软件,从严格意义上讲,这算不得什么语料库的正统工具。但用雪人CAT有以下几点好处:

1.对语料素材格式要求较低,只要将英汉句子用特定分隔符分开就行(比如说TAB空格),雪人CAT中还带有一个非常不错的双语对齐工具,可用于素材整理;

2.导入语料操作非常方便;

3.查询速度非常快,一个拥有38万条语料的库,查询时通常不超过3秒;

4.查询非常方便,可用空格将关键词隔开,就像使用搜索引擎一样;

 

三、语料的收集


这里所谓的语料,就是中英对照的句子,只要有网络,我们可以很容易收集到这类素材,比较常用的途径有:

1.现成的辞典数据库,当然前提是你能用数据库工具打开;

2.其他人整理好的文本;

3.提供双语例句的在线辞典(比如有道)或其它类似网站(比如句酷);

4.中英对照的文章,不过这类文章需要经过处理后方可导入;

语料素材的格式很简单,推荐使用TXT(文本)文件,每一行存放一句英文和一句对应的中文,两个句子之间用TAB空格隔开。这样的文件就可以在雪人CAT中导入。

 

四、语料库导入方法


语料库只是我们通俗的叫法,由于雪人CAT是个翻译软件,在其内部对应的叫法是 “记忆库”。

具体的记忆库导入方法如下:

1.打开雪人CAT;

2.打开菜单“文件->新建->英译中项目”;

capture_25082012_180050

3.打开菜单“项目管理 ->导入记忆库”;

capture_25082012_180041

4.在“导入记忆库”窗口中找到事先准备好的语料素材(TXT文件),并打开;

5.等待程序处理,处理速度跟素材的多寡成正比;

导入结束后最好再做一次导出记忆库,以便保存起来以后再用。

 

五、语料库查询方法


1.打开菜单“工具 ->记忆库搜索”;

capture_25082012_181015

2.你会看到一个很阳春的窗口,在原文中输入要查询的内容,比如“play chess”:

capture_25082012_181426

结果立刻就呈现出来了。

我们也可以在”译文“中输入文字,注意要先清空”原文 “中的文字。

关键词可以用空格隔开,比如”讨论 政治 问题“:

capture_25082012_184114

这样的搜索用法和我们平时用谷歌、百度来搜索的习惯很接近。

我们往记忆库中导入的中英例句越多,这个记忆库发挥的作用就会越大。

 

到舍得学苑下载雪人CAT V1.29中英绿色版

 

本文版权归舍得学苑所有,欢迎转载,转载请注明作者和出处。谢谢!
作者:
舍得
首发:
舍得@学习力博客