经过前面的一番工作,现在你的系统里应该装上了EmEditor,同时手头也有了一份转换好的“Tab格式”的文本了。好,让我们开始下一步的转换工作。
三、格式整理
1.用Emeditor打开Tab文本(我这里所用的文件是2006研究生入学考试大纲的词库):
2.打开“搜索->替换”菜单:
3.在查找的文本框里输入:^([a-z])
在替换的文本框里输入:Q: 1
勾选“使用正则表达式”选项,点击全部替换按钮。
这一步的作用是将每行的行首前加上“Q:”,表示这一行将成为“提问栏”的内容。
注意:“Q:”和1之间加个空格
要点讲解:
·
“[a-z]”是用来表示所有的英文字母(在“区分大小写”选项未选取的情况下,否则则是表示全部的小写英文字母);
·
前后分别加上“(”和“)”则是用来在替换的时候,被圆括号括中的部分可以用“1”原封不动地保留下来。
·
用了“^”符号就是告诉程序你要找的是行首,而非其他地方。
·
替换一项中,“1”就是把上面的“([a-z])”给放回原处,“Q:
”则是我们要在行首加入的内容。
4.在查找的文本框里输入:t[
在替换的文本框里输入:
[<font face="Kingsoft
Phonetic">
注意在“[”前加一到两个空格,这是控制单词和音标之间的间距
点击全部替换按钮。
要点讲解:
·
“t”代表的是Tab制表符,注意它与空格是不一样的,这也正是我们当初选择保存成“tab文本”格式的原因之一;
·
“[”代表符号“[”。在正则表达式中,有十来个这样的符号是需要前面加“”才能匹配本身的字符的。“t[”组合在一起,从这个文件看来它每一行只有唯一的一处,这是使用正则表达式来进行批量替换的一个重要思路:你得想办法从源文件中找出规律来。没有规律就无法进行批量处理。而你对正则表达式掌握的愈熟练,你所能发现的规律也就愈多。
·
替换部分就相对简单了:“
[<font face="Kingsoft
Phonetic">”,这里的“[”不再需要加“”,“<font
face="Kingsoft
Phonetic">”和后面的“</Font>”正好是一对,表示把它们中间的字符用Kingsoft
Phonetic这种字体来显示。
如果你在转换的时候,选择的音标是金山词霸格式的,那音标的显示应该是这样的(以abandon这个词为例):[E5bAndEn],此时你的系统里应装上Kingsoft
Phonetic这种字体。如果选的其他格式,则要用到另外的字体,比如PGY Symbol。本文我们仅以金山词霸的音标格式为例。
5.在查找的文本框里输入:]t
在替换的文本框里输入:</font>]nA:
(注意“A:”后要也加个空格,否则回答栏的第一个字母将会消失)
点击全部替换按钮。
友情提醒:要想正确显示音标,系统里得安装Kingsoft
Phonetic字体(网上搜索一下,这里舍得就不提供了,汉化版推出的时候,舍得会把几种常用的字体一并加入)。
要点讲解:
·
]t和前面的内容几乎一样,不再赘述。
·
讲讲替换部分“</font>]nA:”,“</font>”和前面的“<font
face=”Kingsoft
Phonetic”>”正好是一对,“n”表示在这之后加上一个回车符,而“A:
”则是告诉SuperMemo这一行是回答栏用的。
替换好后目前是这个样子:
四、编码转换
1.然后打开Emeditor的“工具->所有设置的属性”菜单,转到“文件”选项卡:
·
点击“正在保存”按钮,在弹出的“保存详细信息”对话框中勾选第二项:“保存Unicode为Html/Xml引用”,然后点击确定,关掉“所有设置属性”对话框,返回到Emeditor。(注:如果第一项也勾选的话,就会在下一步中出现是否“继续按当前编码保存”的对话框
2.打开“文件->另存为”菜单,弹出如下对话框后选定保存位置,输入文件名。然后在编码后的下拉列表框中选择“中欧ISO(28592,ISO-8859-2)”,点击“保存”按钮:
·
弹出对话框,保持默认的“继续按当前编码保存”不变,点击“确定”按钮继续。(注:如果在第6步“保存详细信息”对话框中未勾选第一项的话,那么这一步不会出现)
·
最后转好的效果如下:(如“常”就是“常”字的unicode编码,大家把它粘到google的搜索框中,点击搜索后google会自动将它转换成中文。)
这样我们的词库就制作完毕了,大家可以重新打开这个文件就可以发现,所有的中文已经被转为Unicode码(是那种“&#+五位数字+分号”的形式)。只有这种Unicode码的中文才能被PC版的SuperMemo识别。所以第
6、7步是关键。如果不进行转换,直接存为Utf-8或UTF-16LE之类的编码的话,可以有少量词条被导入SuperMemo,但大部分词条是无法导入的,大家可以尝试一下。
怎么样,够简单吧?马上动手去操作吧!舍得说得再好,图文再详尽,你不去实际操作几回,这东西还不能算是你的。等你操作熟练了,这项技能才能给你的工作带来更多的便利。
请大家期待“词库制作篇”的下篇,最迟后天凌晨前推出。那时舍得会讲另一个实例,更深入地讲解正则表达式在词库整理中的应用。此外,舍得在下篇还会跟大家分享一下EmEditor中宏的应用,录好宏后,这里用到的替换只要按一个按键就可以全部完成。别把它们想得太复杂,跟写程序比起来,这连毛毛雨都算不上。跟着舍得的Step
by Step系列的文章,加上你自己的实际演练,就算你是个电脑菜鸟,也能够学会这种“高级”的技术。
|
|
|