文本参数

  Previous topic Next topic Mail us feedback on this topic! Mail us feedback on this topic!  

 

text_and_language_settings

 

这些设置会影响Wordsmith如何处理你的文本。在窗口上方有语言类别(如,英语)的选择框以及下级选项(如,英国、澳大利亚等)。这些选择决定于你之前的参数设置。也就是说, That is, the expectation is that you only work with a few preferred languages, 这些参数这需要设置一次,以后不需要重复设置。 设置时点击 Edit Languages编辑语言 按键。

 

以下选择会因语言而异:

 

连字符和 数字

你可以说明连字符是否作为单词分隔符。如果连字符选择框被标记为 [X],单词self-access 就会按两个单词处理。

如果数字作为单词出现时,它们可以被列入词表吗?如果该选择框未选,那么在词表、关键字、索引等工具运行中,像$300、50.3M、及10th的数字就会被忽略。但是,如果在选择框中键入#,数字就会被列入。

 

characters within word单词中的字符

已选语言,WordSmith会自动包含操作系统默认的字母排序为有效地字母排序符号。因此,对于英语,A到Z及通常的重音符,比如 é都会被包含。对于阿拉伯语或日语,只要是微软操作系统可提供的字符都会被包含在字母内。

但有时用户可能需要在词中加入其他字符。比如:在英语中,所有格符号', father's 最好能被包含在有效字符集中。这样在处理类似词汇时就可将所有格当做一个词,而不是将其割裂。(如果用户选择法语,或许就不需要所有格符号'被包含在词中。)

举例:

'        (词中只能出现所有格符号')

'%        (所有格符号和百分比符号都可出现在词中)

'_        (所有格符号和下划线都可出现在词中)

用户最多可使其包含10个字符

如果用户想要包含像 fathers' 一类的词汇,选择 allow to end of word 复选框。 选中该项后,只要字符不是单独出现,此类符号都可出现在词尾。(如在 "  '  ")。

 

Plain Text/HTML/SGML

用户的文本可以是Plain Text纯文本 格式为:默认。如果文本被tagged标记HTML, SGML 或XML用户需选其中一项。这样,各工具会对文本中的句子、段落和标题标记的使用会最适宜。

 

Windows format etc.

对用户所选语言提供 Windows操作系统中 character sets字符集 的相关信息。

 

start & end of heading

对计算标题的工具来说,它们需要知道如何识别标题的开头和结尾。例:如果用户的文本tagged标记<h1> </h1>,在此处输入 <h#></h#> 。 (# 表示任意位数, 比如## 表示两位)无论输入什么都区分大小写: </H#></h#>是不同的。(如果用户的有的文本为 HTML 格式,这样格式就会不统一,有时输入 </h1> 有时为 </H1>,这种情况下可使用 Text Converter文本转换器 统一文本格式)。

 

start & end of section

如果对话框中含有像 <div#></div>的字符,Tools会识别各字段。同样,输入时区分大小写。

 

start & end of sentence

如果字符串中包含词 auto, Tools会将句子识别为defined已定义的 (以句号、问号或感叹号结尾,且后面有一个大写字母),但如果文本被 tagged标记为 比如 <s></s>, 将其在此输入。同样,区分大小写。

 

start & end of paragraph

Tools识别段落时,需要知道段落开始和结束的构成。例如: 两个<Enter>符号显示(作者在此处两次使用回车键)或者一个 <Enter> 后接一个 <Tab>。这时,用户就要键入 <Enter><Tab>。如果文本被 tagged标记<p> </p>,用户键入标记符,区分大小写。

在许多情况下,用户或许考虑只要定义段落结尾就足够了(考虑到以上提到的各种情况)。但是很多 HTML 文本并不是总能区分其段落的开始和结尾。

在BNC的口头语料中,使用 </u> 替代 </p>,用户可以不保留</p> 因为 WordSmith 可以使用 </u> 去代替它,如果文本中没有</p>

 

 

参见: Tagged Text, Stop Lists, Choosing a new language. Processing text in Chinese etc.

Page url: http://www.lexically.net/wordsmith/step_by_step_Chinese/?proc_text_characteristics.htm