自定义标签设置Custom Tagsets
在主要设置Settings | 标签Tags窗口,你将会看到如下显示,但是你不会找到 "Shakespeare"这样一个选项。
关键点The point of it...
这个选择的关键在于根据你想处理的语料库的类型,来改变整个系列的设置。
当你改变以上的设置,任何如下所解释的有效数据将会加载到你的默认状态。
如何操作How to do it
1.建立一个名为"custom_tag_settings.txt"的纯文本文件,并将它存到你的名为Documents\wsmith5文件夹中。格式如下:
• | 每项开始于<n>并且结束于</n>,到此位置n的数目达到20。 |
• | 一项必须包含一个标签并且可以包括如下所列的其他特殊标记: |
<label> </label>
<default> </default> (这个只能用于一项并且决定所选择的标签)
<entity_file> </entity_file>
<tag_file> </tag_file>
<tags_exclude_file> </tags_exclude_file>
<ignore_string> </ignore_string>
<header_string> </header_string>
<sentence_begin> </sentence_begin>
<sentence_end> </sentence_end>
<paragraph_begin> </paragraph_begin>
<paragraph_end> </paragraph_end>
<heading_begin> </heading_begin>
<heading_end> </heading_end>
<section_begin> </section_begin>
<section_end> </section_end>
• | 以上所有的标记将会删除前导和尾随空格。 |
• | 使用自动auto代替自动处理例如到句末of sentence ends。 |
实例Example
我想选莎士比亚的作品来决定选择哪个标签并且在我的莎士比亚语料库中句子、段落等等是怎样被确认的。
一下就是我如何制作 "Shakespeare":
<1>
<label> Shakespeare </label>
<entity_file> sgmltrns.tag</entity_file>
<tag_file> Shakespeare.tag</tag_file>
<tags_exclude_file> Shakespeare exclusion tags.tag</tags_exclude_file>
<ignore_string> <*> </ignore_string>
<header_string> </Header></header_string>
<sentence_begin> </sentence_begin>
<sentence_end>auto</sentence_end>
<paragraph_begin> </paragraph_begin>
<paragraph_end> </paragraph_end>
<heading_begin> </heading_begin>
<heading_end> </heading_end>
<section_begin> </section_begin>
<section_end> </section_end>
</1>
这有<2>...</2>, <3> ... </3> 等等,但是在此就不给出了。
试图确认莎士比亚戏剧中零散的句子并没有意义,但是我的确想要一个句子的概念,那就完全通过停顿来确认等等。
亦见:文本选择器标签Tags as text selectors
Page url: http://www.lexically.net/wordsmith/step_by_step_Chinese/?custom_settings.htm