北京话说明

《北京话口语语料库》说明

一、《北京话口语语料库》文件概述

北京话口语语料库中，所有语料用文本格式录入，共有文件108个。根据文件中说话人说话的方式，108个文件分为3类：

o 对话文件：有两个或两个以上说话人，用问答的方式说话。这种说话方式也可以称为“对白”。

o 谈话文件：有两个以上说话人，用交叉、你一言我一语的方式说话。这种说话方式也可以称为“群白”。

o 讲话文件：有一个说话人，就一定话题长篇说话，或者几个说话人轮流就一定话题做长篇发言。这样的说话方式也可以称为“独白”。

北京话口语语料库中的文件，用文本文件形式保存，并用两种形式组织起来：

一种形式，是所有文本放在一个大文件中，文件名是BsCorpus。

一种形式，是每个文本单独存放为一个文件，文件名是“H001a”或“Ha001”这样的形式。文件名中，“H”是语料库的标记，“001”是文件的序号，“a”是文件的分类代号。分类代号为“a”，是对话文件，分类代号为“b”，是谈话文件，分类代号为“c”，是讲话文件。

二、《北京话口语语料库》文本的格式

1.文件

所有语料用文本格式录入。

文件名以“H”打头，后面是三位数字，从001到108，代表语料文件的序号，数字后面是a、b或c，代表文件内容的分类。

2.格式

• 每行开头是“H024a0012|B：”这样的行标记。其中，“H”是语料库标记，“024”是文件编号，表示这是第24号文件中的内容，后面是小写字母表示的分类代号，这里，“a”表示这个文件分类上是a类，即对话文件，后面是表示行号的4位数字，“0012”表示这行是第24号文件的第12行。“|”是分隔符号，后面是说话人代号。

• 说话人的代号由半角A、B、C等和全角符号“：”组成的，不同的说话人用不同代号，一个语料里，有几个不同的说话人，用几个不同的代号。说话人不明或多人同时说的话，说话人用“X”代表。

• 一个说话人的话一行放不下，放在多行上。说话人改变，另起一行。

• 一个说话人话说完了，一定有结束的标点（。！或？），一个说话人话没说完又不说了，用省略号（……）表示；一个说话人话没说完但被另外的说话人打断，用破折号（——）表示。

• 录音听不清楚的地方时用“……”表示。一个说话人说话中的“……”插在他的话中，不同说话人之间的“……”单独占一行。

• 一个说话人的话中大停顿、迟疑、反复、不连贯的地方，用顿号“、”表示。

3.字符

• 汉语的内容全部用全角字符，包括汉字和中文标点。

• 汉字

• 汉字使用GB字符集中的汉字，GB字符集里没有的汉字可使用GBK里的汉字；异体字中，尽量选择GB字符集里的正体。拟声词，选择GB字符集里的字表示，如果没有，用同音字表示。

• 北京话里的方言用字，根据徐世荣的《北京土语辞典》（北京出版社，1990年4月一版）、宋孝才的《北京话语词汇释》（北京语言出版社，1987年9月一版），同一个词的用字要统一，例如，“nar4har0” 写作“那儿哈儿”。

• 北京话特有的方言词语，有音无字的方言词语，塔布词语，用汉语拼音记录。具体方法见下面。

• 北京话与普通话用字相同的而念法不同的词语而《现代汉语词典》已经收录的，不注北京话方言读音；如果是一个北京话特有的方言词语，按上述方法处理。

• 汉语以外的内容，如外国人名、外语词语使用半角字母和标点。

• 汉语拼音，使用半角字符。汉语拼音的声调用1、2、3、4、0表示，分别代表第一、二、三、四、轻声，ü用v代替。儿化，汉字后用“儿”表示。汉语拼音中，儿化词用字母“r”表示，加在音节后面、声调符号（1、2、3、4、0）前面的。

三、《北京话口语语料库》的整合

为了便于北京话口语语料库的使用，我们编制了配合北京话口语语料库使用的检索软件。这个软件完全是Windows操作环境下运行的窗口风格的软件，有操作方便的菜单和工具条。这个软件为使用者提供了两种检索方法：自动检索和手工检索。

自动检索，是由程序按使用者设定的条件和“目标”在北京话口语语料库对相应的“对象”进行检索；手工检索，是在窗口中打开北京话口语语料库文件，由使用者在查看语料库文本时选择文本中的一定内容，并复制到另外的窗口中。

两种检索方法，各有各的用途。对检索的目标比较明确时，使用自动检索很方便，对检索目标不是很明确时，使用手工检索也许更有效。手工检索，既可以在北京话口语语料库全部语料中浏览、查找、检索，也可以在某一单篇预料中浏览、查找。

为了配合检索软件的使用，北京话口语语料库中的文本，用两种形式组织起来：一种形式是所有文本放在一个大文件中；一种形式，是每个文本单独存放为一个文件。存放有所有文本的文件，用于对语料库的自动检索和在全部语料文本的进行人工检索；存放单独文本的文件，用于对语料库单篇文本的人工检索。

使用北京话口语语料库时，使用者不必直接面对这些文件，而是通过检索软件与这些文件打交道。这样，可以避免使用者频繁打开、关闭语料库文件的麻烦，同时，也可以更好保护语料库的内容。这可以示意如下。