关于北京话口语语料库

《北京话口语语料库》的来源

北京话语料库的原始语料,来源于胡明扬教授1987-1989年承担的北京市哲学社会科学规划办公室资助的科研项目北京话调查,参加该项目的主要有贺阳、劲松。 后来受美国俄亥俄大学的沈德思先生(Robert Sanders)的资助,又录了少量磁带,时间大约持续到1990年。原始语料中还有孙德金1986-1987年《北京火器营旗人的北京话》的部分材料。

1998年我们向汉办申请并承担了《北京话口语语料库》的科研项目(项目编号:999361325)。该项目的主要内容有:

o 以胡明扬教授提供的北京话调查的原始材料(录音带、文字材料)为基础,建设北京话口语语料库;

o 从原始材料中选择100万字的语料;

o 对选择出来的语料进行整理;

o 对整理出来的语料进行必要的处理,成为北京话口语语料库的语料库(文字);

o 编制必要的对语料库进行检索的软件。

该项目由中国人民大学对外语言文化学院《北京话口语语料库》项目组承担,项目组由项目申请人张卫国教授负责,顾问是胡明扬教授。参加《北京话口语语料库》项目组的人员有焦立为、刘士娟、王改改、饶勤、李林立、张风格、段红梅等。

《北京话口语语料库》的加工

由于原始材料是由多人分别从录音转写成文字的,这些人的专业水平、语感和投入程度不同,所以作为语料库语料基础的原始材料问题很多。这表现在以下几个方面:

o 因录音没有听清楚、没有听准确而转写错误。例如,把“满地转”转写为“买鸡蛋”。

o 断句、标点不统一、不准确,甚至错误。例如,有的原始材料中,凡是“呢”,后面一律用“?”。

o 用字不统一、不规范,甚至错误。有的原始材料竟然全是用繁体字、半繁不简的字转写的。

o 用词不统一、不规范,甚至有错误。特别是北京话特有的方言词语,问题更多。

o 内容脱漏不少,尤其是体现北京话口语特点的成分,脱漏严重。例如,儿化音的“儿”。

由于以上问题,语料的整理、校改成为语料库项目研究工作中的重点,投入了比计划多得多的人力和时间。在语料库的建立过程中,我们前后进行了以下多次校改工作:

o 由北京出生、长大的老师听录音,校改原始文字材料;

o 从校改过的文字材料中选取合格的语料录入;

o 按校改后的文字材料录入后,对录入的材料初校一遍;

o 由专人对录入的材料再校一遍;

o 由专业水平高、语感好的专人把录入的材料统校一遍,并做统一用字、用词、标点的工作;

o 把经校改的语料打印出来,由专业水平较高、语感强、听音准确的北京人根据录音听校一遍。重点是查对体现北京话特点的成分有没有脱漏,其次,查看有没有其他脱漏情况;

o 根据上述听校的纪录,把录入的语料校改一遍,并统一全部语料的格式。

o 编制程序查找可能的错误,并改正找到的错误。

o 改正调试过程中发现的个别错误。

根据项目计划,我们从原始材料中选择100万字作为语料库中的语料。原始材料除了上述的问题外,由于录音带(经过转录的)、文字材料存放时间较长,有的录音已经听不清楚,有的有录音带而没有文字材料,有的有文字材料而没有录音带,有的录音与文字对不上,所以,语料的选取,成为另外一个难点,花费了不少时间。

我们确定的语料选取标准是:

o 录音和文字材料齐全;

o 录音质量良好或可以听清楚;

o 语料是真正的口语材料,根据脚本的说话或念稿子的说话不用;

o 说话人是北京人,即至少本人是北京出生、长大的。

最终,我们选取了现在作为语料库的100万字左右的语料。

对语料的处理,主要是加上一些必要的标记,对构成语料的文本进行编排、统一全部文本的格式,对一些比较敏感的人名、地名进行匿名化处理,等等。

按原计划,构成语料的文本要分词。由于在语料的校改、整理上耗费的时间、经费过多,词语切分还要耗费更多的时间和经费,而项目的时间和经费已经承担不起,再说现在还没有作为国家标准的词语切分用词表,所以这个版本的北京话语料库中的文本是没有分词的文本。

为了使用的方便,我们制作了语料检索软件,作为北京话口语语料库的一个组成部分。

《北京话口语语料库》的价值

北京话口语语料库鉴定书中,专家鉴定结论认为,“北京话口语语料库是我国迄今规模最大的现代汉语口语语料库,所提供的原始语料文本和检索软件可以为对外汉语教材编写、口语教学提供有价值的参考资料和实用工具,也为现代汉语的研究和应用建立了新的条件,具有较大的学术价值和使用价值。”

北京话口语语料库的近100万字的真实口语材料的价值,至少体现在汉语(特别是北京话)语音、词汇、语法研究、汉语教学、文化研究等几个方面。

北京话口语语料库是实际言语中的用例,为语法、语用的研究提供了丰富的材料。例如,据统计北京话口语语料库中“被”字句仅有58例。与此相对,老北京人在日常的非正式谈话中,要表示被动时,常常用“叫”、“让”而不是“被”。

北京话口语语料库中有不少与北京的风俗、习惯、沿革有关的内容,这在文化教学、研究上是不可多得的参考材料。

北京话口语语料库中的大量对话充分显示了口语的特点,为汉语口语教学和研究提供了丰富的素材。例如,对话中大量的句子是省略句或追补式的倒装句,与汉语口语教材中四平八稳的句子形成强烈的反差。再如,口语中北京人往往把“告诉”说成“告”。语料中,说“告诉”268次,说“告”510次。这个“告”一般韵尾拖得稍长,有时还伴有翘舌,有的不明显,有的很明显,听起来似乎是“告儿”。