汉语词汇的分层统计模式
【摘要】:汉语词频统计是一件耗资费力、旷以时日的工程,其困难主要来自统计单位——词难以确定。由于汉语分词方面本身的困难,加之统计者的目的和出发点各不相同,分词标准在现阶段很难求得一致,这就使得汉语词频统计成果在应用上带有较大的局限性。 为了使词频统计成果尽量能适应不同研究领域人员的需要,本文建议采用分层统计的办法,即首先对语料抽样作宽式的切分和统计,得出中间结果,再由不同专业的用户在此基础上进行再统计,得出直接应用于专项研究的数据和成果。文章论述了分层统计模式的作法、依据和优点,提出了制定宽式切分标准的一般原则。
【相似文献】 | ||
|
|||||||||||||||||||||
|
|
|||||||||||||||||||||
|
|
|||||||||||||||||||||
|
|
|||||||||||||||||||||
|
|
|||||||||||||||||||||
|