学科分类
/ 2
36 个结果
  • 简介:1.言语统计是中文信息处理的一个重要组成部分:进行言语统计,目的在于根据量的描述给出质的评价,即依靠定量分析得出定性分析。统计结果一般是做出各种频度表,供各个不同专业的人员使用。近年来,利用电子计算机进行言语统计工作,既快又准,统计不受限制,而且能提供多种参数,因而促进了统计语言学的大发展。

  • 标签: 统计语言学 中文信息处理 出质 词频统计 出现次数 静态数据
  • 简介:<正>《汉语拼音词汇》(文字改革出版社,1963年第一版,以下简称《词汇》)为语文教学、汉语拼音化研究以及其他许多方面提供了十分有用的资料。有人用以研究、统计现代汉语书面语的同音词及拼音化工字(词)法问题。比较为人们注意的材料有二,一为周有光《汉字改革概论》第三版309页注(以下简称“周注”),一为望月八十吉《日语、汉语的同音词》的统计。两种统计所用方法不同,所得结果也不一样。

  • 标签: 同音词 汉语拼音化 双音词 词汇 统计 单音词
  • 简介:对目前音韵学中所用的统计方法进行了全面的比较,分析了统计法在音韵研究中的必要性和可行性,强调了统计法的科学性,并从统计学原理、方法的引入、运用中的注意事项和统计法在音韵学运用中的优势和不足等方面对三种统计方法进行了详细的阐述。

  • 标签: 方法论 概率论 音韵学 统计
  • 简介:中文姓名的辨识是自动分词、自动文摘的基础.独立于自动分词,我们运用姓名用字概率和规则,设计并实现了一个中文姓名辨识系统.对207757字语料进行了测试,召回率达到92.57%,精确率达到80.35%,且速度较快.

  • 标签: 概率分布 规则筛选 兼类姓 专有人名 特殊候选姓名对
  • 简介:语料库大规模真实语料的汉语句型自动分析与频度统计,是查清现代汉语句型现状的主要途径,也是继汉字字频统计和词频统计之后的又一重大基础性研究课题。本文主要给出以结构特征为标准的句型系统的汉语句型频度表、实验数据与分析、实验模型及其工作原理的简单介绍。

  • 标签: 汉语句型 频度统计 句型成分分析 性质形容词 单音节形容词 趋向动词
  • 简介:本文通过介绍和评论基于统计的语言处理模型的工作原理和有关的应用实例,从语言学理论的角度来说明统计模型的局限性。通过讨论N元语法模型及其在词类标注上的应用,展示基于统计的语言处理模型的工作原理及其应用。讨论了语言结构的递归性特点和语言学知识的结构依赖性特点,指出递归嵌入会使得统计规律被任意数目的嵌入词语打乱,语言学知识的结构依赖性将使得统计模型赖以实现的独立性假设失效。

  • 标签: 统计模型 有限状态语法 马尔科夫过程 递归性 结构依赖性
  • 简介:常用字字量问题是汉字规范首先要解决的问题之一。本文探讨在不同条件下确定的不同字表,是否可以用统计学的假设检验方法,对这些字表的出现概率进行比较,以字表在实际应用中概率的高低来评价其应用效果的大小。经过实际运算,得出了调整后的《规范汉字表》常用字表在应用中的概率高于原3500常用字表的结论。由此证明《规范汉字表》确定的常用字表是合理的、优化的。

  • 标签: 常用字 规范汉字表 累积频率 统计方法
  • 简介:本文以编译型数据库系统开发工具CLIPPER为例,全面介绍在数据库系统中,如何使用FOXGRAPH生成数学统计图形的具体方法。

  • 标签: CLAPPER FOXGRAPH
  • 简介:本文首先简要说明定性研究和定量研究的特征,然后举例说明定量研究中统计方法的应用及意义。本文以笔者做过的认知功能教学法实验为例,具体说明描述统计和推断统计中的主要方法及其意义,阐明统计方法在第二语言研究中的重要性。

  • 标签: 定性研究 定量研究 描述统计 推断统计
  • 简介:《黄州竹楼记》中的"茶烟"一词,各家注释众说纷纭,各种辞书均未立条解释.为此,本文通过对《全唐诗》、《全宋词》的全文机器检索,发现"茶烟"共有43例之多,除不成词者外,少数是指焙茶或"烹茶炉火的烟气"、"煮茶的烟火",更多的则是指茶水热汽.

  • 标签: 茶烟 《全唐诗》 《全宋词》 全文检索 茶水热汽
  • 简介:本文讨论了书面语体中非计量“一+量词”的语法功能,并从语法角度对其语体构成机制进行了思考,认为非计量“一+量词”的本质功能在于为“语法句”赋予现实意义值。由于其所赋的值具有泛时空化的特征,因此该结构具有表达正式的书面语体功能。

  • 标签: 非计量“一+量词” 语法功能 泛时空化特征
  • 简介:文章采用邻接算法、主成分分析方法以及高程模拟综合图的交叉分析方法对11个闽南方言音系材料进行计算分析,可得到闽南方言区域传播的固有模式。计算结果显示闽南方言的传播模式为从东北向西南沿海岸线传播,这与人口迁移史相吻合。计算结果在音系结构相似度、语言历史、语言传播方向等方面与传统语言学研究成果可互相印证,说明通过方言音系结构之间的差异分析语言演化模式具有可行性。

  • 标签: 音系结构 P-distance模型 邻接 主成分分析 综合图
  • 简介:本文利用语料的频次信息和时间跨度,通过设计不同的统计时点,建立了两个可以反映词语历时变化的汉语名词常用词语统计词表。两个统计词表不仅为《汉语水平词汇与汉字等级大纲》新词的收取和历史词的过滤提供了有价值的数据,也为人工选取教学词汇提供了有益的参考。为验证统计词表的可靠性,本文又进行了统计词表与教材高频词的对比研究,结果表明《人民日报》虽然是新闻语料,但是基本包含了汉语作为第二语言教材中的常用词汇。

  • 标签: 统计特征 教材编写 统计词表
  • 简介:国外的释义性词语研究始于“基础词汇”词表的研制,最终促成使用最低限量词汇释义的词典编纂方法,而汉语词典的释义性词语计量研究迄今尚无任何进展。本专题基于现代汉语元语言系统研究的理论方法,率先对《现代汉语词典》的释义性词语进行全面性计量研究,依据统计结果划分频度相对等级,列出《XH释义性语料高频词表》。本研究重在为汉语词典编纂优选释义性词语提供基础,也可补现代汉语常用词统计的语料选取缺陷。

  • 标签: 汉语词典 释义性词语 统计 分级 高频词表
  • 简介:本文的两岸华语指大陆晋通话和台湾国语,它们在语用标记方面的差异尚未得到学界深入的比较研究,其中尤其是语气标记的差异更未得到应有的挖掘。语气标记诸多差异表现在:第一。从宏观层面上来说,普通话、台湾国语有着各自的语气标记系统,它们在灵活性、泛用性、语篇功能、位置等方面存在较为显著的差异。第二,从微观使用风格来说,台湾国语里“啦、的啦、喔、耶”颇具特色,是台湾腔的代表,尤其是“喔、耶”更给人以流行的、亲呢的意味,甚至到了无“喔”不成话,无“啦”、无“耶”不成剧(电视剧)的程度;普通话里“呀”自成特色;“是吧、好吧、对吧”等标记用法也非常丰富,而台湾国语则无此用法。第三.从情感倾向来看。台湾国语里“啦、的啦、喔、耶”等标记体现更多的礼貌低值,因此显得亲昵、密切。两岸语气标记的诸多差异可以从语言环境、语言接触、语言政策等方面进行解释。

  • 标签: 两岸华语 语气标记 台湾国语 普通话
  • 简介:文章以"数理统计法"分析两汉时期各韵部的历时演变以及音变条件,检讨"鱼歌"、"侯鱼"、"支歌"、"脂微"、"东阳"、"阳耕"、"真文元"、"质物"、"祭(月去)叶"等合韵关系,此外也对上古的"重韵问题"提出看法。

  • 标签: 数理统计 上古韵 合韵 重韵 两汉诗
  • 简介:语文是一门培养、提高学生处理中文信息的技能与能力的工具性基础课程。将中文信息处理技术及方法引进到语文教学的研究及教学过程中,可以推动语文教学的现代化。本文介绍运用中文信息处理技术统计分析中小学语文课文字词分布的状况及这些统计分析对教学研究、教材编写的价值。

  • 标签: 统计分析 分布
  • 简介:两岸华语在口语语法方面的差异尚未得到学界深入的比较研究,其中指示标记的差异较为突出。台湾国语对话体里“那”比“这”大,这主要是由于对话语体的性质、新信息、话题跳跃与弱社会化程度有利于“那”出现。后置性指示标记“这样子”在台湾国语对话体里颇具特色,男女老少皆用,给人以流行、亲昵的意味。

  • 标签: “这” “那” “这样子” 两岸华语 台湾国语 普通话
  • 简介:随着社会的发展,日语中不断有新的词汇产生,科学技术领域的专业词汇是新词产生的主要来源。要抽取专业领域的新的专业词汇就必须深入研究这些词汇的特点。本文以日本医学领域的语料为研究对象,以文学作品这种被认为专业词汇使用频率低的题材作为参照语料,使用统计学的方法考察了日语专业词汇统计特征,并在此基础上提出了基本专业词汇的界定方法。

  • 标签: 日语专业词汇 基本专业词汇 统计特征
  • 简介:摘要长短元音在不同语言中存在不同表现和特征,国内孟高棉语、德昂语、克木语的元音在韵尾时都存在长短对立。对长短元音进行统计研究,有助于认识长短元音本质的特征。本文的主要研究对象——那姆佤话,长短元音对立也是其语言中较明显的特性,另外,长短元音与不同声母的搭配情况与规律也展示其语言的特殊性。

  • 标签: 那姆佤话,声母,长短元音