简介:摘要汉语言文化源远流长,学者们吟诗作对,创作出许多诗词歌赋让人们吟唱流传于世间。年代变迁,语言慢慢的从简化,白话文的出现开始,人们越来越追求简洁的书面表达,咬文嚼字越发显得很繁琐。语言文化越来越简洁,人们交流更直接清晰,带来便利和高效的同时,古文却也慢慢淡出人们的生活,人们不再关注诗词歌赋,读诗的人少了,写诗的人也少了,诗词歌赋眼看就要失传,此时最需要的是顺应时代的潮流,让诗词歌赋添上“人
简介:汉语分词是中文信息处理的一项基础性工作。为避免人工阅读或机器处理时的分词歧义和未登录词难以识别的问题,有专家建议写作时在汉语词之间添加空格。文章从语言学本体研究、语言使用以及语言工程等不同角度对传统观念下的汉语分词存在的困难进行探讨,指出汉语分词在词的定义、群众语感以及分词规范、词表确定及工程应用等方面都存在不确定及不一致等因素。近年汉语自动分词处理不纠缠于词的确切定义,以字组词,针对标注语料和网络上带有丰富结构信息的海量文本,利用机器学习方法对汉语“切分单位”的标注取得了较好的进展。针对基础性的汉语分词规范,从语言规划的政策性、科学性及引导性角度提出建议,最后指出结合语言学指导和数据驱动的机器学习策略,可望为实现汉语自动分词的准确性和适应性提升服务。