本书采用语料库技术与内省相结合、定量和定性相结合、共时与历时相结合的研究方法,以大规模真实文本为研究基础,借助中文信息处理技术,突破了小范围手工研究的限制,对字母词语进行了系统研究。对字母词语概念的内涵外延进行了界定,给出了字母词语形式化定义。基于大规模真实文本的考察结果,对字母词语的层次划分、组成成分、量化使用状况、历时演变状态、领域分布、用法分布、以及字母词语对汉语系统的影响等进行了深入地分析和研究。对字母词语的自动识别,通用字母词语的提取进行了探索。通过这些研究取得了一批第一手资料。
网站首页 软件下载 游戏下载 翻译软件 电子书下载 电影下载 电视剧下载 教程攻略
书名 | 大规模真实文本汉语字母词语考察研究/厦门大学国学研究院资助出版丛书 |
分类 | 计算机-操作系统 |
作者 | 郑泽芝 |
出版社 | 厦门大学出版社 |
下载 | ![]() |
简介 | 编辑推荐 本书采用语料库技术与内省相结合、定量和定性相结合、共时与历时相结合的研究方法,以大规模真实文本为研究基础,借助中文信息处理技术,突破了小范围手工研究的限制,对字母词语进行了系统研究。对字母词语概念的内涵外延进行了界定,给出了字母词语形式化定义。基于大规模真实文本的考察结果,对字母词语的层次划分、组成成分、量化使用状况、历时演变状态、领域分布、用法分布、以及字母词语对汉语系统的影响等进行了深入地分析和研究。对字母词语的自动识别,通用字母词语的提取进行了探索。通过这些研究取得了一批第一手资料。 内容推荐 汉语中字母词语的使用情况已经无法仅仅用外来语来涵盖,比如:HSK、GB、3C、阿Q等。而且这种语言现象在汉语中的使用,呈泛滥的态势,有的字母串已经产生了很强的构词语能力,字母参与构词也已屡见不鲜,它们已经是汉语中不容忽视的一种新语言现象。它们的影响还不仅限于此,对于汉语信息处理而言,字母词语不仅是汉语中的一类新词语,而且其中含有大量的各领域术语,其中许多术语正在进入汉语语言社会的各个层面,它们已经成了情报翻译、自动分词、信息检索、机器翻译中不可低估的影响因素。 语言学界见仁见智,态度各异,有人主张保卫祖国语言的纯洁性,有人为字母词语叫好。本书认为字母词语在汉语中的使用不是孤立的,只有经过大规模真实文本的考察,才可以用事实说话,并据实给予规范和制定相关的政策。 本书采用语料库技术与内省相结合、定量和定性相结合的研究方法,以大规模真实文本为研究基础,历时5年,跟踪考察了近两亿真实文本语料。界定了文字字母;对字母词语所用字符进行了考察和归纳,界定了字母词语;在共时截面上对字母词语在主流报纸媒体的使用状况进行了全面客观的描述和分析;对字母词语的主题领域分布、用法分布状况进行了量化分析研究;从不同角度对字母词语分类、构成成分进行了研究;从历时发展的角度对字母词语演化状况进行了跟踪研究;从语言信息处理的角度对字母词语的统计特征和字母词语的自动识别进行了研究;对通用字母词语的量化提取进行了探索;对字母词语将给汉语文字系统带来怎样的影响进行了探索等等。客观真实地描写和分析了字母词语的各种情况,取得了大量第一手的资料。全书共分15章,书后附有作者整理的字母词语研究文献索引录,双语对释字母词语表,5年历时字母词语表,《人民日报》、《北京青年报》、《羊城晚报》共有字母词语表等附录。 本书对社会语言学、汉语词汇学、新词语、外来语的研究有重要的参考价值,是中文信息处理领域的人员和相关单位关注的对象,同时也可为政府有关部门制订相关政策提供参考。 目录 序/张普 第一章 绪论 1 字母词语的界定 2 字母词语与真实文本 3 本书的结构 第二章 主流报纸媒体字母词语的使用状况 1 语料的选择 2 文本中使用的非汉字符 3 外文字母在汉语文本中的使用情况 4 媒体字母词语的量化概况 5 各报纸媒体字母词语概况 5.1 《人民日报》字母词语概况 5.2 《北京青年报》字母词语概况 5.3 《羊城晚报》字母词语概况 6 媒体字母词语的一次性使用情况 7 不同性质媒体中字母词语的使用情况 8 媒体共有字母词语情况 9 小结 第三章 字母词语中的标点 1 字母词语中的标点符号 2 字母词语中标点符号出现情况及问题 2.1 字母词语中标点的出现情况 2.2 与标点相关问题的处理 3 小结 第四章 字母词语中的数字 1 数字在字母前的情形 2 数字在字母后的情形 3 含数字字母词语之管见 第五章 单字母、多字母、光杆字母词语与字母词语 并列结构 1 单字母字母词语 2 多字母字母词语考察 3 光杆字母词语与外语原文缩略语 3.1 光杆字母词语使用状况 3.2 字母词语原文缩略和汉语拼音成词问题 4 字母词语的并列结构 第六章 双语对释字母词语 1 双语对释字母词语在文本中的使用情况概述 2 对释汉字串的分布考察 3 双语对释字母词语语形历时演化分析 4 双语对释字母词语使用方式演化 4.1 共有双语对释字母词语I型、Ⅱ型分布 4.2 双语对释全称简称形式的演化 4.3 字母词语中的新词语 5 小结 第七章 字母词语领域分布特点 1 媒体主题领域聚类 2 字母词语在各主题领域的量化分布规律 2.1 一般字母词语领域分布情况 2.2 双语对释字母词语领域分布情况 3 领域共有字母词语的情况分析 4 各主题域独有字母词语情况分析 5 小结 第八章 字母词语有多少种用法 1 字母词语的用法分类 2 字母词语的用法分布情况 3 字母词语领域和用法交叉分布情况 4 小结 第九章 字母词语的演化态势 1 字母词语的使用数量的历时演化 2 字母词语一次性使用的历时变化 3 字母词语变化程度及变化趋势 4 一般字母词语的演化情况分析 4.1 数量变化 4.2 字母词语搭配汉字的情况 4.3 共有一般词语的分类考察 5 字母词语稳定性 第十章 字母词语的使用与规范 1 字母词语的层次划分 1.1 字母词语三圈划分 1.2 外语原词、计算机相关词语在文本中的使用情况 2 字母词语来源分析 3 外文字母使用例析 4 字母词语不规范情况分类 5 字母词语的词性问题 6 字母词语的归化 7 关于字母词语的几点建议 第十一章 字母词语对汉语文字系统的影响 1 语言与文字 2 从外来语到字母词语 2.1 传统外来语的影响 2.2 字母词语与汉语言系统 3 汉语文字系统 4 汉字系统可否发生变化 5 小结 第十二章 通用字母词语提取研究 1 通用词语的各种量化属性 2 字母词语量化属性观察分析 3 通用字母词语提取算法 3.1 绝对指标提取方法 3.2 通用度方法 3.3 散布均匀度方法 3.4 小结 4 低使用率词语的处理 5 通用字母词语的一些特性 6 小结 第十三章 字母词语的自动识别 1 字母词语与术语、专名的关系 1.1 字母词语自身的特点 1.2 字母词语与术语的关系 1.3 字母词语与专有名词的关系 2 字母词语识别的难点分析与字母词语统计特征 2.1 字母词语和标点符号 2.2 字母串与汉字串搭配的分合问题 2.3 字母词语的一次性出现与语形不规范问题 2.4 字母词语边界歧义 2.5 字母串的合法性与字母词语之间的分割问题 2.6 字母词语的统计特征 3 字母词语的自动识别 3.1 规则的获取 3.2 字母词语数据稀疏问题的处理策略 3.3 搭配概率矩阵的获取 3.4 自动标注模型 3.5 实验结果 4 小结 第十四章 字母词语的社会接受程度考察 1 教育程度和字母词语的接受程度 2 不同人群对字母词语的接受程度调查 3 小结 第十五章 结束语 1 本书的主要结论和观点 1.1 主流报纸媒体字母词语共时状况考察 1.2 字母词语的专项考察 1.3 字母词语的主题分布、用法分布情况考察 1.4 字母词语的历时演化 1.5 关于通用字母词语的提取 1.6 关于字母词语的自动识别 1.7 对字母词语社会接受情况的调查 2 存在的问题 3 几点思考 附录1 《人民日报》历时5年一般字母词语 附录2 《人民日报》双语对释字母词语 附录3 2002年《人民日报》《北京青年报》《羊城晚报》共有字母词语 附录4 《北京青年报》双语对释字母词语(2002) 附录5 《羊城晚报》双语对释字母词语(2002) 附录6 字母词语研究文献索引 参考文献 后 记 |
随便看 |
|
霍普软件下载网电子书栏目提供海量电子书在线免费阅读及下载。