行业资讯
简历解析-论文
发布时间:12/6/2013 发布人:管理员
阅读:1760
智能简历解析系统的研究与实现--江志祥
简历是日常生活中一种非常重要的文本,它包含了作者的基本信息及经历等信息。当今社会,简历的应用非常广泛。因此,如何快速、有效的抽取简历中的信息成为迫切需求。本文将研究如何快速、有效的抽取简历中的信息。一方面,从信息抽取效率上看,人工读取显然已经不能满足现实需求,而必须要利用计算机相关技术;另一方面,从信息抽取的准确度上看,结合简历的特征和文本信息抽取技术,如正则表达式匹配、关联性分析、统计等方法可以使信息抽取的结果满足现实需要,从而实现机器智能化识别,并且按照预定义对抽取结果进行格式化,进而解析、分类,存入数据库中。 本文的主要任务是:针对中文简历,研究有效的信息抽取算法。主要研究成果有:第一,通过研究总结,总结中文简历特点;第二,针对简历的各个部分提出有效的信息抽取方案;第三,提出中文简历信息抽取模型;第四,通过实验1500份简历,得出实验结果。 从本文的内容结构上看,第一章,介绍了课题的背景和意义;第二章,介绍了半结构化文本的定义以及课题中关键词的定义;第三者,介绍了自动文本分类技术;第四章,总结简历文本特征,给出信息抽取模型;第五章,给出实验结果并分析讨论;第六章,对所作工作的总结并提出存在的问题。
摘要4-5
ABSTRACT5-9
1 第一章 绪论9-14
1.1 研究背景9-10
1.2 研究的目的和意义10
1.3 信息抽取10-12
1.4 本文研究内容12
1.5 论文结构安排12-14
2 第二章 半结构化文本14-23
2.1 半结构化文本定义14-18
2.2 半结构化文本特征18-21
2.2.1 元18
2.2.2 项18-19
2.2.3 类19-20
2.2.4 集合20-21
2.3 半结构化文本举例21-23
3 第三章 自动文本分类23-31
3.1 问题描述23-24
3.2 文本的表示24-25
3.3 特征的抽取25-26
3.4 训练方法和分类方法26-29
3.5 阈值的确定29-30
3.6 文本分类系统框架30-31
4 第四章 简历文本特征及信息抽取模型31-42
4.1 研究目标31
4.2 简历文本特征31-35
4.3 简历信息抽取模型35-42
4.3.1 问题描述及工作流程35-37
4.3.2 简历文本的粗切分37
4.3.3 基本信息的抽取37-38
4.3.4 复杂信息类集合的分类38-39
4.3.5 复杂信息类中信息的抽取39-42
5 第五章 实验结果与讨论42-44
5.1 实验数据及评价方法42
5.2 实验结果与讨论42-44
6 第六章 总结及展望44-46
7 参考文献46-48
8 致谢48-49
攻读学位期间发表的学术论文49,