# 自然语言处理简历

# 项目背景

随着人脸识别、语音识别等人工智能技术的发展,一家大型智能手机互联网公司的COO现急需大量的不同岗位、不同级别的技术人才。在校园招聘期间,每天该企业收到超过300份的简历,累计上万份的简历查阅和筛选成为摆在HR面前的一个挑战。

例如:按照每份简历人工查阅时间5分钟计算,查看100份简历的时问将超过 8小时,300份简历要超过3人天。但该公司统计,从最初的筛选简历人数,到最后的入职人数,比例大概是100/1。面对每天大量的投递简历,HR出现筛选时间过久,可能会导致人才流失和HR技术匮乏,对技术了解有限,可能简历匹配度较低的难题。

# 处理流程

通过机器学习平台中的文本分析组件,将简历与招聘需求数据上传,根据招聘需求与求职者简历进行匹配,自动对简历进行筛选,从而挑选出最符合该企业招聘需求的人才。大致步骤如下图所示:

# 自然语言通用技术

分词是将连续的文本,分割成语义合理的若干词汇序列。例如:自然语言处理,通过分词器就可以分成自然、语言、处理三个词。搜索引擎能够识别长文本,给我们对应的搜索结果就是分词的结果。

停用词是在文本中大量存在,但却对语义分析没有特别帮助的词。在句子中通常能够将句子分为主干(主谓宾)与枝叶(定状补)两部分,主干是句子中的核心部分,枝叶部分可以进行删减,例如:一直雪白的兔子在田野间飞快的奔跑,这句话其实可以缩减成兔子在奔跑,其余的都是停用词。去掉停用词,可以加快文本的计算速度。

词干提取是指对一个单词去掉后缀,还原为词本身,其主要用在英文等西方语言中,例如把进行时或过去式的后缀去掉。词形还原是指对同一单词不同形式的识别,将单词还原为标准形式 例如is am are 将会被还原为be。

词袋模型是用来将文本转换成数值特征向量的表示形式,方式为将每个文档构建一个特征向量,其中包含每个单词在文档中的出现次数。

TF-IDF指词频-逆文档频率,它是针对词语重要性的一种加权统计方式,常用在信息检索、文本挖掘等技术中,作为加权因子。TF-IDF的核心思想是:词条的重要性随着该词条在当前文档中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。

TF-IDF=TF(词频)*IDF(逆文档频率)。TF=当前文档中单词出现的次数/当前文档中包括的单词总是。IDF指的是语料库中文档总数与语料库中包含该词的文档数比值的对数,公式为:IDF=log(语料库中文档数/语料库中包含该词的文档数+1)。

Word2Vec是基于神经网络的监督算法,它可以将词条转化成向量,从而根据余弦相似度来计算文本之间的相似性。通过Word2Vec可以计算不同文本之间的相似性。