# 自然语言处理简历

# 项目背景

随着人脸识别、语音识别等人工智能技术的发展，一家大型智能手机互联网公司的COO现急需大量的不同岗位、不同级别的技术人才。在校园招聘期间，每天该企业收到超过300份的简历，累计上万份的简历查阅和筛选成为摆在HR面前的一个挑战。

例如：按照每份简历人工查阅时间5分钟计算，查看100份简历的时问将超过 8小时，300份简历要超过3人天。但该公司统计，从最初的筛选简历人数，到最后的入职人数，比例大概是100/1。面对每天大量的投递简历，HR出现筛选时间过久，可能会导致人才流失和HR技术匮乏，对技术了解有限，可能简历匹配度较低的难题。

# 处理流程

通过机器学习平台中的文本分析组件，将简历与招聘需求数据上传，根据招聘需求与求职者简历进行匹配，自动对简历进行筛选，从而挑选出最符合该企业招聘需求的人才。大致步骤如下图所示：

# 自然语言通用技术

分词是将连续的文本，分割成语义合理的若干词汇序列。例如：自然语言处理，通过分词器就可以分成自然、语言、处理三个词。搜索引擎能够识别长文本，给我们对应的搜索结果就是分词的结果。

停用词是在文本中大量存在，但却对语义分析没有特别帮助的词。在句子中通常能够将句子分为主干（主谓宾）与枝叶（定状补）两部分，主干是句子中的核心部分，枝叶部分可以进行删减，例如：一直雪白的兔子在田野间飞快的奔跑，这句话其实可以缩减成兔子在奔跑，其余的都是停用词。去掉停用词，可以加快文本的计算速度。

词干提取是指对一个单词去掉后缀，还原为词本身，其主要用在英文等西方语言中，例如把进行时或过去式的后缀去掉。词形还原是指对同一单词不同形式的识别，将单词还原为标准形式例如is am are 将会被还原为be。

词袋模型是用来将文本转换成数值特征向量的表示形式，方式为将每个文档构建一个特征向量，其中包含每个单词在文档中的出现次数。

TF-IDF指词频-逆文档频率，它是针对词语重要性的一种加权统计方式，常用在信息检索、文本挖掘等技术中，作为加权因子。TF-IDF的核心思想是：词条的重要性随着该词条在当前文档中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。

TF-IDF=TF（词频）*IDF（逆文档频率）。TF=当前文档中单词出现的次数/当前文档中包括的单词总是。IDF指的是语料库中文档总数与语料库中包含该词的文档数比值的对数，公式为：IDF=log（语料库中文档数/语料库中包含该词的文档数+1）。

Word2Vec是基于神经网络的监督算法，它可以将词条转化成向量，从而根据余弦相似度来计算文本之间的相似性。通过Word2Vec可以计算不同文本之间的相似性。

← 客户流失预警分析 O2O优惠券使用预测 →