简单
技术面试0 次浏览

在微博中,我们经常需要对用户发布的文本进行关键词提取,以便更好地进行内容分类和推荐。请实现一个简单的关键词提取函数,输入为一段文本,输出为文本中的关键词列表。假设关键词是文本中出现频率较高的词语,且不考虑停用词。

微博算法工程师
算法工程师关键词提取文本处理

答题要点

推荐的答题框架:采用直接实现法,先对文本进行预处理,再统计词频,最后筛选出高频词作为关键词。关键要点如下:1. 文本预处理:将文本进行分词,去除标点符号等干扰因素。例如,使用 Python 的 jieba 库进行分词。2. 词频统计:遍历分词后的词语,统计每个词语的出现次数。可以使用字典来存储词频。3. 关键词筛选:根据词频排序,选取出现频率较高的词语作为关键词。示例话术:首先,我会使用 jieba 库对输入的文本进行分词,然后创建一个字典来统计每个词语的出现次数。接着,对字典按照词频进行排序,选取前几个高频词作为关键词返回。