您好!欢迎光临南京市江宁区博文活动板房厂,我们竭诚为您服务!
定制咨询热线025-85989270

新闻动态

联系我们

南京市江宁区博文活动板房厂

邮 箱:1575588656@qq.com
手 机:13701400427
电 话:025-85989270
地 址:南京市江宁区江宁街道朱门社区大高楼

「关键词」提取都有哪些方案?

发布时间:2022-01-19 13:46:26人气:78

我博士阶段的研究课题就是关键词抽取,欢迎下载阅读我的论文“

基于文档主题结构的关键词抽取方法研究

”。以我做关键词抽取的经验,建议如下:

1. TFIDF是很强的baseline,具有较强的普适性,如果没有太多经验的话,可以实现该算法基本能应付大部分关键词抽取的场景了。

2. 对于中文而言,中文分词和词性标注的性能对关键词抽取的效果至关重要。

3. 较复杂的算法各自有些问题,如Topic Model,它的主要问题是抽取的关键词一般过于宽泛,不能较好反映文章主题。这在我的博士论文中有专门实验和论述;TextRank实际应用效果并不比TFIDF有明显优势,而且由于涉及网络构建和随机游走的迭代算法,效率极低。这些复杂算法集中想要解决的问题,是如何利用更丰富的文档外部和内部信息进行抽取。如果有兴趣尝试更复杂的算法,我认为我们提出的基于SMT(统计机器翻译)的模型,可以较好地兼顾效率和效果。

4. 以上都是无监督算法,即没有事先标注好的数据集合。而如果我们有事先标注好的数据集合的话,就可以将关键词抽取问题转换为有监督的分类问题。这在我博士论文中的相关工作介绍中均有提到。从性能上来讲,利用有监督模型的效果普遍要优于无监督模型,对关键词抽取来讲亦是如此。在Web 2.0时代的社会标签推荐问题,就是典型的有监督的关键词推荐问题,也是典型的多分类、多标签的分类问题,有很多高效算法可以使用。

我们所说的关键词通常由一个或多个 term 组成,即可以是分词后的 term,如“鲜花”、“快递”,也可以是多个 term 组成的 phrase,如“鲜花快递”、“鲜花快递公司”,英文常见叫法是 keyword,keyphrase。

至于什么是关键词呢?至少必须满足两个关键条件:边界合法和有行业区分度。甚至还可以结合具体应用场景增加限制条件,如在计算广告中,还要考虑商业价值。

我们的做法是分两步走:

候选词匹配:基于关键词词库的多模式匹配得到候选,这里最重要的工作是词库构建,往往会融合多种方法:垂直站点专有名词,百科词条,输入法细胞词库,广告主购买词,基于大规模语料库的自动词库挖掘(推荐韩家炜团队的 shangjingbo1226/SegPhrase ,shangjingbo1226/AutoPhrase 方法)等。这里会涉及大量的数据清洗工作,甚至还可以有一个质量分类器决定哪些词条可以进入词库。候选词相关性排序:包括无监督和有监督方法,如下:无监督方法:常见的有 TFIDF(需要统计 phrase 级别的 DF), textrank(优势不明显,计算量大,慎用),topic 相似度(参见 baidu/Familia),embedding 相似度(需要训练或计算 keyword 和 doc embedding),TWE 相似度(参见 baidu/Familia)有监督方法:常见的有基于统计机器翻译 SMT 的方法(转换成翻译问题,可以采用 IBM Model 1),基于序列标注模型的方法(转换成核心成分识别问题,类似 NER,状态只有0和1,即是否是核心成分,较适用于短文本),基于排序学习LTR的方法(转换成候选词排序问题,采用 pairwise 方法,或者深度语义匹配方法,如 DSSM),基于传统机器学习分类方法(转换成二元或多元分类问题)。有监督方法依赖一定规模的标注数据,效果通常会显著好于无监督方法。

上面的方法仅能抽取文本字面出现的词,会有 Vocabuary Gap 问题,大部分情况下是足够的,还有一种做法可以基于生成模型的方法,自动“抽取”生成一些字面上未出现的词条,如 ACL 2017Deep Keyphrase Generation( ,memray/seq2seq-keyphrase)。另外,也可以考虑基于字面抽取的 keyword,扩展出一些语义相似的词条作为候选词,通过打分排序选出合适的保留下来。

特别的,对于一些存在规律性描述模式的特殊类型文本,如 query log,还可以采用基于 bootstrapping 的软模式匹配方法,通常准确率很高,召回率一般。

1.TF-IDF和关键词提取

作为提取关键词的最基本、最简单易懂的方法,首先介绍下TF-IDF。

判断一个词在一篇文章中是否重要,一个容易想到的衡量指标就是词频,重要的词往往会在文章中多次出现。但另一方面,不是出现次数多的词就一定重要,因为有些词在各种文章中都频繁出现,那它的重要性肯定不如那些只在某篇文章中频繁出现的词重要性强。从统计学的角度,就是给予那些不常见的词以较大的权重,而减少常见词的权重。IDF(逆文档频率)就是这个权重,TF则指的是词频。

TF=(词语在文章中出现次数)/ (文章总词数)

IDF=log (语料库文档总数/(包含该词的文档数+1))

TF - IDF = TF * IDF

摘取一个博客中的一个例子[1]

“中国”在文章中的频率并不比“蜜蜂“和”养殖“低,但因其在各种文章中都会频繁出现,因此其逆文档频率较低,不会被识别成本文的关键词。

TF-IDF虽然非常简单,但却很经典有效,而且速度很快,有的场景中会提升第一段和最后一段的文本权重,因为文章的关键词往往会在开头和结尾段频繁出现。但TF-IDF只是仅从词频角度挖掘信息,并不能体现文本的深层语义信息。

2.topic-model和关键词提取

如果说TF-IDF只能从词频角度挖掘信息,那么如何挖掘更深层次的信息呢?这就是topic-model想要完成的任务。

举个例子,以下四个句子:

1.I ate a banana and spinach smoothie for breakfast

2.I like to eat broccoli and bananas.

3.Chinchillas and kittens are cute.

4.My sister adopted a kitten yesterday.

仅从词语角度分析,1.2句banana是重复出现的,3.4句kitten是重复出现的。但其实可以发现1.2句主要跟食物有关,3.4句主要跟动物有关,而food、animal两个词在四句话里均未出现,有没有可能判断出四句话中所包含的两个主题呢?或者当两篇文章共有的高频词很少,如一篇讲banana,一篇讲orange,是否可以判断两篇文章都包含food这个主题呢?如何生成主题、如何分析文章的主题,这就是topic-model所研究的内容。对文本进行LSA(隐形语义分析)。

在直接对词频进行分析的研究中,可以认为通过词语来描述文章,即一层的传递关系。

而topic-model则认为文章是由主题组成,文章中的词,是以一定概率从主题中选取的。不同的主题下,词语出现的概率分布是不同的。比如”鱼雷“一词,在”军事“主题下出现的概率远大于在”食品”主题下出现的概率。即topic-model认为文档和词语之间还有一层关系。

首先假设每篇文章只有一个主题z,则对于文章中的词w,是根据在z主题下的概率分布p(w|z)生成的。则在已经选定主题的前提下,整篇文档产生的概率是

而这种对每篇文章只有一个主题的假设显然是不合理的,事实上每篇文章可能有多个主题,即主题的选择也是服从某概率分布p(t)的因此根据LDA模型,所有变量的联合分布为

表示topic下词的分布,表示文档下topic的分布。是第m个文档的单词总数。表示词语和topic的概率分布先验参数。而学习LDA的过程,就是通过观察到的文档集合,学习的过程。学习过程参见论文[2]。

下图为一个LDA学习结果的例子

取自[3]

可以看出,topic-model的目的就是从文本中发现隐含的语义维度,在词语和文档之间加入更概括的信息。

3.textrank关键词提取

textrank的则从图模型的角度找文章的关键词,好处在于不用事先基于大量数据进行训练。

其基本思想来自于pagerank算法,pagerank的两条基本思想是,如果一个网页被很多其他网页链接到,说明这个网页比较重要;如果一个网页被一个权值很高的网页链接到,则其重要性也会相应增加。

判断两个网页之间是否有边相连,根据网页中出现的链接,而在textrank中判断两个词间是否存在相关关系,则根据词语的共现关系。实际处理时,取一定长度的窗,在窗内的共现关系则视为有效。

修改的textrank算法

4.rake关键词提取

rake算法提取的并不是单一的单词,而是由单词组成的短语。短语的分割由标点符号

每个短语的得分由组成短语的词累加得到,而词的得分与词的度与词频有关

当与一个词共现的词语越多,该词的度就越大。

算法本身很简单也很好理解,也有可直接供使用的python代码:

GitHub - aneesha/RAKE: A python implementation of the Rapid Automatic Keyword Extraction

参考文献

[1] TF-IDF与余弦相似性的应用(一):自动提取关键词

[2] Blei D M, Ng A Y, Jordan M I. Latent dirichlet allocation[J]. Journal of machine Learning research, 2003, 3(Jan): 993-1022.

[3] Blei D M. Probabilistic topic models[J]. Communications of the ACM, 2012, 55(4): 77-84.

[4] Rose S, Engel D, Cramer N, et al. Automatic keyword extraction from individual documents[J]. Text Mining, 2010: 1-20.

说点自己的见解~

首先,这个题目可大可小,脱离了具体的应用场景,“关键”就变得难以界定。从当前大多数答案看来,默认的场景是在大量的文本中,抽取代表这些文本的词语,多数技术是以“词频”统计信息作为基础,那么就默认了以“常见”作为“关键”的定义,当然TFIDF等算法平滑了极高频带来的干扰。

其次,问题还需要进一步的界定,关键词抽取的范围是什么,是针对单个文本抽取还是针对一个数据集。TFIDF显然是针对一个数据集下的单个文档的关键词抽取,这样提取出来的关键词就不一定能代表整个数据集了。提这里是因为曾经见过算法工程师搞不清TFIDF的统计口径,例如一个这样的任务,在一个类型的电影影评中抽取这个类型电影的关键词,默认单个影评作为统计单位(TF的取值范围),那么TFIDF能做好的是对每个影评抽取关键词,而不是代表这个电影类型的关键词。假如区分度是“关键”的一个指标,还是影评的例子,可以是某个类型电影影评的合集作为一个统计单位,然后数据集的范围是N个类型的影评,这样TFIDF在单个类型数据中排序所获得的关键词,就具有了代表该类型的意义。(这个例子不太恰当的地方在于电影类型不足够多,那么统计会失去意义)。

上述是关键词提取任务的常见理解,基本的方案和流程可以整理为:

然而,实际中上述的方案我通常是用在文本分析阶段,用于了解语料和构建词典,不会接入到具体的应用的流程中。

我认为关键词提取其实无处不在,比如命名实体识别,这也可以认为是关键词提取,只不过提取的是句子中核心的重要成分。因此从应用角度来说,关键词提取应该说没有固定的方案,在不同的应用阶段,"关键"的定义都会变化,就需要不同的方案来适应。初始的阶段"关键"就是提取核心主干,去掉不重要的成分。主题分析阶段关键词就是主题词。情感分析阶段关键词就是情感词。

综上,"关键"的定义决定了提取方案。

关键词提取就是从文本里面把跟这篇文档意义最相关的一些词抽取出来。这个可以追溯到文献检索初期,当时还不支持全文搜索的时候,关键词就可以作为搜索这篇论文的词语。以下是常用的关键词提取的方法:

词数一个基本的分词筛选方法就是筛掉词数过少的词语,这些词语对大多需求而言更可能是停用词,不论对人工分析还是机器学习都没有意义。该方法可用于对大量的分词结果进行初筛。

tf-idftf-idf是常用的对文档或句子中的词语进行打分的方法。某个词的tf-idf取值取决于两个因素:词频以及该词的稀有程度。因此,tf-idf描绘了一个词语在所属文档或句子的独有程度。正因为如此,当我根据tf-idf取top词语构成了关键词集合,它反映的是文档或句子独有的特点,或者说亮点。tf-idf代表的是同时涉及到词频以及该词稀有度的计算模式,有多钟计算公式,词频最常见的计算方法是改词的出现次数/总词数,词稀有度常见计算方法是对文档总数/含有改词的文档数取对数。可根据需求和实际数据的不同调整词频或词稀有度所占权重。

tf-idf还可用于比较文本相似度,作为文本的特征抽取手段进一步做机器学习。

text-rank该方法源于page-rank,page-rank是谷歌提出的对网页按照影响力进行排序的算法。同样的,text-rank认为文档或句子中相邻的词语重要性是相互影响的,所以text-rank引入了词语的顺序信息。

上式中,Vi表示当前要计算权重的词,S(Vi)表示该词的权重,d表示阻尼系数,In(Vi)表示与Vi在同一个窗口的词集合,Out(Vj)表示与Vj在同一个窗口的词集合,|Out(Vj)|表示这个词集合的元素个数。text-rank算法首先对每个词语的权重进行初始化,然后根据上述公式对每个词语的权重进行更新直至收敛,受em算法理论支持。text-rank筛选出的top关键词集合最能反应整个文档或句子,与tf-idf不同的是,代表整个文档的词集合并不一定是该文档所独有的,所以如果说要找一个方法进行特征抽取的话,tf-idf显然更加适合。

但是从实用和高效方面推荐一款大数据挖掘工具:NLPIR关键词提取,它能够在全面把握文章中心思想的基础上,提取出若干个代表文章语义内容的词汇或短语,相关结果可用于精化阅读、语义查询和快速匹配等。NLPIR主要采用交叉信息熵计算每个候选词的上下文条件熵,所处理的文档不受行业领域限制,且能够识别出最新出现的新词语,所输出的词语可以配以权重。

NLPIR文章关键词提取的主要特色在于:

1、速度快:可以处理海量规模的网络文本数据,平均每小时处理至少50万篇文档。

2、处理精准:Top N的分析结果往往能反映出该篇文章的主题特征。

3、精准排序:关键词按照影响权重排序,可以输出权重值。

4、开放式接口:文章关键词提取组件作为NLPIR的一部分,采用灵活的开发接口,可以方便地融入到用户的业务系统中,可以支持各种操作系统和各类调用语言。

以上个人见解,仅供参考!

关于关键词提取,写了一些自己的感想,参考链接:关键词提取 A Quick Review

可参考下面几种做法,如果能拿到点击日志时,效果相比于其他方法是比较好的

星轨数据:Query词权重方法(1) - 基于语料统计34 赞同 · 11 评论文章星轨数据:Query词权重方法(2) - 基于点击日志11 赞同 · 10 评论文章星轨数据:Query词权重方法(3) - 基于有监督学习7 赞同 · 0 评论文章星轨数据:Query词权重方法(4)- beyond 词粒度6 赞同 · 0 评论文章

看你主要提取什么文本的关键词,曾经在微博上试过TF-IDF,LDA 和TextRank,感觉LDA在短文本上完全不靠谱,在文档级应用上应该可以(没试过,这方面的论文应该很多)。

更新下:后来尝试了用NER(命名实体识别)的框架来做关键词抽取,其实就是典型的序列标注问题,用lstm,每个时间步都输出,是关键词输出1,非关键词输出0。至少是能跑,但这个精度上好像不是很理想,这可能和数据集有关,数据集太少了才1000条。。

----------------------------------------------------------------

看了各位前辈的回答,发现关键词抽取要么是无监督的tfidf,textrank等,要么有监督都是基于特征的传统机器学习分类算法。

现在深度学习这么热,怎么没见过用深度学习做关键词抽取的?比如把文本词向量化,然后用lstm去一个词一个词识别,是的话输出1,不是的话输出0.各位前辈有这方面的相关内容推荐给我看看,谢啦

更多,更全的【Python与seo应用实战】视频关注我,私聊我!

STHSF/TextRank 我写过一个基于TextRank的关键词、句、短语的程序,感觉效果还不错,感觉如果在使用TextRank的时候如果加上Word2Vec等词向量表示方式,可能效果会更好,另外处理效率除了算法本身而言可能运行环境,程序语言之类的都有影响吧。我的程序使用的是Scala编写,直接在spark集群上运行,也不觉得效率很低。

其实抽取关键词这种看用在什么场景,textRank感觉挺不错的,LDA主题模型抽取关键词效果并不是很好,看你用来干嘛,什么语料库。

TFidf 、textrank 、实体词识别等等

facebookresearch/fastText 这个也不错,用起来挺好,也是基于 topic 来打标签

思路:term 词向量求和取平均 -> logistic regression,只不过由于标签过多,所以用层次 softmax 或者 negative sampling 来优化性能。

1.生意参谋-选词助手生意参谋中,打开流量中的选词助手。里面有店铺引流搜索词和行业相关搜索词,可以作为词库参考。2.行业热词榜生意参谋中,打开“市场行情”选择“行业热搜词”,这里面的“热门搜索词”是行业的热词排行榜,可以扩充词表,另外一些“热门长尾词”,“热门核心词”“热门品牌词”“热门修饰词”可以摘选自己可以用的进行词表扩充,这里面注意选择周期是7天(尽可能增加数据),所选类目到最小子类目3.相关搜索词查询生意参谋中,打开“市场行情”输入产品的核心关键词,选择“搜索词查询”,这里面的“相关搜索词”是对核心关键词周边的延展,可以扩充词表,这里面注意周期也是选择7天(尽可能增加数据)。4.下拉框打开手机淘宝,输入产品主关键词,下拉框将出现一些热搜词延展词,这是系统根据用户的搜索喜好排序的,也可以作为标题优化的选词,具有相当一部分的参考值。5.竞品词主要流量词和成交词在生意参谋的“市场行情”中,选择“商品店铺榜”中的行业粒度,寻找价格款式相似的竞品,点击查看详情。

您如何为 SEO、PPC 或内容营销找到合适的关键字?

借助 Semrush 的最终关键字研究清单,我们将引导您逐步完成为您的 SEO、PPC 和内容营销活动构建最终关键字列表的过程。

我们将从您最初的关键字研究开始,最终根据搜索者的意图将您优化的内容策略映射到正确的关键字。

Semrush在我们的全球数据库中分析超过200 亿个全球关键字,使其成为开始关键字研究的理想场所。

只需问问这137 位专家,他们为什么喜欢 Semrush。

此清单提供了一个简单的过程,任何人都可以使用它来开始构建任何市场或利基中的目标关键字主列表。

所有你需要的是:

一个 Semrush 帐户Microsoft Excel 或其他类似程序

在这篇文章的正文中,我将详细介绍每个步骤的工作原理。要保存核对清单以供参考,请下载下面的 PDF 版本。

经过一些练习,您将在不到 30 分钟的时间内使用我们的关键字研究工具的功能并生成主列表。

1. 在搜索栏中搜索您的主要关键字

先说第一件事。想想您认为人们在访问您的主页之前会在 Google 中输入的单个单词或短语。

也许它是您的网站销售的产品、您的客户面临的常见问题或您的网站回答的问题。确定最能代表访问您网站的好处的关键字,并使用它来开始此过程。最终,一个 1-2 个单词的短语将最有效。

请记住,关键字研究应该灵活且富有创意,因此您始终可以使用不同的关键字重新开始该过程。

当您在 Semrush 搜索栏中输入关键字时,界面会显示关键字概览报告。

例如,假设我们经营一个提供园艺建议和产品的网站。我将从“番茄植物”开始进行研究过程。

GoogleSEO终极关键词研究清单

从此仪表板中,您可以找到 Semrush 拥有的有关关键字“番茄植物”的所有数据都显示在顶部:

每月搜索量结果数每次点击费用搜索意图比赛水平季节性趋势

下面预览了关键字变体、问题和相关关键字,它们将为您提供关键字提示的扩展列表。如果您单击这些预览小部件之一,您将打开下一步的关键字魔术工具。

2.使用关键字魔术工具查找长尾关键字

SEO 和 PPC 专业人员根据关键字的流行度和特异性将关键字分为三个主要类别;下图的“头部”、“主体”和“长尾”衡量关键词的搜索量和转化率。

中心词,也称为“短尾”,通常是一两个没有明确意图的词搜索短语。

身体短语稍微具体一些,通常包含更多的单词。搜索查询中的单词越多,您就可以开始更清楚地了解搜索者的意图。

长尾关键词一般包含三个或三个以上的词,搜索量较小,说明搜索者的特定情况或意图。

考虑这些关键字的最简单方法是使用下图。

GoogleSEO终极关键词研究清单

在这个例子中:

中心词:“番茄植物”是一个具有高搜索量的高级查询。

正文短语:“待售番茄植物”/“何时种植西红柿”显示特定意图,平均搜索量较低。

长尾:“为什么番茄植物变黄”是一个非常具体的查询,搜索量甚至更低。

这些被称为“长尾关键词”,因为它们位于图表右侧的长“尾”中,因为搜索量通常很低,但潜在转化率很高,因为查询显示了非常具体的意图。

一般来说,随着搜索量的减少,出现更多的长尾关键词,转化率就会提高。

营销人员可以优化他们的内容以匹配长尾关键词以获得更高的潜在转化率,而不是那些具有大量搜索引擎优化和付费竞争的头部关键词。

你如何找到这些高潜力关键词?在 Semrush 上查找长尾关键字的最佳方法是使用关键字魔术工具。此工具根据输入的关键字生成扩展搜索短语列表。

例如,让我们看一下关键字“番茄植物”的关键字魔术工具报告。如果您有 Semrush 帐户,请单击此处查看此报告。

GoogleSEO终极关键词研究清单

从这里我们可以看到一长串基于短语“番茄植物”的关键字,按搜索量排序。

这意味着当您向下滚动报告时,您会发现不太受欢迎和更具体的关键字。

您还可以使用以下内容过滤您的报告:

问题过滤器匹配类型过滤器左侧的子组筛选关键字难度 (KD%)、CPC、意图等指标。GoogleSEO终极关键词研究清单

与正文短语“何时种植西红柿”(4.4k)和“待售番茄植物”(4.4k)甚至头部相比,长尾短语“为什么番茄植物变黄”的音量(1.6k)较小短语,“番茄植物”(49.5k)。

GoogleSEO终极关键词研究清单

虽然长尾短语的数量最少,但由于查询的具体程度,它将是一个更容易定位的关键字。

为了改变访客,我们会告诉他们黄色植物的一个可能原因是土壤中的氮含量低。然后,除了回答他们查询的信息之外,我们还可以提供解决方案,例如用于检查土壤中氮含量的测试套件。

看看它是如何工作的?

用户意图越明确,您就越容易定位关键字,也就越容易为用户的问题提供相关的解决方案。

我们将在此清单的第 9 步中解释用户意图如何融入您的营销渠道。

3. 对关键字难度 (SEO) 或竞争密度 (PPC) 应用过滤器

也许您在浏览这一长串关键字以找到最现实的目标时遇到了麻烦。幸运的是,Semrush 提供了过滤器,可让您剔除不值得花时间的竞争激烈的关键字。

在每个关键字报告中,都有两个衡量竞争的有用指标:

SEO 的关键字难度从 0-100 测量PPC 的竞争密度从 0-1.00 测量

较高的关键字难度分数意味着在结果的第一页上有权威域名排名,并且很难在有机结果中超过网站。

较高的竞争密度分数表明有大量域名竞标该关键字。

要尝试为具有高每次点击成本和高竞争密度的关键字对 PPC 广告进行排名,您需要进行昂贵的出价并设置一个完美优化的着陆页。相反,您应该专注于定位竞争密度低的关键字来开始。

对于 SEO,您应该专注于定位关键字难度较低的关键字。通常,较长的关键字与较低的关键字难度和竞争水平之间存在相关性。

在我们的示例中查看竞争和难度级别的比较:

GoogleSEO终极关键词研究清单

随着短语变得更加具体,关键字难度和竞争密度降低。

有趣的是,尽管竞争密度最高,但“待售番茄植物”的有机难度得分低于“何时种植番茄”。

在这种情况下,通过 SEO 工作而不是广告来定位“待售番茄植物”可能会更容易。

要仅分析最具针对性的关键字,请应用过滤器以剔除关键字难度和竞争密度得分较高的关键字。

这两个指标的过滤器可以同时应用于报告。请参阅下面的示例,在其中找到过滤选项。

GoogleSEO终极关键词研究清单4. 为搜索者意图添加过滤器

Semrush 的这个新意图过滤器是一个独特的过滤器,用于分析和关注意图定位的关键字。

在四种类型的搜索意图的可以告诉你一个搜索者的背后进行搜索的目的。

信息意图表示有兴趣收集信息,而交易和商业意图表示有兴趣在未来采取行动或进行购买。

导航意图表示搜索者只是使用搜索引擎访问 Internet 上的特定页面或网站。

因此,根据广告系列的目标,您应该寻找不同类型的意图。

您想提高品牌知名度并建立权威吗?添加用于信息意图的过滤器,并查找您可以使用有用的教育内容定位的关键字。

GoogleSEO终极关键词研究清单

您是否需要更多能够带来转化的高意图流量?过滤交易意图以检查这些关键字。

GoogleSEO终极关键词研究清单

同样,这些过滤器可以与上述过滤器结合使用。例如,商业关键字过滤器+简单关键字难度可以发现吸引有价值流量的机会。

GoogleSEO终极关键词研究清单5. 将过滤后的列表发送到关键字管理器

这一步非常简单,但很有必要。每次生成过滤的术语列表时,请确保将其发送到关键字管理器。

这使您可以将所有研究合并到一个包含多达 1,000 个关键字的主文件中。从关键字魔术工具导出关键字时,您可以选择所有关键字,前 100 个、前 500 个或使用最左侧列中的复选框逐个选择。

GoogleSEO终极关键词研究清单6. 参考相关关键词过滤器查找更多主题

根据您的原始关键字找到短语匹配后,您将需要识别更密切相关的搜索。在搜索栏中保留主要关键字的同时,将短语匹配过滤器更改为相关过滤器。

此列表中的关键字基于它们与查询关键字的相关性或这些关键字的搜索结果与查询关键字的搜索结果的相似程度。

这使您可以找到更多与您的主题相关的搜索短语,这些短语甚至可能不包含查询中的主要目标关键字。

GoogleSEO终极关键词研究清单

同样,此报告可以通过关键字难度和竞争密度进行过滤。挑选出此列表中所有与您相关的关键字,并将列表发送到您的关键字管理器列表。

7. 对任何其他关键字重复步骤 2-6

重复您使用原始关键字的过程,但使用您认为网站应该定位的其他主题。

在搜索栏中输入您的第一个新主题,然后使用任何所需的过滤器提取另一个短语匹配报告。

收集另一个目标关键字列表后,导出列表并针对要定位的每个相关主题重复此操作。将您的所有导出发送到关键字管理器中的同一个列表。

8. 从关键字管理器刷新主列表的指标

下一步是从关键字管理器导出您的主列表。此工具的优点在于您可以在导出之前实际刷新指标,以确保导出的文件具有最新的指标。

只需点击列表上方的“更新指标”按钮,即可获取有关竞争水平、KD%、SERP 功能、点击潜力和顶级竞争对手的最新 Semrush 数据。

GoogleSEO终极关键词研究清单

列表更新后,这些行将变为绿色,您将看到最新的点击潜力和其他指标。

GoogleSEO终极关键词研究清单

接下来,将您的列表导出到电子表格文件。

当您完成 SEO 或 PPC 活动时,此电子表格将成为有价值的参考文件。

将有关键字、搜索量、关键字难度指数、CPC、竞争水平、结果数量和趋势的列。在此过程中,结果数量和趋势不会有太大影响,因此您可以忽略这些列或从电子表格中删除它们。

帮助组织电子表格的一个简单技巧是添加条件格式来为度量列着色。

首先,向文档添加过滤器并突出显示要设置格式的列。

然后,确保您在“主页”选项卡下并选择条件格式,以向衡量价值(数量、KW 难度、CPC 和竞争密度)的每一列添加色标。

GoogleSEO终极关键词研究清单

音量— 绿色代表高,红色代表低

KW 难度– 绿色为低,红色为高

CPC——绿色代表低,红色代表高

竞争密度——绿色代表低,红色代表高

为这些指标添加颜色将有助于您形象化并挑选出最现实和最有价值的关键词来定位。现在,您可以扫描最“绿色”的关键字,表示数量最多且竞争最少。如果您有大量关键字,下一步将更加乏味,但随着时间的推移会证明是有益的。

9. 按关键字意图聚类您的主列表并将您的关键字策略映射到意图

这最后一步使用了一些批判性思维,但对于最大限度地利用您的研究至关重要。

除了知道什么观众搜索(关键字),你要专注于为什么他们做这些搜索(意图)。

SEO 专家撰写了大量关于如何对意图进行分类以及如何区分具有低意图和高意图的关键字的文章。

搜索者意图本质上是在 Google 上搜索的人的目标。他们可能正在寻找一般信息、产品研究或网站进行购买。

Semrush 将关键字分为四类意图:

信息– 搜索一般信息或特定常见问题的答案。带有谁、什么、在哪里、为什么和如何的关键字表明了这个意图。像“西红柿”或“园艺”这样的单字关键词适合这个桶。导航– 搜索寻找特定的物理位置或互联网上的位置。“Tomato pie cafe harrissburg”适合这个桶,因为搜索者想要导航到特定的商店。商业– 希望调查产品、服务或品牌的搜索。“最佳”、“男士”、“女士”或其他产品修饰语通常表示商业意图。“西红柿的最佳肥料”就是一个例子。交易– 在最近的将来有强烈购买或采取行动(例如下载文件或注册时事通讯)的搜索。询问价格、优惠券、运费和交易过程的关键词构成了这个桶。例如,“买便宜的西红柿”。

关键字的意图越具体,向搜索者提供他们正在寻找的内容就越容易。

更进一步,搜索者的意图实际上可以与您的营销渠道保持一致。

最简单的方法是将四个意图桶映射到AIDA(意识、兴趣、欲望、行动)模型。与搜索者意图桶一样,AIDA 有四个阶段。

GoogleSEO终极关键词研究清单

意识(信息的一般知识)是漏斗的第一步,导致兴趣(对主题的好奇心),然后是欲望(想要解决问题的东西),最后是行动(购买产品,注册订阅) , 等等)。

一旦确定了关键字的搜索者意图,您就可以对它在转化漏斗中的位置进行分类。策略中的每个关键字也在营销漏斗中占有一席之地。

GoogleSEO终极关键词研究清单

返回到您的关键字列表,现在按意图对列表进行排序。您可以从这里做的是计划您的网站/营销策略,以使您的消息传递与每次搜索的意图保持一致。

转化的四个不同阶段应针对您网站的不同区域,通过确定适合转化漏斗每个步骤的关键字,您可以进行优化的营销活动。

例如,您可以使用回答人们问题的教育性顶级内容来定位所有信息查询。

对于导航关键字,您应该检查以确保每次搜索都可以轻松找到您的网站。如果不是,请查看如何优化您的品牌/整体知名度,尤其是当您的网站存在技术问题时。

最后,商业和交易搜索可以通过付费广告和着陆页更积极地定位,使有意购买的搜索者更容易做出购买/购买决定。

1.收集同类网站,然后查看它们的标题和描述中的关键词

2.GOOGLE上搜索产品名称+importer OR buyer

3.site: basket找到这个网站上排名高的分类,然后在这里使用地址栏上的关键词更新产品

4.从其它同类网站的页面上分析产品关键词的选择

5.google等相关关键词分析工具的使用

6.如何想办法搞到英文页面的关键词来源统计

7.在ebay和amazon上搜索产品关键词,这样子也可以联系到客户

8.通过外贸营销与建站的网站提供的成功案例,分析其关键词设置

9. 从网站上找产品描述的内容

10.通过b2b平台的关键词搜索提示功能来找更多的关键词

11.将所有的搜索关键词分类加入到收藏夹中,不时点击进去,看自己的产品有没有排上名

12.使用yahoo相关关键词搜索功能发掘关键词,并在产品描述中加入这些关键词

13.收集同行网站,分析他们的关键词使用,并借鉴其产品描述

14.关键词分析网站

1、 Google 全球商机洞察,可以提供来自全球互联网搜索的数据

2、 Ubersuggest,一个被Neil Patel收购了的强大关键词研究工具,能清晰直观的了解关键词的竞争强度;

3、 Kwfinder,挖掘关键词以及查询关键词竞争难度的,究极好用的谷歌关键词工具;

4、 Keyword Keg,关键词挖掘工具,附带关键词准确的月搜索量,同时帮你挖掘来自youtube、bing、亚马逊、问答平台的关键词。

5、 Keyword Revealer,长尾词挖掘及关键词分析;

6、 Moz,工具主要有两种,一种是关键词工具,跟kw类似,但是不如kw好使,一种是外链分析工具,跟ahrefs类似,但是不如ahrefs数据全更新快;

7、 Serpstat,谷歌SEO、竞价及内容营销全能工具,功能包括外链分析、排名追踪、关键词研究、竞争对手分析以及站内SEO智能分析;

8、 Raven,功能跟Serpstat一样,SEO、竞价、社交等综合分析工具,可以将众多工具(谷歌站长工具、AdWords、谷歌分析以及Facebook ads等)全部接入后台,并且支持自定义报告。同时也是非常著名的站内SEO问题检查工具;

给大家分享一款开发客户的的工具(注册可使用),接口谷歌地图实时搜索客户信息,结合搜索引擎以及社媒深度挖掘邮箱,主要是可以找到决策人邮箱这块,另外还包括了领英群控可以自动加好友群发消息。

1.点击“重新定位”按钮,输入要搜索的城市,点击定位。

2.输入“行业关键词”点击搜索,即可搜索到采购商的网址、联系方式。

3. 挖掘决策人的邮箱及其他联系方式。

每天更新一则客户开发技巧,欢迎关注【Fanny外贸人】!有不了解的地方,欢迎文末留言交流!

对此您怎么看?欢迎文末留言交流

- END -

往期回顾

MFSHOP:SEO成功秘诀 —— 关键词研究与分析 正文:

一、为什么要研究关键词?

无论是做SEO优化还是广告投放,在开展工作之前,我们首先都必须研究关键词。因为你至少要先知道哪些词是你的目标客户在搜索的,有流量的,才能继续接下来的工作。关键词研究就是要去找到这些值得关注的关键词。

一个值得我们去下功夫的关键词一定要满足:

(1)这个关键词有一定的搜索量。我们花大量精力去做优化的词,最后发现根本没人搜索,那就太浪费时间了。比如公司名字或不含通用词的产品名在打响品牌知名度之前不太会有用户去搜,就没必要拿去做优化。

(2)这个关键词的优化难度在你的能力范围内。这里要说明的是,有一定搜索量的词,不代表就是最热门的词。比如,“运动鞋、汽车、家居”这样大的产品类目的词,搜索用户非常多,但它的优化成本过高,需要花费大量时间、人力和资金,对于小企业和个人卖家来说难度太大。

(3)这个关键词要能够给你带来流量。你可能会疑惑:一个关键词有很大的搜索量,难道不能给网站带来流量吗?还真不一定。比如你是一个销售LED灯具的独立站,搜索”LED lights”这个关键词的用户,也许是你的潜在客户,但他也可能是LED生产厂家的工作人员。搜索“律师”这个关键词的不一定是寻求律师服务服务的客户,也可能是准备律师考试的学生。

(4)这个关键词带来的流量是有商业价值的。一个词能带来流量不等于能带来商业价值。比如:用户搜索buy basketball shoes 这个词很大概率是想买篮球鞋,这个能带来的商业价值就比较高。用户搜索best basketball shoes 意味着有一半概率是想买篮球鞋,不过现在还处于对比阶段,不确定要买什么篮球鞋,这个词带来的商业价值中等。用户搜索what is basketball shoes ,可能还不了解篮球鞋是啥,或者只是想了解下篮球鞋,不一定有购买意向,所以这个词带来的商业价值比较低。

(5)关键词多样性。同一个关键词,用户的搜索习惯和我们认知范围内的热门词可能不同。如热门词“英语培训”,用户有了更明确的需求,可能会搜索“雅思/口语培训”;甚至用户的搜索词长度变得越来越长,如“上海浦东口语培训”,所以,企业在做关键词优化时,要尽可能考虑全面。

二、如何选择关键词?

1、核心关键词筛选的“三要”与“三不要”

相关的关键词

关键词要与网站内容和产品有相关性,高契合度有助于 Google 排名。

热门的关键词

紧跟实时热点,搜索热点,抓取第一波流量。

难度低的关键词

一般搜索量相对不是很高的关键词,以长尾关键词居多。这样的关键词竞争对手一般不会特别多,难度较小。

关键词避免太宽泛

过于宽泛的关键词往往竞争激烈。如何进行具体地判断?你可以在谷歌上输入该关键词,如果排名前十的网站均为大型网站,那么说明这个关键词的竞争较大,不适合新手。同时,太宽泛的关键词往往不够精准,不能为网站带来的高转化的精准流量。

关键词避免太冷门

个人的品牌名、自定义的产品名等这类搜索量过低的关键词,没必要浪费时间进行优化。同时,特别长的关键词,可以用于产品页的优化,但是作为核心关键词不太合适。总的来说,建议选择搜索次数多,同时竞争小的关键词。

关键词避免过于专业化

很多新手商家容易犯一个错误:选择过于专业的词汇。而有意向购买的客户往往并没有那么高的专业性。这样容易造成网页流量过低,或者进入网站的流量多为无效流量的现象。

针对于刚开始进行 Google SEO 优化的网站,由于还没有太大竞争力度,建议可以先使用竞争低难度小的长尾关键词。

【更多内容 点击查看】

如果不看细分的话题的,大类的分类可以分为以下几类:

1.电影https://www.zhihu.com/topic/19550429/hot

2.经济学https://www.zhihu.com/topic/19560170

3.健身https://www.zhihu.com/topic/19552192

4.旅行https://www.zhihu.com/topic/19551556/hot

5.自然科学https://www.zhihu.com/topic/19553298/hot

6.互联网https://www.zhihu.com/topic/19550517/hot

7.设计https://www.zhihu.com/topic/19551557/hot

8.美食https://www.zhihu.com/topic/19551137/hot

9.心理学

其实作为新用户,刚开始系统也会向你推荐这些大类选项,你在关注以后就可以在推荐里看到相关的内容,当然作为一个开放的平台,浏览到的内容质量也是良莠不齐,需要自己去慢慢发掘有价值的回答

你们想要的答案都在这里!!!针对这个问题,分享一篇我看过的文章,你们所问到的关于关键词的问题,答案都在文章里!作者是曾阿里巴巴流量负责人,有着16年的流量经验。

文章里面全是干货硬货,非常具有启发性!这里只截取了第一部分,文章后面还讲了关于搜索引擎营销是一个什么样的流量世界、怎么做好SEO和PPC、如何做基于关键词和基于关系链的流量方法等等大家都很关心的问题。有兴趣的朋友可以直接点击下面的链接,阅读全文喔。

对于做内容推广来说,最根本也是最基础的一部,就是标签定位。也只有找到精准的关键词,才能为文案提出内容决策,从而达到效果。但说起来容易,做起来难,很多企业在做内容推广的过程中,发现根本不知道什么是关键词,所以在内容推广过程种“盲人摸象”的感受。作为一个合格的内容推广人员,小编特别推荐热点传递这个平台,尤其是关键词定位这个事情,他们有专门的团队来制定方案,从而解决很多企业的难题,具体他们是怎么做的?我们不妨来了解下。

借助关键词找准目标人群

都说条条大路通罗马,在内容推广上也是如此,但想要找到精准用户这个“罗马”,你至少要在一条合适的“路”上,而这个路就是能够链接你与“罗马”之间的关键词。在热点传递平台这里,他们有专门的顾问团队来寻找与企业之间匹配的关键词设定,可以根据你提供的资料和信息,来了解你的受众群体,从而知晓“他们需要什么”“他们的方位”“他们的诉求”,进而重新优化关键词,寻找到更加精准的目标群体,让你的内容更加快速且直接的推送到用户哪里,精准曝光产生转换。

优化内容增强人们关注度

当我们挖掘到了用户渴望的内容,就要根据他们的需求来制定文章。但如何撰写文章却难倒了很多企业,由于并没有经受过专业的文案培训,所以不知道写什么内容更受用户欢迎。那不妨尝试将内容交给热点传递来负责撰写。这里配备了资深的内容编辑,会根据企业的品牌内容再结合当下的实时热点来进行优化撰写,以趣味性的信息和专业的角度,来增强用户的关注度,提升企业产品的宣传力。

海量推送打造亿级曝光

做内容推广的重点就是在于将内容投递出去,尤其是找准关键词定位后,更是如此。在热点传递平台,他们与百家大型媒体平台进行合作,可以一键式发送到多个平台领域,让内容更加广泛发送出去,做到真正的霸屏全网,打造更具精准的曝光效果,让企业的内容最大化推送,打造亿级曝光效果。

热点传递平台在此行业深耕16年,最擅长利用媒体新闻来优化打造内容方向,在结合优质的关键词精准推送到各个平台上,他们是资深的内容推广负责平台,如果你还搞不定关键词的问题,交给他们一定可以帮助你。

牛皮,学习下

025-85989270