找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索
网推大家坛 新闻 京东推广 查看内容

京东商品标题优化定文本相关度的主要因素

2015-6-23 13:45| 发布者: DZ世态炎凉| 查看: 120| 评论: 0

简介:自从2014年下半年我就开始关注关于京东的所有搜索培训,发现了到今日还是有不少的人在讲搜索的时候,花大量的篇幅以及时间在讲商品标题怎么去优化。并且给出了商品命名的固定格式和黄金法则,通过这种格式能让你的商 ...

自从2014年下半年我就开始关注关于京东的所有搜索培训,发现了到今日还是有不少的人在讲搜索的时候,花大量的篇幅以及时间在讲商品标题怎么去优化。并且给出了商品命名的固定格式和黄金法则,通过这种格式能让你的商品排名得以提升。在此我想发表一下我的观点:京东以及任何电子商务搜索引擎都不可能把重要的排序权重因子放在类似于商品标题这种商家可以随意自行修改的特征上面。原理我暂时先不阐述,我先贴出一个京东搜索引擎某一个关键词下各个商品标题的评分:


大家可以看到其实标题占商品总得分的比例本来就比较低,而且各商品的得分数值上面相差也不是很大,那么做标题优化真的就没有意义吗?我认为是有意义的,但是他的意义不是在于提升你的商品的搜索排名,而是通过标题的文本信息去刺激用户的购买欲望,提升转换率。因为标题,主图,价格,评论数,品牌是展示在搜索结果页的五个商品特征,也是首先映入用户眼帘的东西,所以他和其他特征共同决定了用户是否会点进你的商品详情页,然后购买。

还有有很多人会反驳说,即使相差不大,但是标题的得分我也拿到最高,怎么能让你的商品的文本权重提高呢?首先解释一下什么是文本权重:文本权重主要是比较用户搜索词和您的商品相关文本信息(商品标题,商品分类,商品扩展属性...)的文本相关度。决定文本相关度的因素主要有以下三个:

一: 词频 二:词的唯一性 三:文本长度

那么何为文本相关度呢?为什么由这三项因素决定呢?我先解释一下各个因素的具体含义,然后再对一些喜欢深究原理的朋友(技术路线的朋友)贴出扩展阅读的算法帖子来解释目前用的比较多的两个文本相关度算法(bm25算法,和余弦夹角算法)的公式和具体解释。

词频:搜索词在商品文本信息中出现的次数

词的唯一性:词在商品文本信息中出现的次数 / 总商品数

文本长度:就是商品文本信息的文本长度

通俗的讲文本相关度就是指两段文本的含义是否相近。文本的含义是由基本的语义单元也就是 词 次序组合而成。举个比较简单的例子,比如说下面这段文本:"长江市长江大桥",如果切分方式不同,含义也就不同, 它可以有两种解释:1. 长江市 长江大桥 (代表一座桥)2. 长江 市长 江大桥 (代表一个人)。所以比较两段文本的相关度可以转换成比较两段文本所构成的词的组合的相关度。如果两段文章的中心词们大多都相同,且同一个中心词在两短文章的中心程度都差不多的话,可以判定两段文章的意思差不多一样。那么如何绝对中心词的中心程度呢?如果一个词在这篇文章中出现多次,且只在这篇文章中出现,而且这篇文章还不是特别长,那么这个词其实就可以认为他是这篇文中的中心词。他的中心程度可以用一个术语来表示叫做:term weight(词相对文章权重值),那么term weight的计算公式一般都是这样:tf(词出现的频率)/idf(词的唯一性)/dl(文章的文本长度) 当然这都是简写。搜索引擎把用户的查询词也当做一段文本,商品的文本信息也当做一段文本,那么文本相关度就成了用户查询词相对于商品文本信息中的相关度。对于计算机来说,必须把它转换成数学模型才能得以计算,目前有两种比较流行的算法,我在这不细阐述,京东采用的是bm25算法,词频部分做了修改,因为不是我操手改的所以细节并不清楚。我估计就是设了个最大词频,避免叠词对文本产生过大影响。

但是我这篇文章的意义就是想说,大家不要把优化标题的精力放在提升排名上,也别相信什么固定标记格式可以提升排名,而是要大胆创新,用标题去吸引用户。

收藏 分享 邀请
鲜花
鲜花
握手
握手
雷人
雷人
路过
路过
鸡蛋
鸡蛋

看过本文的人还看过

推荐阅读

    返回顶部