拉力机设备
免费服务热线

Free service

hotline

拉力机设备
热门搜索:

钟强浅谈网站SEO中的分词技术

发布时间:2020-03-06 13:30:56阅读:来源:拉力机设备

记得之前刚开始接触SEO的时候就知道关键字出现在标题很重要。后来知道有分词技术这个说法,对关键词分词,对标题关键字安排都有很大的帮助。刚开始学习SEO的时候,会把重要的关键词一个一个堆积在标题,比如标题会这样写:站长网,个人站长,站长工具,站长下载,站长帮手中国站长网。这样写虽然是可以,但是用户看一个网站,一篇文章标题的时候最好是一句话就可以表达清楚,而不是简单的把关键词罗列出来,尽可能让用户读起来能够比较顺畅。

可以写成:中国站长网提供站长工具,下载和站长资讯,是个人站长们的好帮手。这里就涉及到对分词技术的理解了。

分词技术就是当用户提交一个关键词串给搜索引擎查询的时候,搜索引擎要对这个关键词串做一系列的匹配处理的一个技术方法。

搜索引擎查询处理方法

如果关键词不超过三个中文的话就直接到数据库索引辞汇里面查找,超过了三个中文汉字的话就用空格,逗号等分割开来。将用户提交的关键词串分割成若干个词来查询。

比如:丝兰卡假发网销售时尚、非主流假发品牌。搜索引擎就会分成丝兰卡,假发,假发网,销售,时尚,非主流,品牌,这类分词方法成为反向匹配法。

另外再查看这个词有没有重复的辞汇,有的话会省略掉。

比如:中国站长网提供站长工具,下载和站长资讯,是个人站长们的好帮手。会把出现的四次的站长作为一个词来匹配,默许为一个词。这个就是搜索引擎的查询处理。

分词技术发展到目前已很成熟的了,google是购买第三方公司的分词技术,百度是自己开发的分词技术,在中文分词这块百度要稍稍领先于google。英文的词与词之间是用空格隔开的。这个分词比较好做,比如:I am a Chinese,中文为我是1名中国人,搜索引擎可以辨认,chinese是一个单词,但是比较难辨认中,国,人是三个字要合起来才是一个词。另外中问分词也有人叫切词。

相干排序和搜索引擎

搜索引擎的工作就是把网页搜集起来,然后依照一定的规则进行排名,目前估计已有超过100亿的网页被收录,而且还在不断增加。搜索引擎就是把跟用户提交的关键词最相干的网页出现出来,我们看到百度的76页现象就是这个问题,由于把所有的网页都做排名的话没有多大意思,用户只要最相干的那部份就可以了。也可以叫相干排序。我们在做关键词分析的时候尽可能用相干度比较高的长尾关键词来做也是基于这点理论。

1、分词技术利用字符串匹配的分词方法可以分为3大类:

第一种正向最大匹配法,从浏览习惯左到右分词。

第二种反向最大匹配法,跟第一种反过来,从右到左。

第三种最少关键词分词法,就是说把一句话尽量分出少几个关键词。比如:丝兰卡假发网,销售时尚非主流假发会分出:丝兰卡假发网、销售、时尚、非主流假发。

搜索引擎一般会是上面的3种方法组合起来使用,尽量减少分词中的错误率,为用户提供匹配度最高的网页信息。

2、基于理解的分词方法

这种方法就是利用对全部句子的理解,通过对语法,语义,词义,描写等来理解用户的需求处理歧义的现象,也叫词义分词法,这种方法目前还不是很成熟,处于测试阶段。

3、利用统计分词的方法

这种方法就是利用本身数据库来长时间检测出那两个词同时出现的次数最多,相邻的频率最多的时候就有可能构成一个词。不过这个方法有时候出现的毛病也比较多,比如会常常看到一些,我的,之一,有的等,对这些词辨认就比较差了。百度的相干搜索功能对这个统计分词方法比较有帮助。

作者信息:我的丝兰卡假发网 silanka QQ:253354150

欢迎转载,转载请留作者信息,谢谢。

dsa

一体式预制泵站

yjv电缆价格

大码女装妈妈装