公司地址:广安市广门路433号(思源广场下行50米)
联系电话:1838 1111 687    189 826 22989
网站:发送消息客服①发送消息客服②   技术:发送消息客服①  发送消息客服② 广告:发送消息客服① 投诉:发送消息客服①
网站建设 软件开发 会员管理软件 户内外广告制作 域名、服务器 短信、邮箱、QQ群发
  建站常识
  服务范围
  相关信息
  联系方式
工作时间:9:00-17:30  周1-5
即时联系:18381111687
Email:master@kcwl.net
公司地址:广安市广门路433号
当前位置:首页建站常识 网站推广 》SEO技术分享之搜索引擎的中文分词技术

SEO技术分享之搜索引擎的中文分词技术

发布时间:2014/12/23 9:28:54    浏览次数:2486    tag标签:

     上次给大家说了什么是爬虫以及爬虫的发展史,相信看过的朋友们都有所了解了。那么蜘蛛把抓取到的网页是要经过系统的分析的才会给索引出来。那么分析中,就有一项非常重要的技术了,那就是搜索引擎蜘蛛的分词技术,百度的分词应该也是用的这个技术。
    那么什么是中文分词呢?其实任何文档都可以看过是一些连续的词的组合,然而中文并没有铭心啊的词间分隔,与英文不同。在中文的语法中,词汇是由两个以上汉字组成的,并且句子是连续书写的,句子间还有标点分开。所以这就要求在自动分析文字时,先要将整句话分隔成词汇,这也就是中文分词了。
    那光说可能大家还不是很能理解啊,给大家举个例子就明白了。“学历史学好”这是一个句子。我们很容易的就能分开这个词,“学/历史学/好”。但是搜索引擎的分析系统还没有这么牛逼啊,搜索引擎发展到的今天充其量也就是个幼儿的智商水平,它是不可能按照人的意思去分成这样的。它有可能会分成“写历/史学/好”。
    目前的搜索引擎分词技术主要依靠的是字典和统计学。由于索引是按照关键词建立的,所以分词的效果决定着索引词以及搜索的效果。如果搜索引擎分词技术把“学历史学好”错误的分成“学历/史学/好”,当我们在查询“历史学”这个关键词的时候,就无法检索出这个文档,所以有此可见分词在搜索技术中的重要性啊。


上一条:合格网编基本操作规范你做到了几点?
下一条:提高关键词排名的28个SEO技巧
网站建设网站推广微信营销户内外广告会员管理软件短信群发成品网站域名、虚拟主机、服务器
业务形式:广安网站建设、岳池网站建设、邻水网站建设、武胜网站建设、华蓥网站建设、广安做网站、广安网络公司、广安广告公司
Copyright © 2010-2014 kcwl.net     广安市客创网络有限责任公司     版权所有