24小时咨询电话:0571-8802321710年专业网络服务供应商

资讯中心

- 直击网站建设第一现场,掌握全球化的消息 -

中文分词

分享 2017.11.29 浏览次数:4260次


  杭州网站设计--帷拓小编今天来和大家说说。“分词”,分词是中文搜索引擎特有的步骤。搜索引擎存储和页面处理内容及用户查询都是和以词为基础的。英文等语言单词与单词之间的空格作为天然分隔,搜索引擎索引程序可以直接把单词划分为单词的集合。而中文词与词之间没有任何的分隔符,一个句子中所有的词和句子都是联系在一起的。搜索引擎必须首先分辨那几个字组成一个词,那写字本身就是一个词。比如“减肥方法”将被分词为“减肥”和“方法”两个词。

 中文分词方法基本有两种,一种是基于词典匹配,另一种是基于统计。基于词典匹配的方法是指,将待分析的一段汉字与一个事先造好的词典中的词条进行匹配,在待分析汉字窜中扫苗到词典中已有的词条就匹配成功,或则说切分出一个单词。按照扫描方向,基于词典的匹配法可以分为正向匹配和逆向匹配。按照匹配长度优先级的不同,又可以分为最大匹配和最小匹配。将扫苗方向和长度优先混合,又可以产生正向的最大匹配,逆向最大匹配等不同方法。词典匹配方法计算简单,其准确度在很大程度上取决于词典的完整性和更新情况。

基于统计的分词方法指的是分析大量的文字样本,计算出字与字相邻出现的统计概率,几个字相邻出现月多,就越可能形成一个单词。基于统计的方法的优势是对新出现的词反应更快捷,也有利于消除歧义。

基于词典匹配和基于统计的分词方法各优劣,实际使用中的分词系统都是混合使用两种方法的,快速高校,又能识别生词,新词,消除歧义。

中文分词的准确性往往影响搜索引擎排名的相关性。比如百度搜索“搜索引擎优化”如下图可以把百度“杭州网站建设”这六个字当成一个词。

 

这种分词上的不同很可能是一些关键词排名在不同搜索引擎有不同表现的原因之一。比如百度更喜欢查询词完整匹配出现的页面,也就是说搜索杭州网站建设”时,这四个字连续完整出现更容易在百度获得好的排名。google却与此不同。下图

 

需要说明的是,快照只能在某些情况下帮助我们大致猜测搜索引擎的分词处理,但这不是一个通用可靠的方法,很多时候我们并不能从快照中看出搜索引擎是怎么分词的。比如在百度搜索一些很长的词或者句子,对于不同网站,百读快照有时候将整个句子标为同一个颜色,显然百度也不是将整个句子分为一个词。搜索引擎对页面的分词取决于词库的规模,准确性和分词算法的好坏,而不是取决于页面本身如何,所以seo成员对分词所能做的很少。唯一能做的是在页面上用某种形式提示搜索引擎,某几个字应该被当作一个词处理,尤其是可能产生岐依的时候,比如在页面标题,hl标签中及黑体中出现关键词。如果页面是关于“和服”的内容,那么可以把“和服”的内容,那么可以把“和服”这两个字特意标为给体。如果页面是关于“化装和服装”,可以把“服装”两个字标为黑体。这样,搜索引擎对页面进行分析的时候就知道标为黑体的应该是一个词。

最新网站案例

洞悉市场趋势演变让传播回归社会

    免费获取网站建设与网络推广方案报价

    • 关于我们

      杭州帷拓科技有限公司,是一家新型的全案网络开发公司,作为以互联网高端网站建设、APP开发、小程序开发为核心的专业网络技术服务供应商,帷拓科技致力于全面分析市场环境、衡量与预测市场需求、整合区别于行业竞争对手的绝对优势,结合品牌理念深度挖掘项目优势和产品价值,提升客户品牌认知、认可度。

    • 我们的客户

      帷拓科技历经十年沉淀,与国内外上千家客户达成合作关系,其中稳定合作的公司有:浙江华为、浙江移动、浙江5G产业联盟、浙江省社科院、绿城足球俱乐部、娃哈哈双语学校、健康中国杭州峰会、科雷机电等,帷拓科技始终坚持“帷有专业,才能拓展无限”的服务理念,坚持“认真坚持细节”的优质服务理念,不断完善自身,成就企业,最终实现共赢。

    • 我们的业务

      帷拓科技主营业务范围包含互联网高端网站建设、APP开发、小程序开发、商城网站建设、公众号运营以及数字营销等,涵盖了服务、房产、数码、服装、物流贸易等行业,根据品牌现状,为每个客户量身定制项目整体服务方案,以敏锐的市场洞察力、创新的市场策划能力,全面把握市场变化,为客户实现从企业到消费者的价值转换。

    Designerpart Designagentur
    Designerpart Designagentur
    Designerpart Designagentur
    Designerpart Designagentur
    Designerpart Designagentur
    Designerpart Designagentur