?_20231127

中国IDC圈8月17日报道:天之道,其犹张弓欤?高者抑之,下者举之en馀者损之,不足者补之,天之道损有馀而补不足。人之道则不然,损不足以奉有馀。孰能有馀以奉天下,唯有道者。(道法自然)自然规律,就犹如射箭一样,弓位高了就往下压一压(高者抑之),弓位低了就往上抬一抬(下者举之)。用多余去补不足。人之道(规律),则不是这样。它是损不足去奉多余。什么样的人才能用有余去奉天下呢?唯有有道者。因此圣人为而恃,功成而不处,不会去想在众人面前立贤名,以均天下。搜索所遵循就是这样的一个规律。

据统计表明,近似重复网页的数量占总网页数量的比例高达全部页面的29%,而完全相同的页面大约占全部页面的22%,即互联网页面中有相当大的比例的内容是完全相同或者大体相近的重复网页有多种类型,这些重复网页有的是没有一点儿改动的副本,有的在内容上稍做修改,比如同一文章的不同版本,一个新一点,一个老一点,有的则仅仅是网页的格式不同(如HTML、Postscript)。内容重复可以归结为以下4种类型。

·  类型一:如果两篇文档内容和布局格式上毫无差别,则这种重复可以叫做完全重复页面。

·  类型二:如果两篇文档内容相同,但是布局格式不同,则叫做内容重复页面。

·  类型三:如果两篇文档有部分重要的内容相同,并且布局格式相同,则称为布局重复页面。   

·  类型四:如果两篇文档有部分重要的内容相同,但是布局格式不同,则称为部分重复页面。

所谓近似重复网页发现,就是通过技术手段快速全面发现这些重复信息的手段,如何快速准确地发现这些内容上相似的网页已经成为提高搜索引擎服务质量的关键技术之一。

发现完全相同或者近似重复网页对于搜索引擎有很多好处。

1.  首先,如果我们能够找出这些重复网页并从数据库中去掉,就能够节省一部分存储空间,进而可以利用这部分空间存放更多的有效网页内容,同时也提高了搜索    引擎的搜索质量和用户体验。

2.  其次,如果我们能够通过对以往收集信息的分析,预先发现重复网页,在今后的 网页收集过程中就可以避开这些网页,从而提高网页的收集速度。有研究表明重    复网页随着时间不发生太大变化,所以这种从重复页面集合中选择部分页面进行    索引是有效的。

3.  另外,如果某个网页的镜像度较高,往往是其内容比较受欢迎的一种间接体现也就预示着该网页相对重要,在收集网页时应赋予它较高的优先级,而当搜索引擎系统在响应用户的检索请求并对输出结果排序时,应该赋予它较高的权值。

4.  从另外一个角度看,如果用户点击了一个死链接,那么可以将用户引导到一个内容相同页面,这样可以有效地增加用户的检索体验。因而近似重复网页的及时发现有利于改善搜索引擎系统的服务质量。

实际工作的搜索引擎往往是在爬虫阶段进行近似重复检测的,下图给出了近似重复检测任务在搜索引擎中所处流程的说明。当爬虫新抓取到网页时,需要和已经建立到索引内的网页进行重复判断,如果判断是近似重复网页,则直接将其抛弃,如果发现是全新的内容,则将其加入网页索引中。

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2014-11-11 11:07:00
互联网 错过移动浪潮,Mozilla再战基于网页的虚拟现实
据《华尔街日报》报道,Firefox浏览器开发商Mozilla周一通过Oculus Rift演示了两项基于网页的虚拟现实体验:在线播放360度视角拍摄的纪录片《The Polar Sea》和操纵3D模拟 <详情>
2013-08-27 09:11:43
互联网 老站长分享网站权重达到8的网站优化方案
本文分享一位老站长的网站优化方案,如何让网站权重能达到8。 <详情>
2013-08-27 09:11:41
2013-08-23 09:03:48
互联网 用户体验是网站优化的核心所在
作为站长我们应该从这个场景中体会到站点运营的关键之道,的确这就是站点运营中至关重要的一环:访客的体验度。那么今天笔者就针对如何替我们的访客多想一点来运营我们的站 <详情>
2013-08-17 09:12:13
互联网 网站优化只靠内容更新能够维持关键词的稳定吗
随着网站优化技术的普及,如今的企业网站很少不通过seo获取流量的,可根据龙形接触的企业老总在谈到seo时,总是胸有成竹的说网站优化没有什么技术含量,只要每天坚持不懈的 <详情>
维谛收购Strategic Thermal Labs,强化液冷系统能力
2026-05-08 10:10:36
暴力测试!华为电力模块 5.0 直面 AIDC 五大痛点,以极限可靠,让 AI 世界坚定运行
2026-05-07 09:18:17
深度|泰国EEC数据中心产业链的七个重要发现
2026-04-30 09:31:23
重磅 | 尚航科技助力“东数西算”苏南算力集聚区惠山节点正式揭牌!
2026-04-29 17:23:13
25MW!吉宝浮动数据中心在新加坡开建
2026-04-29 11:42:57
官宣:8月,2026中国智算产业绿色科技年会定档上海!
2026-04-29 10:40:23
白皮书重磅发布 | CIDC联合发布《AI智能体赋能行业决策:趋势与实践白皮书(2026)》
2026-04-29 09:37:51
总投资达150亿元,阿里巴巴广东云计算数据中心河源源城区项目扩建公示
2026-04-28 09:45:30
5月27日·泰国曼谷,DIFGC 2026·THAILAND 正式启动|数字基础设施全球合作发展曼谷论坛
2026-04-28 09:19:00
从自动化到自主化运维 ManageEngine卓豪的“进化”与“坚守”
2026-04-24 11:09:08
NTT计划在东京外围打造日本最大超大规模计算集群
2026-04-23 14:27:10
东南亚算力产业竞争白热化 出海胜负手在哪?
2026-04-23 14:25:04
首个大型AIDC园区绿电直连储能项目落地!双登股份携江天数据迈进“算电协同“新时代
2026-04-23 09:48:22
450MW!DayOne签下印尼最大数据中心电力采购协议
2026-04-22 14:36:18
投资4.08亿元、算力规模450P,安徽宿州AI算力平台项目完成验收
2026-04-22 11:34:31