中国IDC圈12月29日报道:在实践中,网页降噪就是要突出一个页面的实质内容的过程。我们先说说什么是网页噪音。
在对WEB上得到的一组页面集进行挖掘或聚类时,若一个网页所存留的副本,如镜像网站,复制的页面,及旧版本的页面也在此页面集中,则这些副本成为噪音数据。也就是说页面完全相同。我们称之为全局噪音。从经验上看,网页噪音,会给页面在搜索引擎收录、排名带来不少麻烦,一些因为噪音突出的网面,被搜索引擎放弃索引,一些虽被收录,也没能得到较为理想的搜索排名结果。
再看局部噪音:在一个页面内与页面主题无关的区域及项。这些噪音包括广告栏,导航条,修饰作用的图片等。
我们把网页中常见噪音信息分为这样几类:
a. 导航类:为了维持网页间的链接关系,方便浏览者对网站进行浏览而设置的链接。
b. 修饰类:为了美化页面而采用的背景,修饰图片,动画等.如站点标志图片,广告条。
c. 交互类:为了收集用户提交信息或提供站内搜索服务的表单等.如在线的问卷调查表。
d. 其它类:网页中声明的版权信息,创建时间,作者等描述性信息。
虽然网页中的噪音很多,且网页设计没有统一规范,但设计者大部分都将噪音信息放在页面中的次要位置,以突出主题.如版权信息一般在页面底部,广告栏一般在顶部等.这种设计习惯也为我们利用布局信息去除噪音带来了便利。
如何精准定义、判断页面中的噪点?给大家一个最简单的判断方法,即同时满足两个条件:与页面主体内容“非相关”尤其是多页面同时展现(模板化的),却又能被搜索引擎抓取的内容(公共信息、语句、图片、符号、代码等)都可以看作是该页面中的网页噪音;当然,判断这些噪音的影响程度,还要看其在页面中的占比程度,越高,则其影响越大。
如何处理、解决这些网页中的噪点?网页上的噪音,如果你稍有些经验,一眼便能识出八九,处理起来也较为简单:要么删掉,要么不让搜索引擎抓取到,要么改变内容使其与页面中的主体内容关联(各页面要差异化的),总之一句话,把页面最主体的内容提供给搜索引擎抓取(也就是让用户一眼看到你页面中最重要的信息)!