中国IDC圈6月9日报道:收录就是搜索引擎抓取一个页面到结果的索引库内,包括一个页面的关键字,标题,以及内容。只有已经被收录的页面才会出现在搜索结果中。
引擎是怎么收录页面的?提交页面吗?
每个搜索引擎都会有相关的爬行器(也叫蜘蛛、网络爬虫等)抓取页面。它能分析页面,页面的内容分析。如果你的是新站,你可以到搜索引擎的登陆页面提交首页即可,因为搜索引擎会顺网站首页的链接抓取你网站所有的页面。不必每个页面都去提交。
每个页面一定收录吗?
不一定,爬虫只会收录它认为对用户有用的东西,一般原创的文章比较受欢迎,新站最好是采用原创战略来吸引爬虫,如不能达到要求也可伪原创(“伪原创”详情可登陆百度百科)。
我的页面内容是原创,为什么引擎不收录或收录了第二天就删除了。
这个问题有很多种可能,最常见的就是别的网站权重比你高,而转载了你的内容而在转载的时候在文章内没有指向你网站的链接,搜索引擎认为权重比较高的网站才是原创。所以就把你的原创删了。还有一种可能就是你的文章确实是你敲键盘敲出来的,但是网络上却有了和你相似度较高的内容,而新站权重较低,你的原创被搜索引擎认为是低质量的内容,所以就出现了这样的问题。还这可能是关系到引擎的个性。如果谷歌的个性是收录比较容易,得到排名却比较难,排名在一万以后。而百度的个性则时收录要求较高,排名都很容易。
如何才能让爬虫更好的收录网页呢?
在收录这些说法中,网站的内容似乎是最重要的,但是内容做好了,那么就要解析一下自己的网站结构时候符合网络爬虫爬行。那就是网站的内链。最基本的内链接建设是:首页能到达任意一个栏目页,每一个栏目页都能到达首页和其他的栏目页(栏目页最好不链接到另一个栏目页的内容),每一个页面都能连接到首页。同种栏目的内容页应当能排列链接(如果这个栏目只有4篇内容的话那么链接应该是这样的A-B-C-D-A)内容页一般不指向其他栏目的内容页(如:A栏目的内容不链接至B栏目的内容,他们互相不链接。)
内容被蜘蛛收录了,我发现这个关键词不合适,能改吗?
最好是不改,要求发现可能会被删除,甚至会被降权,严重的会被K掉,这些很多网站都有典型的案例。
以上都是新手问题,希望大家多多交流。