中国IDC圈11月12日报道:关键词与文章之间的相关性是网站推广优化推广的一个重点,搜索引擎到底是如何判断关键词和文章之间的相关性呢。
第一,对网络推广的关键词的权重进行确定分析在完成对文章分词切分和净化工作之后,就要将文章所有关键词进行分析了,笔者的想法是网络推广的搜索引擎将文本表示成Ⅳ维特征向量,每一维分量由关键词及其权重组成。一般认为,关键词在文中的权重的确定,主要由三部分组成,词频,位置和词义共同影响决定。而词频和位置对词语或短语的影响可以通过确定的算法加以确定,词义权重也有固定的算法进行分析计算。网络推广的搜索引擎利用设定好的算法对上述关键词进行了计算和分析。从而得到最后的结果。
第二,搜索引擎要先分析对网页进行净化处理
这主要的是去掉网页中大量无用的广告、导航栏等网页模板噪声以及无意义的内容,如JavaScript脚本,CSS标记等内容。至于搜索引擎采用的是何种算法,则不为我们所知,但是个人估计应该是对网页进行划分为不同的快,通过衡量网页块的重要程度来判断出包含主题内容的块,然后提取出该块的内容,至于搜索引擎如何判别网页快的重要程度,那是另外一个课题。
第三,针对提取出的内容进行分词处理个人认为,网站推广搜索引擎可能采用了某种算法,对内容先进行了词语粗分阶段,先得出N个概率最大的切分结果;然后,利用角色标注方法识别未登录词,并计算其概率,将未登录词加入到切分词图中,之后视其为普通词处理,最终进行动态规划优选出N个最大概率切分标注结果。并进行记录。
第四,对初步分词的结果进行去除无意义的词语
网站推广搜索引擎通过对第二步的分词结果进行分析,去除一些语气词和形容词等非实意词和一些单词,同时还考虑到单字词所表达的信息不够完整也应当滤除。
总结:去除停用词通过建立一个停用词列表来实现。这样,通过去除这些无意义的词之后,剩下的就是有意义的,值得分析的词汇了。