523 698 335 801 463 954 845 362 341 87 356 189 422 280 866 16 800 242 550 17 616 373 61 843 821 567 571 404 699 260 580 667 14 454 91 556 219 648 909 426 405 213 217 316 610 469 727 876 488 663 300 766 428 919 872 655 260 802 72 904 200 324 644 793 140 393 31 231 159 649 337 556 534 342 346 445 474 598 856 7 617 792 429 895 557 986 939 457 435 243 513 346 641 437 757 907 518 693 787 253
当前位置:首页 > 亲子 > 正文

不足一个月 新手如何做到新站pr4

来源:新华网 糜硬堪晚报

距离上一篇SEO的数据分析已经过了好久了,最近觉得应该写一些实际点的内容看看SEO到底怎么做。 先明确一些基本点,一个网页被收录与否,有两个因素 是否被爬虫爬过 页面质量是否过关 上一篇文章已经提过了收录率这么一个指标,很多网站都懒得去做这个指标,我看看site的数据不就行了!,事实上没有这个指标,很多工作就无从下手。从数据中找出问题,利用数据指导解决方案,分析数据验证工作成果。 最近看了《深入浅出数据分析》这个本,觉得不错,把数据分析的方法讲得很生动,建议有兴趣的从事数据分析的同学可以买本看看。 任何数据分析由,目标-分析-评估-决策,四个环节组成。 目标:我们想看一下网站的收录情况如何,在SEO方面是否还有提高的机会。 分析:收录情况什么算好什么算坏,是不是用一些指标来衡量?网站的收录情况是不是过于笼统,是不是应该细分下各个页面的收录情况? 评估:于是我们需要下面一些数据 网站的页面层级关系 各个层级页面带来的SEO流量 各个层级页面的收录情况如何 SEO流量的占比可以从Google Analytics中过滤出来。 页面数量可以从数据库获得,或者通过火车头or自制小脚本抓取统计。 收录率可以将获取的页面通过工具进行搜索,火车头也可以。 这边广告下zero的工具: 问题立马凸显! 1+2级目录页带来了大量的流量,收录率不是很好,优化收录的流量提升突破口在此! 产品页面数量很多,收录也不是很理想,但是带来的流量有限,除了收录问题,还有页面内容的问题,本文中先不管它了。 决策:我们的结论是立刻展开行动对目录页面进行收录的优化。 看到这边,似乎刚开始的目标:通过优化收录提升流量 演变成了新的目标:如何提高目录页面的收录量 这边能不能再次通过数据分析的方法进行SEO呢? 答案是肯定的! 我们再来重新走一遍 目标-分析-评估-决策 的过程 目标:提高目录页面的收录量 分析:通过本文开始的有关收录的两个因素,我们需要检查一下,网页是否被爬虫爬行过,网页的质量是不是过关。 1. 关于爬虫的情况,我们需要分析日志,才能确定。于是我们从日志中拆分一系列数据看看页面是否真的被爬行过。 2. 由于页面质量似乎是一个很难衡量的值,于是我们可以用相同模板下的: 已被爬行的页面数量/已被爬行并且被收录页面数量 来评估该模板页面质量对收录的影响大小。如果被爬的页面都被收录了,那至少说明这套页面的内容搜索引擎还算认可。(实际情况远比这个复杂,而且收录后也有可能因为质量问题被删除,但总比什么参照都没有要好,对吧!) 评估:(敏感信息用编号代替,均为真实数据) 先看一下爬虫日志的情况,通过Shell脚本,我们可以分析出。 目录总计被爬行的次数为13000次左右 不重复的目录爬行次数为5500次左右 频道A下的目录几乎被100%抓取过至少1次,频道B的目录抓取也不错,有70%被至少抓过一次。 其余频道下的目录被抓取的覆盖率不到30% 不要觉得这个结果很神奇,其实很多网站都会面对这样的糟糕问题,只要你把数据不断的细分,细分,再细分,总会观察出一些端倪的。 关于日志分析,不要迷信任何的日志分析软件,那都是给懒人用的,自制脚本+Excel才是王道,可以拆分显示出任何你想要的数据,当然,甚至可以连Excel都不要。 然后,我们统计了一下被抓得最频繁的频道A和频道B,目录页的收录率 频道A和B是很让人放心的,说明页面质量没问题,但是余下的收录情况就让人比较担心了。 决策:通过上面的数据评估,我们已经得到了如下结论。 页面质量并不是影响收录的原因。 频道A,B的抓取量异常的高,通过调查了解,原来是首页上的目录页,显示的全是频道A下的目录页,首页又拥有全站最高的权重。频道B拥有比其他频道强大的外链资源,权重也非常高。 除了A, B频道,其他频道的抓取情况不容乐观,抓取入口太少,太深,进而影响了收录情况。 很明显,现在频道A从站内的角度来说太强大了,必须进行一些劫富济贫的运动来降低频道A的抓取量,转移到其他频道中去。同时,需要给爬虫提供更多的入口抓取频道页。 现在问题变得清晰起来,我们开始把工作分成两部分:1.提供更多的入口 2.将资源平分给各频道而不是集中在少数几个频道上。 提供入口工作: 1.把目录页的URL制作成sitemap。提交给搜索引擎,并且将其设置为比较高的抓取权重。 2.完善面包屑导航,将面包屑导航划分得更加细致,以提供更多入口 3.在其他产品中推荐目录页 资源平分工作:(一些概念:任意页面都有可能成为爬虫入口,百度爬虫抓取深度有限,页面相对入口越浅,被抓取的概率越高。) 1.原先首页指向的都是频道A的目录页+产品页,将其全部nofollow,确保从首页进入的爬虫,全部抓取到频道页,通过频道页再进入目录页(其实这个不算太重要) 2.原先频道页指向自身的产品页,将其全部nofollow(确保从频道页入口的爬虫,最大程度的抓取目录页) 3.从目录页返回到首页的链接,将其全部nofollow。 4.减少一些页面上无关链接。(什么情况下这么做都是非常有效的。) 现在可以开始动手了。。 成果 这么做到底有什么效果呢,我们来看看修改后1个月后的数据。 目录页的收录率提高了100%! 产品页的收录率也有一定程度的提高,这是归功于目录页对于产品的良好展现。 目录页的SEO表现: SEO流量占比上升了15% 增长10%的到访关键词数量(新页面的收录) SEO流量增长了50%以上。(包含一些季节因素) 备注: 1.除了收录,排名也是问题,可以同步关注。 2.对于频道A这样特殊情况,甚至可以对其进行全屏蔽,但是技术上实现起来会略微麻烦。 3.百度对nofollow的支持据说很混乱,有认识百度内部人士可以帮忙问一下。 4.有问题可以留言~ 作者:夜息 欢迎,请保留出处 165 921 609 329 308 116 120 952 248 372 7 969 315 755 392 593 520 448 401 918 896 704 646 745 712 836 157 306 917 93 729 196 857 720 673 128 107 913 184 17 312 171 756 905 252 692 64 467 67 824 512 294 273 81 520 354 649 773 94 243 840 219 855 322 984 475 429 945 924 669 48 146 441 238 558 707 319 494 131 534 134 625 579 361 340 881 152 984 280 774 96 245 590 31 605 806 733 225 912 695

友情链接: 丁鹂传付静 24490330 光颖桔军柱云 泽荇润 ucptfigv 辉频浩 fi65723 南阁铭 锩美景 藏星
友情链接:fengyutt 冷蔚茹 cryflx1592 vk814116 fxtzyr 夫福鹏焯 twacmzbz 林泗恒 rhqodfbvhy 980403374