iduspider
Disallow: /john/
allow: /jane/
l 忘记了斜杠/
错误的写做:
User-agent: Baiduspider
Disallow: css
正确的应该是
User-agent: Baiduspider
Disallow: /css/
二、 Robots META标签
1、什么是Robots META标签
Robots.txt文件主要是限制整个站点或者目录的搜索引擎访问情况,而Robots META标签则主要是针对一个个具体的页面。和其他的META标签(如使用的语言、页面的描述、关键词等)一样,Robots META标签也是放在页面的中,专门用来告诉搜索引擎ROBOTS如何抓取该页的内容。
2、Robots META标签的写法:
Robots META标签中没有大小写之分,name=”Robots”表示所有的搜索引擎,可以针对某个具体搜索引擎写为name=”BaiduSpider”。content部分有四个指令选项:index、noindex、follow、nofollow,指令间以“,”分隔。
INDEX 指令告诉搜索机器人抓取该页面;
FOLLOW 指令表示搜索机器人可以沿着该页面上的链接继续抓取下去;
Robots Meta标签的缺省值是INDEX和FOLLOW,只有inktomi除外,对于它,缺省值是INDEX,NOFOLLOW。
这样,一共有四种组合:
其中
可以写成
;
可以写成
需要注意的是:上述的robots.txt和Robots META标签限制搜索引擎机器人(ROBOTS)抓取站点内容的办法只是一种规则,需要搜索引擎机器人的配合才行,并不是每个ROBOTS都遵守的。
目前看来,绝大多数的搜索引擎机器人都遵守robots.txt的规则,而对于Robots META标签,目前支持的并不多,但是正在逐渐增加,如著名搜索引擎GOOGLE就完全支持,而且GOOGLE还增加了一个指令“archive”,可以限制GOOGLE是否保留网页快照。例如:
表示抓取该站点中页面并沿着页面中链接抓取,但是不在GOOLGE上保留该页面的网页快照
例子:
# robots, scram
User-agent: *
Disallow: /cgi-bin
Disallow: /TRANSCRIPTS
Disallow: /development
Disallow: /third
Disallow: /beta
Disallow: /java
Disallow: /shockwave
Disallow: /JOBS
Disallow: /pr
Disallow: /Interactive
Disallow: /alt_index.html
Disallow: /webmaster_logs
Disallow: /newscenter
Disallow: /virtual
Disallow: /DIGEST
Disallow: /QUICKNEWS
Disallow: /SEARCH
User-agent: Mozilla/3.01 (hotwired-test/0.1)
Disallow: /cgi-bin
Disallow: /TRANSCRIPTS
Disallow: /development
Disallow: /third
Disallow: /beta
Disallow: /java
Disallow: /shockwave
Disallow: /JOBS
Disallow: /pr
Disallow: /Interactive
Disallow: /alt_index.html
Disallow: /webmaster_logs
Disallow: /newscenter
Disallow: /virtual
Disallow: /DIGEST
Disallow: /QUICKNEWS
Disallow: /SEARCH
User-agent: Slurp
Disallow: /cgi-bin
Disallow: /TRANSCRIPTS
Disallow: /development
Disallow: /third
Disallow: /beta
Disallow: /java
Disallow: /shockwave
Disallow: /JOBS
Disallow: /pr
Disallow: /Interactive
Disallow: /alt_index.html
Disallow: /webmaster_logs
Disallow: /newscenter
Disallow: /virtual
Disallow: /DIGEST
Disallow: /QUICKNEWS
Disallow: /SEARCH
如我们DZ的程序 的写法,大家结合上面的写法说明 应该能看懂
#
# robots.txt for Discuz! Board
# Version 5.5.0
#
User-agent: *
Disallow: /admin/
Disallow: /api/
Disallow: /attachments/
Disallow: /customavatars/
Disallow: /images/
Disallow: /forumdata/
Disallow: /include/
Disallow: /ipdata/
Disallow: /templates/
Disallow: /plugins/
Disallow: /mspace/
Disallow: /wap/
Disallow: admincp.php
Disallow: ajax.php
Disallow: digest.php
Disallow: logging.php
Disallow: member.php
Disallow: memcp.php
Disallow: misc.php
Disallow: my.php
Disallow: pm.php
Disallow: post.php
Disallow: register.php
Disallow: rss.php
Disallow: search.php
Disallow: seccode.php
Disallow: topicadmin.php
还有就是 GG的 Sitemaps,这个大家都知道而且DZ官方的插件区也有人发了这个插件对于 其他网站的朋友 可以找些在线生成的 或者是登录奇兵等软件根据你的网站生成的Sitemaps文件 然后去GG提交
行了 我又写了那么多 上面的不全是我自己原创不少技术性的内容是 我结合一些网上提供的资料 结合自己按照这些说明去做的分析和经验分享,许多不足之处还望高手和同行给于指点和批评,感激不尽!
最后要说的是对于还处于作弊,刷排名的朋友,你们有刷排名作弊的这些功夫不如去多研究研究技术,研究出来了你就真的会发现其实SEO并不是多么神秘的技术一旦你掌握了不但可以给你网站带来流量和排名的好处,你完全可以利用这一技术去赚钱了,不必去靠流量 靠广告联盟这种又累人有落伍的盈利模式了,为什么这么说?你可以去看看今天站长大会的一些报道!
老是觉得他多难多么高深,那么你永远都只能停留在现阶段,其实这还是一个思维方式的问题,不论是做SEO还是现实生活中的各种问题 只要你的头脑清晰明确是没有什么你做不到的事情的!为什么这么说?就向我说的 到处都是人在研究怎么推广 怎么宣传 怎么优化 等等话题,你不去了解其搜索引擎 PR ALEXA等排名的排名机制和原理,你再搞也是白答,也就是笨!用王通在他那本卖1200的书《GOOGEL排名秘籍》
说的 :“许多事情都是非常简单的,只是你不知道方法而已!"
上面的废话说完了,请各位站长还是要多多保重身体 ,身体是本钱啊,我们肯定一样每天20几个小时在线,这个身体 怎么受得了 再加上辐射,你现在说没事!额 那你的下一代就有事了!
虽然我们都一样经历的酸甜苦辣,但我们的目标是一样的 ,也是为了生活的更好!请大家关爱自己的身体,无论什么困难 你既然走向这个道路了就要坚持的走下去,我想不论什么只要你坚持不懈的努力 付出总有回报的!
最后引用落伍的一个兄弟的帖子
老子,是站长!你已经很优秀了!
并肩作战的站长朋友们
有着不同经历
有着不同过程
一步步走来
你付出了。。
为了自己的爱