WordPress博客 三種Robots.txt寫法解釋 | 
    
| 發(fā)布時(shí)間: 2012/9/15 14:37:10 | 
|  
  使用Wordpress搭建的博客,利用robots.txt文件限制搜索引擎抓取部分目錄及文件,歸納大致有以下幾種方法。
 最簡(jiǎn)單的開放寫法 
不作任何限制,Wordpress站內(nèi)鏈接結(jié)構(gòu)比較合理,作為一般博客,完全開放就可以了,代碼: 
User-agent: * 
Disallow: 
允許所有蜘蛛訪問(wèn),允許訪問(wèn)所有內(nèi)容。Wordpress只要模板中鏈接設(shè)計(jì)合理,沒(méi)有需要限制的特殊內(nèi)容,推薦使用這種寫法。 
最簡(jiǎn)單的嚴(yán)格寫法 
User-agent: * 
Disallow: /wp-* 
#Allow: /wp-content/uploads/ 
Disallow: /*.php$ 
Disallow: /*.inc$ 
Disallow: /*.js$ 
Disallow: /*.css$ 
Disallow: /?s= 
允許所有蜘蛛訪問(wèn),限制以“wp-”開頭的目錄及文件,限制抓取.php文件、.inc文件、.js文件、.css文件,限制抓取搜索結(jié)果。 
Disallow: /wp-* 會(huì)連同附件目錄一起限制抓取,如果想讓搜索引擎抓取附件中的內(nèi)容,將第三行的 # 號(hào)注釋去掉。Allow 不是所有搜索引擎都支持。 
最合理的寫法 
賣瓜的都說(shuō)自己瓜甜,我也覺得自己的Robots.txt寫的最合理  
User-agent: * 
Disallow: /wp-admin 
Disallow: /wp-content/plugins 
Disallow: /wp-content/themes 
Disallow: /wp-includes 
Disallow: /?s= 
Sitemap: http://www.xxx.com/sitemap.xml 
允許所有搜索引擎抓取,逐一列舉需要限制的目錄,限制抓取搜索結(jié)果。 
包含sitemap.xml地址(這一項(xiàng)viki中有專門的說(shuō)明,但Google管理員工具會(huì)提示‘檢測(cè)到無(wú)效的 Sitemap 引用’,有效性尚有爭(zhēng)議)。 
robots.txt其他寫法 
為避免在搜索引擎中出現(xiàn)重復(fù)頁(yè)面,Wordpress玩家自創(chuàng)了很多robots寫法,列舉一些常用的,作為參考(適用于偽靜態(tài)方式的永久鏈接): 
Disallow: /page/ 
#限制抓取Wordpress分頁(yè) 
Disallow: /category/*/page/* 
#限制抓取分類的分頁(yè) 
Disallow: /tag/ 
#限制抓取標(biāo)簽頁(yè)面 
Disallow: */trackback/ 
#限制抓取Trackback內(nèi)容 
Disallow: /category/* 
#限制抓取所有分類列表 
本文出自:億恩科技【www.cmtents.com】 服務(wù)器租用/服務(wù)器托管中國(guó)五強(qiáng)!虛擬主機(jī)域名注冊(cè)頂級(jí)提供商!15年品質(zhì)保障!--億恩科技[ENKJ.COM]  | 
    
       
       
       京公網(wǎng)安備41019702002023號(hào)