歡迎回到鵠學苑 — WordPress 網頁設計超詳細攻略 – robots.txt 主要功能是宣告網站內容納入索引的權限,可以設定網站想要讓哪些搜尋引擎檢索或著不檢索,也可以指定網站哪些目錄連結不要讓搜尋引擎索引,但要注意到的是如果是想讓網站中的特定頁面不要出現在搜尋結果中,並不建議使用 robots.txt輸入網址子目錄來禁止搜尋引擎檢索,應該要在想要禁止索引的頁面中加入 meta 標籤向搜尋引擎宣告 nofollow ,才是正確的方式。
那麼 robots.txt主要的用途是什麼呢?主要是用於網站資料過於龐大,需要要篩選出一些較為不重要的資源來避免搜尋引擎檢索要求次數過多,導致網站超出負荷過載,而此類網站資源通常為圖片、影片、文章分頁、動態網址、媒體附件檔案等,對網站內容是否要允許檢索其判別標準大致上是 ” 此頁面出現在搜尋結果中,對網站本身與使用者而言沒有價值 ” ,當然價值為何就要看您本身網站架設的目的了,如果網站架設前有做好規劃,相信很輕易就能做出分別。
在本篇教學中將說明如何在 Search Console 中編輯 robots.txt並對寫入指令規則做簡單介紹以及網址測試功能,另外也會講解在 WordPrss 後台使用 Yoast SEO 編輯robots.txt的方法,因為編輯時都是以指令碼的方式來宣告,建議先行參考下方提供的 robots.txt規範連結,了解指令規則後再來嘗試編輯。接下來跟著鵠學苑的腳步,讓我們開始學習吧!
Google Search Console 登入頁
https://search.google.com/search-console/about
Search Console 說明
https://search.google.com/search-console/about
Google 開發人員指南
https://developers.google.com/search/reference/robots_txt
Search Console robots.txt項目內容簡介
第一步:進入 Google Search Console 中可以在側邊檢索選單中找到 robots.txt測試工具,在後面會分別介紹查看即時robots.txt、指令碼編輯與提交以及測試網址是否遭封鎖功能。
第二步:點選圖片標示的查看即時 robots.txt,如果網站有上傳 robots.txt檔案或者有使用 SEO 外掛自動建立,點選此項目後就會顯示 robots.txt檔案內容。
第三步:下圖就是在第二步中點選查詢後在瀏覽器上顯示的 robots.txt檔案。
第四步:robots.txt測試工具可以在 Search Console 中直接編輯 robots.txt檔案內容並且上傳給 Goolge,基本的指令碼規則以下說明:
- User-agent:搜尋引擎檢索機器人的名稱,比如 Googlebot、Baiduspider 等,如果值是 * 符號則代表為指定所有檢索機器人
- Disallow:禁止網站檢索項目,值為 / 代表全網站禁止索引,或者可以輸入特定規則的子目錄,如下圖 /wp-admin/ 代表禁止檢索網站後台登入頁面,而 /web-design/template?portfolio 則是禁止檢索 web-design 這個分類下具有 template 的所有連結。
- Allow:允許檢索項目,與 Disallow 規則相同。
- 如果要禁止檢索特定類型的檔案,比如 .gif、.png、.pdf 等,則必須加入比對符號 $,比如要禁止網站所以有 pdf 下載連結被檢索,則寫法為 Disallow: /*.pdf$ 。
下圖標示的指令意思就是 ” 禁止百度搜尋引擎檢索網站所有連結 “,也就是不讓網站出現在百度搜索的搜尋結果中,以此為例設定完成後點選提交。
第五步:提交後會出現下圖畫面,點選下載按鈕後,會得到剛剛編輯的 robots.txt檔案(圖二),可以先以文字編輯器查看內容有無錯誤。
第六步:如果是以虛擬主機建立網站,則可以使用 FTP 上傳功能將 robots.txt檔案上傳到 WordPress 根目錄下,如果不知要如何判別上傳位置,在一般預設目錄的情況下,robots.txt檔案應該與 wp-config.php 會在同一層目錄,如下圖所示。要是不知道如何操作 FTP 則可以利用 Yoast SEO 外掛直接編輯 robots.txt檔案,在下一小節會說明。
上傳完成後在瀏覽器中開啟網站首頁,在網址後方加入/robots.txt,如果顯示剛剛上傳的內容,代表上傳成功。
第七步:上傳完畢後可以點選查看上傳的範本按鈕來驗證 robots.txt內容是否正確,或者直接點選提交按鈕,告知 Google 網站檢索規則已經變更。
第八步:接者說明如何檢查網站內容有沒有遭到 robots.txt封鎖,下圖以直接檢查網站首頁為例,如果在robots.txt檔案中沒有不允許 Googlebot 檢索的指令碼,則會顯示已允許。
第九步:反之,筆者輸入禁止的子目錄內容,則會直接提示已封鎖,要注意到是檢查網址時不需要輸入網頁完整網址,只需要輸入子目錄網址名稱即可,如下圖所示。
第十步:robots.txt網址檢查也可以選擇其他不同類型的 Google 檢索器,比如 Goolge-image(圖片檢索)、Goolge-Mobile(行動裝置網頁)等,以網站所禁止的項目類型來選擇對應的 Google 檢索器即可。
第十一步:robots.txt檔案也可以加入 sitemaps ,讓 Google 可以同時檢索網站連結目錄,加快 Google 索引網站速度,寫入方是要看網站 sitemaps 建立方式來決定,以 Yoast SEO 為例,sitemap 網址會是這樣:https://www.design-hu.com.tw/sitemap_index.xml,請參考:Google Search Console 教學 – 提交 sitemap 加速索引網站。
Yoast SEO 編輯 robots.txt 位置
第一步:如果說無法以 FTP 上傳的方式來為網站建立 robots.txt檔案,則可以使用 Yoast SEO 直接建立 robots.txt,安裝與介紹請參考:WordPress SEO 優化工具 – Yoast SEO 設定教學 (專業版),此項功能無論是否為付費版都可以使用。如下圖所示在工具項目中找到檔案編輯器,
第二步:第一次進入時會詢問是否要建立 robots.txt檔案,點選確定之後會跳出建立 robots.txt的程式碼頁面,直接關掉即可,接者就會進入到下圖畫面,預設值為禁止全部搜尋引擎索引登入頁面,允許執行登入功能,這是 WordPress 網站預設的項目,請不要更動,接者就可以在下方空白處按照 robots.txt指令碼規則來寫入,完成後點選儲存,就會自動為網站建立虛擬 robots.txt檔案,其功用與 FTP 上傳方式沒有不同。
結語:
robots.txt的編輯必須要非常小心,必須要對網站目錄架構非常了解,相當清楚哪些頁面是可以禁止,哪些頁面必須保留,而網址中子目錄的寫法也要注意到,如果説在禁止特定網頁被檢索時,子目錄只有寫到分類而沒有加入網頁名稱,則此分類下所有的頁面都會被 Google 視為禁止檢索,因為搜尋引擎對網站內容處理方式並不是即時的,需要一段時間才會改變結果,如果在 robots.txt中誤寫指令碼,即使修正了也會一段時間導致被誤寫禁止檢索的網頁完全不會出現在搜尋結果中,因此在編輯 robots.txt檔案時一定要再三確認,弄清楚指令碼寫入規則,才不會造成日後網站有嚴重的檢索問題。
今天的教學到這裡告一段落了,不要忘記在右側訂閱鵠學苑電子報,確保收到最新 WordPress 教學文章,如果有網頁設計相關需求,或者想了解最新網站知識,也可以到 鵠崙設計 做線上免費諮詢喔!我們下次的教學見~
架站 相關教學文章
網站架設知識推薦閱讀
GDPR 歐盟 個人資料保護 法規發佈,網站必須建立 隱私 政策 !
Site Kit WordPress Plugin – Google SEO 整合工具外掛介紹
Google reCaptcha v3 發布,以後不用再點選 我不是機器人?