一個 robots.txt 檔案 告知搜尋引擎爬蟲哪些頁面或檔案可以或不可以從您的網站請求。 robots.txt
檔案是一個網路標準檔案,大多數 良好爬蟲 在從特定網域請求任何內容之前都會使用它。
您可能希望保護網站的某些區域不被爬取,因此也不會被索引,例如您的 CMS 或管理員介面、電子商務中的使用者帳戶或某些 API 路徑等等。
這些檔案必須放在每個主機的根目錄下,或者您可以將根目錄 /robots.txt
路徑重新導向到目標 URL,大多數爬蟲都會跟隨。
感謝 Next.js 的靜態檔案服務 功能,我們可以輕鬆新增 `robots.txt` 檔案。我們可以在根目錄的 public
資料夾中建立一個名為 `robots.txt` 的新檔案。
這個檔案的內容範例如下:
//robots.txt
# Block all crawlers for /accounts
User-agent: *
Disallow: /accounts
# Allow all crawlers
User-agent: *
Allow: /
當您使用 yarn dev
執行應用程式時,它將在 https://127.0.0.1:3000/robots.txt 找到。請注意,public
資料夾名稱不是 URL 的一部分。
不要將 public 目錄重新命名。此名稱無法更改,並且是唯一用於提供靜態資源的目錄。
robots.txt
檔案