跳至內容

爬取和索引

什麼是 robots.txt 檔案?

一個 robots.txt 檔案 告知搜尋引擎爬蟲哪些頁面或檔案可以或不可以從您的網站請求。 robots.txt 檔案是一個網路標準檔案,大多數 良好爬蟲 在從特定網域請求任何內容之前都會使用它。

您可能希望保護網站的某些區域不被爬取,因此也不會被索引,例如您的 CMS 或管理員介面、電子商務中的使用者帳戶或某些 API 路徑等等。

這些檔案必須放在每個主機的根目錄下,或者您可以將根目錄 /robots.txt 路徑重新導向到目標 URL,大多數爬蟲都會跟隨。

如何在 Next.js 專案中新增 robots.txt 檔案

感謝 Next.js 的靜態檔案服務 功能,我們可以輕鬆新增 `robots.txt` 檔案。我們可以在根目錄的 public 資料夾中建立一個名為 `robots.txt` 的新檔案。

這個檔案的內容範例如下:

//robots.txt

# Block all crawlers for /accounts
User-agent: *
Disallow: /accounts

# Allow all crawlers
User-agent: *
Allow: /

當您使用 yarn dev 執行應用程式時,它將在 https://127.0.0.1:3000/robots.txt 找到。請注意,public 資料夾名稱不是 URL 的一部分。

不要將 public 目錄重新命名。此名稱無法更改,並且是唯一用於提供靜態資源的目錄。


快速回顧

robots.txt 檔案的目的是什麼?

延伸閱讀