什麼是 robots.txt 檔案？- 爬取和索引

0 點

爬取和索引

一個 robots.txt 檔案告知搜尋引擎爬蟲哪些頁面或檔案可以或不可以從您的網站請求。 robots.txt 檔案是一個網路標準檔案，大多數良好爬蟲在從特定網域請求任何內容之前都會使用它。

您可能希望保護網站的某些區域不被爬取，因此也不會被索引，例如您的 CMS 或管理員介面、電子商務中的使用者帳戶或某些 API 路徑等等。

這些檔案必須放在每個主機的根目錄下，或者您可以將根目錄 /robots.txt 路徑重新導向到目標 URL，大多數爬蟲都會跟隨。

感謝 Next.js 的靜態檔案服務功能，我們可以輕鬆新增 `robots.txt` 檔案。我們可以在根目錄的 public 資料夾中建立一個名為 `robots.txt` 的新檔案。

這個檔案的內容範例如下：

//robots.txt

# Block all crawlers for /accounts
User-agent: *
Disallow: /accounts

# Allow all crawlers
User-agent: *
Allow: /

當您使用 yarn dev 執行應用程式時，它將在 https://127.0.0.1:3000/robots.txt 找到。請注意，public 資料夾名稱不是 URL 的一部分。

不要將 public 目錄重新命名。此名稱無法更改，並且是唯一用於提供靜態資源的目錄。

robots.txt 檔案的目的是什麼？

指示爬蟲可以存取和爬取哪些頁面/檔案提供爬蟲要爬取的 URL 列表新增關於爬取的注意事項以上皆是

您也可以在社群上提問 GitHub 討論區.