robotstxtfile

Làm thế nào để tối ưu phần robots.txt trên website WordPress?

Kiến thức hosting

Gần đây, một trong những độc giả của chúng tôi đã hỏi chúng tôi về các mẹo về cách tối ưu hóa tệp robot.txt để cải thiện SEO. Tệp Robots.txt cho các công cụ tìm kiếm biết cách thu thập dữ liệu trang web của bạn, làm cho nó trở thành một công cụ SEO cực kỳ mạnh mẽ. Trong bài viết này, chúng tôi sẽ chỉ cho bạn cách tạo một tệp robot.txt hoàn hảo cho SEO.

robotstxtfile

Tệp robots.txt là gì?

Robots.txt là một tệp văn bản mà chủ sở hữu trang web có thể tạo để báo cho bot công cụ tìm kiếm cách thu thập dữ liệu và lập chỉ mục các trang trên trang web của họ.

Nó thường được lưu trữ trong thư mục gốc còn được gọi là thư mục chính của trang web của bạn. Định dạng cơ bản cho tệp robot.txt trông như thế này:

1
2
3
4
5
6
7
8
User-agent: [user-agent name]
Disallow: [URL string not to be crawled]
User-agent: [user-agent name]
Allow: [URL string to be crawled]
Sitemap: [URL of your XML Sitemap]

Bạn có thể có nhiều dòng hướng dẫn để cho phép hoặc không cho phép các URL cụ thể và thêm nhiều sơ đồ trang web. Nếu bạn không cho phép URL, thì các bot công cụ tìm kiếm cho rằng chúng được phép thu thập thông tin.

Đây là những gì một tệp ví dụ robot.txt có thể trông như sau:

1
2
3
4
5
6
User-Agent: *
Allow: /wp-content/uploads/
Disallow: /wp-content/plugins/
Disallow: /wp-admin/
Sitemap: https://example.com/sitemap_index.xml

Trong ví dụ robot.txt ở trên, chúng tôi đã cho phép các công cụ tìm kiếm thu thập dữ liệu và lập chỉ mục các tệp trong thư mục tải lên WordPress của chúng tôi.

Sau đó, chúng tôi đã không cho phép các bot tìm kiếm thu thập dữ liệu và lập chỉ mục các plugin và thư mục quản trị WordPress.

Cuối cùng, chúng tôi đã cung cấp URL của sơ đồ trang XML của chúng tôi.

Bạn có cần một tệp Robots.txt cho trang web WordPress của mình không?

Nếu bạn không có tệp robot.txt, thì các công cụ tìm kiếm vẫn sẽ thu thập dữ liệu và lập chỉ mục trang web của bạn. Tuy nhiên, bạn sẽ không thể thông báo cho các công cụ tìm kiếm những trang hoặc thư mục nào họ không nên thu thập dữ liệu.

Điều này sẽ không có nhiều tác động khi bạn lần đầu tiên bắt đầu một blog và không có nhiều nội dung.

Tuy nhiên, khi trang web của bạn phát triển và bạn có rất nhiều nội dung, thì bạn có thể muốn kiểm soát tốt hơn cách trang web của bạn được thu thập và lập chỉ mục.

Đây là lý do tại sao.

Bot tìm kiếm có một hạn ngạch thu thập dữ liệu cho mỗi trang web.

Điều này có nghĩa là họ thu thập dữ liệu một số trang nhất định trong phiên thu thập thông tin. Nếu họ không hoàn thành việc thu thập tất cả các trang trên trang web của bạn, thì họ sẽ quay lại và tiếp tục thu thập thông tin trong phiên tiếp theo.

Điều này có thể làm chậm tốc độ lập chỉ mục trang web của bạn.

Bạn có thể khắc phục điều này bằng cách không cho phép các bot tìm kiếm cố gắng thu thập dữ liệu các trang không cần thiết như trang quản trị WordPress, tệp plugin và thư mục chủ đề.

Bằng cách không cho phép các trang không cần thiết, bạn lưu hạn ngạch thu thập dữ liệu của mình. Điều này giúp các công cụ tìm kiếm thu thập dữ liệu nhiều trang hơn trên trang web của bạn và lập chỉ mục chúng càng nhanh càng tốt.

Một lý do chính đáng khác để sử dụng tệp robot.txt là khi bạn muốn ngăn các công cụ tìm kiếm lập chỉ mục một bài đăng hoặc trang trên trang web của bạn.

Đây không phải là cách an toàn nhất để ẩn nội dung khỏi công chúng, nhưng nó sẽ giúp bạn ngăn chúng xuất hiện trong kết quả tìm kiếm.

Tệp Robots.txt lý tưởng sẽ trông như thế nào?

Nhiều blog phổ biến sử dụng tệp robot.txt rất đơn giản. Nội dung của chúng có thể khác nhau, tùy thuộc vào nhu cầu của trang web cụ thể:

1
2
3
4
5
User-agent: *
Disallow:
 
Sitemap: http://www.example.com/post-sitemap.xml
Sitemap: http://www.example.com/page-sitemap.xml

Tệp robot.txt này cho phép tất cả các bot lập chỉ mục tất cả nội dung và cung cấp cho chúng một liên kết đến sơ đồ trang XML của trang web .

Đối với các trang web WordPress, chúng tôi khuyên dùng các quy tắc sau trong tệp robot.txt:

1
2
3
4
5
6
7
8
9
User-Agent: *
Allow: /wp-content/uploads/
Disallow: /wp-content/plugins/
Disallow: /wp-admin/
Disallow: /readme.html
Disallow: /refer/
Sitemap: http://www.example.com/post-sitemap.xml
Sitemap: http://www.example.com/page-sitemap.xml

Điều này nói với các bot tìm kiếm để lập chỉ mục tất cả các hình ảnh và tệp WordPress. Nó không cho phép các bot tìm kiếm lập chỉ mục các tệp plugin WordPress, khu vực quản trị WordPress, tệp readme WordPress và các liên kết liên kết.

Bằng cách thêm sơ đồ trang web vào tệp robot.txt, bạn có thể dễ dàng cho các bot của Google tìm thấy tất cả các trang trên trang web của bạn.

Bây giờ bạn đã biết tệp robot.txt lý tưởng trông như thế nào, hãy xem cách bạn có thể tạo tệp robot.txt trong WordPress.

Làm cách nào để tạo tệp Robots.txt trong WordPress?

Có hai cách để tạo tệp robot.txt trong WordPress. Bạn có thể chọn phương pháp phù hợp nhất với bạn.

Phương pháp 1: Chỉnh sửa tệp Robots.txt bằng SEO Yoast

Nếu bạn đang sử dụng plugin Yoast SEO , thì nó đi kèm với trình tạo tệp robots.txt.

Bạn có thể sử dụng nó để tạo và chỉnh sửa tệp robot.txt trực tiếp từ khu vực quản trị viên WordPress của bạn.

Chỉ cần truy cập SEO » Tools trong quản trị viên WordPress của bạn và nhấp vào liên kết Trình chỉnh sửa tệp.

fileeditortool

Trên trang tiếp theo, trang SEO Yoast sẽ hiển thị tệp robot.txt hiện tại của bạn.

Nếu bạn không có tệp robot.txt, thì Yoast SEO sẽ tạo tệp robot.txt cho bạn.

createrobotstxt

Theo mặc định, trình tạo tệp robots.txt của Yoast SEO sẽ thêm các quy tắc sau vào tệp robot.txt của bạn:

1
2
User-agent: *
Disallow: /

Điều quan trọng là bạn xóa văn bản này vì nó chặn tất cả các công cụ tìm kiếm thu thập dữ liệu trang web của bạn.

Sau khi xóa văn bản mặc định, bạn có thể tiếp tục và thêm quy tắc robot.txt của riêng mình. Chúng tôi khuyên bạn nên sử dụng định dạng robot.txt lý tưởng mà chúng tôi đã chia sẻ ở trên.

Khi bạn đã hoàn tất, đừng quên nhấp vào nút ‘Lưu tệp robot.txt’ để lưu trữ các thay đổi của bạn.

Phương pháp 2. Chỉnh sửa tệp Robots.txt bằng cách sử dụng FTP theo cách thủ công

Đối với phương pháp này, bạn sẽ cần sử dụng ứng dụng khách FTP để chỉnh sửa tệp robot.txt.

Chỉ cần kết nối với tài khoản lưu trữ WordPress của bạn bằng ứng dụng khách FTP.

Khi vào trong, bạn sẽ có thể thấy tệp robot.txt trong thư mục gốc của trang web của bạn.

editrobotsfileftp

Nếu bạn không nhìn thấy một cái, thì có khả năng bạn không có tệp robot.txt. Trong trường hợp đó, bạn có thể tiếp tục và tạo một cái.

createnewfile

Robots.txt là một tệp văn bản đơn giản, có nghĩa là bạn có thể tải nó xuống máy tính của mình và chỉnh sửa nó bằng bất kỳ trình soạn thảo văn bản đơn giản nào như Notepad hoặc TextEdit.

Sau khi lưu các thay đổi của bạn, bạn có thể tải nó trở lại thư mục gốc của trang web.

Làm cách nào để kiểm tra tệp Robots.txt của bạn?

Khi bạn đã tạo tệp robot.txt, việc kiểm tra tệp bằng công cụ kiểm tra robot.txt luôn là một ý tưởng hay.

Có nhiều công cụ kiểm tra robot.txt, nhưng chúng tôi khuyên bạn nên sử dụng công cụ trong Google Search Console .

Chỉ cần đăng nhập vào tài khoản Google Search Console của bạn và sau đó chuyển sang trang web bảng điều khiển tìm kiếm Google cũ.

oldsearchconsole

Điều này sẽ đưa bạn đến giao diện Google Search Console cũ. Từ đây, bạn cần khởi chạy công cụ kiểm tra robot.txt trong menu ‘Thu thập dữ liệu’.

robotstxttester

Công cụ sẽ tự động tìm nạp tệp robot.txt của trang web của bạn và làm nổi bật các lỗi và cảnh báo nếu tìm thấy bất kỳ.

Suy nghĩ cuối cùng

Mục tiêu tối ưu hóa tệp robot.txt của bạn là để ngăn các công cụ tìm kiếm thu thập dữ liệu các trang không có sẵn công khai. Ví dụ: các trang trong thư mục wp-plugins hoặc các trang trong thư mục quản trị WordPress của bạn.

Một huyền thoại phổ biến giữa các chuyên gia SEO là việc chặn danh mục, thẻ và trang lưu trữ của WordPress sẽ cải thiện tốc độ thu thập dữ liệu và dẫn đến việc lập chỉ mục nhanh hơn và xếp hạng cao hơn.

Đây không phải là sự thật. Nó cũng chống lại các nguyên tắc quản trị trang web của Google.

Chúng tôi khuyên bạn nên làm theo định dạng robot.txt ở trên để tạo tệp robot.txt cho trang web của bạn.

Chúng tôi hy vọng bài viết này đã giúp bạn tìm hiểu cách tối ưu hóa tệp robot.txt của WordPress cho SEO

Trả lời

Thư điện tử của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *