Robots txt là gì? Đây là một tệp văn bản nhỏ nhưng đóng vai trò quan trọng trong việc hướng dẫn các công cụ tìm kiếm thu thập dữ liệu trên website. Bài viết này, Auto Ranker sẽ giúp bạn tìm hiểu chi tiết về cấu trúc, chức năng và cách sử dụng robots.txt để quản lý website chuyên nghiệp hơn.

Giải đáp Robots txt là gì và hướng dẫn chi tiết về cấu trúc, chức năng và cách sử dụng

Tìm hiểu về file robots txt là gì?

File robots.txt là một thành phần quan trọng giúp định hướng hoạt động của bot tìm kiếm trên website. Khi sử dụng đúng cách, tệp này góp phần nâng cao hiệu suất SEO và kiểm soát nội dung hiển thị trên công cụ tìm kiếm. Vậy chính xác file robots txt là gì, cách dùng ra sao?

File Robots txt là gì?

Robots.txt là tệp văn bản đặt ở thư mục gốc của website, hướng dẫn bot tìm kiếm về phạm vi truy cập dữ liệu. Chức năng cốt lõi của robots.txt là kiểm soát lưu lượng truy cập từ bot, tránh tình trạng gửi quá nhiều yêu cầu cùng lúc gây quá tải cho máy chủ.

Tuy nhiên, cần lưu ý rằng việc chặn URL trong robots.txt không đảm bảo nội dung đó hoàn toàn biến mất khỏi kết quả tìm kiếm, bởi các trang bị chặn vẫn có thể bị index nếu có liên kết từ các website khác trỏ về.

File robots.txt giúp hướng dẫn bot tìm kiếm truy cập các khu vực trên website

Vị trí của file robots txt

Xem thêm: Lỗi 404 là gì? Nguyên nhân, ảnh hưởng và cách khắc phục toàn diện

File robots.txt cần được đặt tại thư mục gốc của website để đảm bảo các công cụ tìm kiếm có thể dễ dàng phát hiện và truy cập. Đường dẫn chuẩn của tệp này thường có dạng: https://www.tenmiencuaban.com/robots.txt.

Trong đó, tenmiencuaban.com chính là domain của bạn. Khi robots.txt nằm đúng vị trí này, bot tìm kiếm sẽ tiếp cận được tệp ngay từ lần truy cập đầu tiên vào website, từ đó thực thi chính xác các chỉ dẫn bạn đã thiết lập.

Ngược lại, nếu bạn đặt robots.txt ở một thư mục con như: https://www.tenmiencuaban.com/folder/robots.txt, các bot sẽ không thể tìm thấy tệp, không thể thực hiện theo các quy tắc bên trong. Do đó, để đảm bảo hiệu quả trong quản lý hoạt động thu thập dữ liệu, bạn cần đặt robots.txt đúng tại thư mục gốc của tên miền.

Kiểm tra website đã có file robots txt chưa

Để kiểm tra file robots.txt của một website, bạn chỉ cần nhập chính xác địa chỉ của tệp này vào thanh địa chỉ của trình duyệt với định dạng: https://tenmiencuaban.com/robots.txt.

Thay “tenmiencuaban.com” bằng tên miền cần xem. Nếu file robots.txt tồn tại, trình duyệt sẽ hiển thị nội dung; nếu không sẽ báo lỗi 404 hoặc thông báo file không có.

Cách kiểm tra file robots txt trên website

Cấu trúc chuẩn của robots txt trong quản trị website

Các cú pháp trong file robots.txt được xem như ngôn ngữ riêng biệt để điều khiển hoạt động của các bot tìm kiếm. Vậy cấu trúc chuẩn của file robots txt là gì?

Pattern – Matching

Pattern – Matching Robots txt là gì? Pattern-Matching giúp kiểm soát quyền truy cập của bot vào nhiều dạng URL khác nhau trên WordPress.

Cả Google và Bing đều cho phép dùng hai ký tự đặc biệt để xác định chính xác các trang hoặc thư mục con mà bạn muốn chặn hoặc cho phép bot truy cập, đó là dấu hoa thị (*), ký hiệu đô la ($).

Dấu hoa thị (*) đại diện cho bất kỳ chuỗi ký tự nào, áp dụng cho nhiều URL có mẫu chung và được Google hỗ trợ rộng rãi.
Ký hiệu đô la ($) khớp với phần kết thúc của URL, xác định trang hoặc tài nguyên có đường dẫn kết thúc bằng chuỗi đó.

Pattern-Matching trong robots.txt giúp kiểm soát quyền truy cập của bot với các URL qua ký tự đặc biệt (*) và ($)

Định dạng cơ bản của file robots txt

Định dạng cơ bản của file robots txt là gì? File robots.txt sử dụng một bộ cú pháp riêng để điều khiển các bot tìm kiếm tương tác với website. Dưới đây là 5 thành phần phổ biến thường xuất hiện trong file này:

User-agent: Xác định tên của trình thu thập dữ liệu như Googlebot, Bingbot, … Đây là đối tượng mà các quy tắc tiếp theo áp dụng.
Disallow: Chỉ định những URL, thư mục mà bot không được phép truy cập. Mỗi đường dẫn cần được ghi trên một dòng riêng với lệnh này.
Allow: Dành riêng cho Googlebot, cho phép bot truy cập vào một trang hoặc thư mục con ngay cả khi phần cha bị chặn.
Crawl-delay: Yêu cầu bot tạm dừng một khoảng thời gian (tính bằng giây) trước khi tải tiếp nội dung trang, nhằm giảm tải cho máy chủ. Tuy nhiên, Googlebot không hỗ trợ lệnh này, thay vào đó tốc độ thu thập dữ liệu được thiết lập qua Google Search Console.
Sitemap: Cho phép cung cấp đường dẫn đến file Sitemap XML, giúp công cụ tìm kiếm nhanh chóng nhận diện cấu trúc website. Lệnh này được hỗ trợ bởi Google, Bing, Yahoo và Ask.

File robots txt chuẩn

Để ngăn chặn mọi bot thu thập dữ liệu trên toàn bộ website, bao gồm cả trang chủ, bạn có thể áp dụng cú pháp sau:

User-agent: *
Disallow: /

Các cú pháp trong robots.txt giúp kiểm soát quyền truy cập của từng loại bot trên website

Nếu muốn cho phép tất cả bot truy cập toàn bộ nội dung trên trang, bao gồm trang chủ, cú pháp sẽ là:

User-agent: *
Disallow:

Để chặn riêng bot Google (Googlebot) không được thu thập bất kỳ trang nào nằm trong thư mục /example-subfolder/, hãy dùng:

User-agent: Googlebot
Disallow: /example-subfolder/

Còn nếu muốn ngăn bot Bing (Bingbot) truy cập một trang cụ thể, ví dụ như /example-subfolder/blocked-page.html, bạn có thể viết:

User-agent: Bingbot
Disallow: /example-subfolder/blocked-page.html

Chức năng của robots txt với công cụ tìm kiếm

Robots.txt có chức năng chính là kiểm soát và điều phối lưu lượng thu thập dữ liệu từ các công cụ tìm kiếm trên website. Vậy chức năng của Robots txt là gì? Cụ thể:

Ngăn không cho các bot truy cập vào những khu vực của trang web mà bạn không muốn chúng thu thập thông tin.
Điều chỉnh tần suất thu thập dữ liệu từ các phần nhất định, giúp giảm tải cho máy chủ.
Ưu tiên hoặc sắp xếp thứ tự các trang, thư mục mà bot nên thu thập dữ liệu trước hoặc sau, từ đó tối ưu hóa hiệu quả quá trình lập chỉ mục.

Robots txt trong hoạt động của Googlebot và các lệnh được hỗ trợ

Tiếp theo, chúng ta sẽ cùng khám phá vai trò của Robots.txt trong hoạt động của Googlebot và các lệnh được hỗ trợ:

User-Agent

Đây là phần bắt buộc phải có ít nhất một lần trong mỗi nhóm quy tắc. User-agent chính là tên của trình thu thập dữ liệu tự động (bot) của công cụ tìm kiếm mà quy tắc áp dụng. Đây luôn là dòng đầu tiên trong mỗi nhóm quy tắc.

Ví dụ, Google có danh sách riêng các tên User-agent như Googlebot, Googlebot-News, … Dấu hoa thị (*) dùng để đại diện cho tất cả các bot, ngoại trừ các bot chuyên biệt như AdsBot, với bot này bạn cần ghi rõ tên cụ thể.

Disallow

Trong mỗi nhóm quy tắc, bạn phải có ít nhất một lệnh Disallow hoặc Allow. Vậy lệnh Disallow hoặc Allow trong robots txt là gì. Đây là lệnh chỉ định các trang hoặc thư mục (tính từ thư mục gốc của website) mà bạn không muốn bot truy cập và thu thập dữ liệu.

Nếu muốn chặn một trang cụ thể, bạn cần viết chính xác tên trang đó như URL hiển thị trên trình duyệt, bắt đầu bằng dấu “/”. Nếu chặn một thư mục, đường dẫn cần kết thúc bằng dấu “/”.

Allow

Tương tự như Disallow, bạn cần có ít nhất một lệnh Allow hoặc Disallow trong mỗi nhóm. Allow cho phép bot truy cập một trang hoặc thư mục con, ngay cả khi phần cha bị chặn bởi Disallow.

Lệnh này thường dùng để ghi đè lên lệnh Disallow nhằm mở quyền thu thập dữ liệu ở các khu vực cụ thể. Cách viết cũng bắt đầu bằng dấu “/” và nếu là thư mục thì kết thúc bằng dấu “/”.

Allow cho phép bot truy cập các trang/thư mục dù bị chặn bởi Disallow

Sitemap

Lệnh robots txt sitemap không bắt buộc phải có trong file nhưng rất được khuyến khích sử dụng. Lệnh cho biết vị trí của sitemap XML (bản đồ trang web) giúp Google biết những nội dung nào cần được thu thập dữ liệu.

URL của sitemap phải là địa chỉ đầy đủ và chính xác, bao gồm đúng giao thức (http/https) và tên miền (có hoặc không có www). Sitemap giúp Google hiểu rõ cấu trúc website hơn, nhưng không phải là công cụ để cấp quyền truy cập hay chặn bot.

Những điểm yếu cần lưu ý của file robots txt

Dù đã hiểu Robots txt là gì, nhưng bạn vẫn phải lưu ý một số điểm yếu quan trọng của file này:

Một số bot tìm kiếm không tuân theo robots txt

Việc chặn một URL trong file robots.txt không đồng nghĩa với việc ngăn chặn hoàn toàn URL đó hiển thị trên kết quả tìm kiếm. Nếu có liên kết trỏ đến URL đó từ một trang khác, Google vẫn có thể thu thập thông tin qua các liên kết bên ngoài và đưa URL vào chỉ mục.

Cú pháp phân tích khác nhau giữa các bot

Một số bot, đặc biệt là những trình thu thập dữ liệu không đáng tin cậy có thể phớt lờ hoàn toàn các quy tắc trong file robots.txt. Vì vậy, nếu bạn muốn ngăn chặn truy cập vào các nội dung nhạy cảm hoặc riêng tư, giải pháp an toàn nhất là thiết lập bảo vệ bằng mật khẩu hoặc giới hạn quyền truy cập trên máy chủ.

Bị tệp robots.txt chặn nhưng Google vẫn có thể index

Ngay cả khi bạn đã sử dụng file robots.txt để ngăn bot truy cập một URL cụ thể, điều đó không có nghĩa URL đó sẽ hoàn toàn biến mất khỏi kết quả tìm kiếm. Nếu có trang khác trên internet dẫn link đến URL đó, Google vẫn có thể phát hiện, đưa link vào chỉ mục (index), mặc dù không thu thập được nội dung bên trong.

Do đó, nếu bạn thực sự không muốn một URL nào đó xuất hiện trên Google và nội dung trang đó không quá quan trọng thì hãy cân nhắc xóa hoàn toàn URL đó khỏi website. Cách này giúp hạn chế khả năng Google hiển thị trong kết quả tìm kiếm, tăng cường mức độ bảo mật và kiểm soát thông tin tốt hơn.

Bị tệp robots.txt chặn nhưng Google vẫn có thể index

Không bảo mật hoàn toàn thông tin

Robots.txt chỉ là công cụ “đề nghị” bot tuân theo quy tắc, không phải biện pháp bảo mật. Ai cũng có thể truy cập file này và xem những phần bạn đang cố gắng ẩn, đôi khi vô tình tiết lộ khu vực bảo vệ.

Nguyên tắc cơ bản khi viết file robots txt

Việc hiểu rõ Robots txt là gì giúp bạn đáp ứng đầy đủ các nguyên tắc cơ bản khi viết file. Cụ thể:

Để các bot tìm kiếm có thể đọc được file robots.txt, bạn cần đặt tệp này ở thư mục gốc (root directory) của website. Ví dụ: https://example.com/robots.txt.
Tên file phải chính xác là robots.txt, viết thường hoàn toàn. Hệ thống có phân biệt chữ hoa, các phiên bản như Robots.txt hay ROBOTS.TXT đều không hợp lệ.
Không nên chặn thư mục như /wp-content/themes/ hoặc /wp-content/plugins/ trong WordPress vì điều này có thể ảnh hưởng đến khả năng hiển thị đúng giao diện website trên kết quả tìm kiếm.
Hãy lưu ý rằng một số bot độc hại như bot thu thập email hoặc malware crawler có thể phớt lờ file robots.txt và truy cập dữ liệu bạn không muốn chia sẻ. Do đó, file này không phải công cụ để bảo mật tuyệt đối.
Robots.txt là file công khai, bất kỳ ai cũng có thể xem nội dung bằng cách thêm /robots.txt sau tên miền chính. Vậy nên không sử dụng robots.txt để che giấu thông tin nhạy cảm.
Mỗi subdomain (ví dụ: blog.example.com) cần có file robots.txt riêng nếu bạn muốn kiểm soát cách các bot truy cập nội dung tại đó. Đây cũng là nơi bạn nên khai báo vị trí của sitemap tương ứng nếu có.

Một số nguyên tắc cơ bản khi viết file robots txt

Hướng dẫn tạo robots txt cho WordPress nhanh chóng

Làm thế nào để tạo file robots txt hoàn chỉnh? Hãy cùng tham khảo các hướng dẫn tạo file robots txt chi tiết bên dưới:

Sử dụng Yoast SEO

Robots txt là gì và cách tạo file này trên WordPress có phức tạp không? Thực tế, nếu bạn đang dùng plugin Yoast SEO thì việc tạo hoặc chỉnh sửa robots.txt sẽ trở nên rất đơn giản.

Để tạo hoặc chỉnh sửa tệp này trong WordPress, bạn có thể làm theo các bước sau:

Bước 1: Đăng nhập vào tài khoản WordPress Admin

Truy cập vào trang quản trị website của bạn (Dashboard).

Bước 2: Truy cập vào Yoast SEO

Tại thanh menu bên trái, chọn: SEO → Tools (Công cụ)

Bước 3: Chọn “File Editor”

Nhấn vào File Editor để truy cập trình chỉnh sửa file robots.txt file và .htaccess.

Lưu ý: Nếu mục này không hiển thị, bạn cần kích hoạt quyền chỉnh sửa file qua FTP.

Bước 4: Tạo hoặc chỉnh sửa robots.txt

Tại đây, bạn sẽ thấy nội dung hiện tại của file robots.txt (nếu đã có). Bạn có thể: Chỉnh sửa nội dung file hiện tại hoặc tạo mới nếu chưa có

Bước 5: Lưu thay đổi

Sau khi chỉnh sửa xong, nhấn Save changes to robots.txt để lưu lại.

Sử dụng Yoast SEO để tiến hành tạo file Robots txt

Qua bộ Plugin All in One SEO

Robots.txt là gì? Đây là tệp điều khiển quyền truy cập của công cụ tìm kiếm vào các phần của website, có thể tạo tệp dễ dàng với plugin All in One SEO:

Bước 1: Truy cập vào trang quản trị WordPress

Đăng nhập vào tài khoản admin WordPress của bạn.

Bước 2: Mở plugin All in One SEO

Tại thanh menu bên trái, nhấp vào: All in One SEO → Features Manager (Trình quản lý tính năng)

Bước 3: Kích hoạt tính năng Robots.txt

Trong danh sách tính năng, tìm Robots.txt và nhấn Activate (Kích hoạt).

Bước 4: Vào mục Robots.txt

Sau khi kích hoạt, tab Robots.txt sẽ xuất hiện trong menu All in One SEO. Nhấp vào đó để truy cập giao diện quản lý file.

Bước 5: Tạo và chỉnh sửa nội dung Robots.txt

Tại đây, bạn có thể:

Xem nội dung hiện tại của file robots.txt
Thêm các quy tắc mới (User-agent, Disallow, Allow,…)

Tuy nhiên, bạn sẽ không chỉnh sửa trực tiếp tệp như trên Yoast SEO. Thay vào đó, giao diện sẽ ẩn một số phần để hạn chế thao tác gây lỗi.

Tạo file Robots txt bằng bộ Plugin All in One SEO

Tạo rồi upload file robots.txt qua FTP

Nếu bạn không muốn dùng plugin để tạo robots txt cho WordPress, thì vẫn có cách thủ công rất dễ làm.

Bước 1: Tạo file robots.txt

Mở trình soạn thảo như Notepad hoặc TextEdit.
Nhập nội dung bạn muốn (ví dụ các lệnh chặn hoặc cho phép bot truy cập).
Lưu file lại với tên robots.txt (chính xác, viết thường).

Bước 2: Kết nối vào hosting bằng FTP

Sử dụng phần mềm FTP như FileZilla để truy cập vào server của bạn.
Đăng nhập bằng thông tin FTP do nhà cung cấp hosting cấp.

Bước 3: Tải file lên thư mục gốc

Tìm đến thư mục gốc của trang (thường là public_html).
Kéo file robots.txt từ máy tính lên thư mục này.

Robots txt vs meta robots vs x-robots

Trong hệ thống SEO và quản lý thu thập dữ liệu, có 3 phương pháp phổ biến để kiểm soát hành vi của các công cụ tìm kiếm: Robots.txt, Meta Robots và X-Robots-Tag. Mỗi loại có cách hoạt động và phạm vi áp dụng khác nhau:

Robots.txt là tệp văn bản giúp hướng dẫn bot thu thập dữ liệu từ website hoặc thư mục cụ thể.
Meta Robots là thẻ HTML trong phần <head> giúp kiểm soát lập chỉ mục và theo dõi liên kết của từng trang.
X-Robots-Tag là tiêu đề HTTP điều khiển hành vi bot với cả nội dung không phải HTML như PDF, hình ảnh.

Câu hỏi thường gặp về robots txt

Dưới đây là một số câu hỏi xoay quanh chủ đề Robots.txt là gì để giúp bạn hiểu rõ hơn về cách thức hoạt động của tệp này:

Một website có thể có nhiều robots txt không?

Mỗi website chỉ nên sử dụng một file robots.txt duy nhất, đặt ở thư mục gốc của trang web. Nếu có nhiều file, các bot sẽ bị nhầm lẫn và quá trình thu thập dữ liệu có thể gặp sự cố hoặc bị gián đoạn.

Robots txt có thể chặn trang khỏi kết quả tìm kiếm hoàn toàn không?

Robots.txt chỉ hướng dẫn bot thu thập dữ liệu, nhưng không bắt buộc. Nếu trang bị chặn có liên kết từ nơi khác, Google vẫn lập chỉ mục. Để ẩn trang, bạn hãy dùng thẻ noindex.

Robots txt khác gì với sitemap.xml?

Robots.txt là file hướng dẫn bot về cách thức thu thập dữ liệu trên website, giúp kiểm soát truy cập của bot đến các khu vực nhất định.
Sitemap.xml là bản đồ trang web liệt kê các URL quan trọng, giúp bot hiểu cấu trúc trang và thu thập dữ liệu một cách hiệu quả hơn.

Muốn cho phép mọi bot truy cập, nên viết gì trong robots txt?

Bạn có thể để file robots.txt trống hoặc sử dụng cú pháp sau để mở cửa hoàn toàn cho các bot:

User-agent: *
Allow: /

Như vậy, chúng ta đã cùng tìm hiểu tất tần tật về Robots.txt là gì và cách thức hoạt động của tệp này. Dù không phải là biện pháp bảo mật tuyệt đối, nhưng nếu áp dụng đúng cách, Robots.txt sẽ giúp tối ưu hóa việc thu thập dữ liệu và bảo vệ các khu vực quan trọng trên website. Nếu bạn quan tâm đến hiệu quả SEO toàn diện và muốn tham khảo thêm Bảng giá traffic user, đừng ngần ngại truy cập Auto Ranker để được tư vấn chi tiết.

Robots txt là gì? Hướng dẫn đầy đủ về cấu trúc, chức năng và cách sử dụng hiệu quả

Tìm hiểu về file robots txt là gì?

File Robots txt là gì?

Vị trí của file robots txt

Kiểm tra website đã có file robots txt chưa

Cấu trúc chuẩn của robots txt trong quản trị website

Pattern – Matching

Định dạng cơ bản của file robots txt

File robots txt chuẩn

Chức năng của robots txt với công cụ tìm kiếm

Robots txt trong hoạt động của Googlebot và các lệnh được hỗ trợ

User-Agent

Disallow

Allow

Sitemap

Những điểm yếu cần lưu ý của file robots txt

Một số bot tìm kiếm không tuân theo robots txt

Cú pháp phân tích khác nhau giữa các bot

Bị tệp robots.txt chặn nhưng Google vẫn có thể index

Không bảo mật hoàn toàn thông tin

Nguyên tắc cơ bản khi viết file robots txt

Hướng dẫn tạo robots txt cho WordPress nhanh chóng

Sử dụng Yoast SEO

Qua bộ Plugin All in One SEO

Tạo rồi upload file robots.txt qua FTP

Robots txt vs meta robots vs x-robots

Câu hỏi thường gặp về robots txt

Một website có thể có nhiều robots txt không?

Robots txt có thể chặn trang khỏi kết quả tìm kiếm hoàn toàn không?

Robots txt khác gì với sitemap.xml?

Muốn cho phép mọi bot truy cập, nên viết gì trong robots txt?

Dịch vụ

Chính sách

Thông tin liên hệ

Tìm hiểu về file robots txt là gì?

File Robots txt là gì?

Vị trí của file robots txt

Kiểm tra website đã có file robots txt chưa

Cấu trúc chuẩn của robots txt trong quản trị website

Pattern – Matching

Định dạng cơ bản của file robots txt

File robots txt chuẩn

Chức năng của robots txt với công cụ tìm kiếm

Robots txt trong hoạt động của Googlebot và các lệnh được hỗ trợ

User-Agent

Disallow

Allow

Sitemap

Những điểm yếu cần lưu ý của file robots txt

Một số bot tìm kiếm không tuân theo robots txt

Cú pháp phân tích khác nhau giữa các bot

Bị tệp robots.txt chặn nhưng Google vẫn có thể index

Không bảo mật hoàn toàn thông tin

Nguyên tắc cơ bản khi viết file robots txt

Hướng dẫn tạo robots txt cho WordPress nhanh chóng

Sử dụng Yoast SEO

Qua bộ Plugin All in One SEO

Tạo rồi upload file robots.txt qua FTP

Robots txt vs meta robots vs x-robots

Câu hỏi thường gặp về robots txt

Một website có thể có nhiều robots txt không?

Robots txt có thể chặn trang khỏi kết quả tìm kiếm hoàn toàn không?

Robots txt khác gì với sitemap.xml?

Muốn cho phép mọi bot truy cập, nên viết gì trong robots txt?

Các bài viết liên quan