همانطور که میدانید رباتهای موتورهای جستجو مهمترین نقش را در معرفی کامل یک سایت دارند. این رباتها چگونه به سایتهای گوناگون دسترسی پیدا میکنند؟ و چطور میتوان دسترسی آنها به سایت را محدود یا گسترش دهیم؟ در اینجا کاربرد Robots.txt مشخص میشود. در این بخش همراه ما باشید تا با Robots.txt بیشتر آشنا شویم.
Robots.txt چیست؟
در واقع یک فایل است که مانند یک کتاب قانون سخت عمل می کند؛ و از طریق این فایل به موتورهای جستجو و اکثر روبات ها و خزنده ها دستور می دهید که چه صفحاتی را نبینند و یا چه صفحاتی را ببینند.
کاربرد Robots.txt زمانی مشخص می شود که در سایت خود بخش هایی دارید که نمی خواهید خزنده ها آنها را ببینند و یا اصلا نیازی نمی بینید که آن بخش ها در نتایج جستجو دیده شوند.
برای ایجاد یک فایل Robots.txt ابتدا باید به هاست دسترسی داشته باشید و این فایل را در ریشه اصلی آن کپی کنید. اگر به هر دلیلی به هاست دسترسی ندارید، میتوانید با قرار دادن تگ های متا در هدر صفحه دسترسی ربات های گوگل را به آن محدود نمایید. اگر این فایل در هاست آپلود نشده باشد، رباتهای موتورهای جستجو امکان دسترسی به تمام صفحات عمومی را داشته و قادر به ایندکس کردن تمام محتوای سایت را دارند.
آشنایی با دستورات و کاربرد robots.txt
فایل robots.txt سایت از دو فرمان کلی پیروی میکند، با بکارگیری این دو دستور، شما میتوانید قوانین مختلفی را برای دسترسی رباتهای موتورهای جستجوگر برای ورود به سایتتان مشخص کنید.
- user-agent: این دستور برای یک ربات خاص استفاده میشود. بدین معنا که “دستورات فایل، برای همه رباتهای جستجوگر یکسان عمل کند، بجز ربات گوگل”.
- Disallow: این دستور برای آدرس صفحه ای است که میخواهید روبات ها آن را نبینند و بررسی نکنند.
- Allow: این دستور به ربات گوگل میگوید که اجازه مشاهده یک فایل، در فولدری که Disallowed شده را، دارد.
- Crawl-delay: این عبارت یعنی پایشگر باید قبل از بارگذاری پایش محتوای صفحه صبر کند.
- Sitemap: اشاره به نقشه های سایت XML دارد.
آزمایش Robots.txt در بخش robots.txt Tester گوگل
وبسمتر گوگل برای تست و ارزیابی فایل robots.txt که دسترسی روبات ها به آن محدود شده است، قسمتی را در نظر گرفته است که با نام robots.txt Tester شناخته می شود.
در این بخش می توانید میزان محدودیت روبات های گوگل و دسترسی آن ها را آزمایش کنید، کافی است در بخش انتهایی یک نوع از روبات های گوگل را انتخاب کنید و با فشردن دکمه Test نتیجه سنجش و میزان دسترسی روبات ها به هر یک از آدرس ها برایتان نمایش داده میشود.
ضرورت وجود robots.txt در سایت
- جلوگیری از ایجاد مشکل محتوای تکراری
- خصوصی نگه داشتن بخشهایی از وبسایت
- جلوگیری از ایندکس شدن صفحات نتایج جستجوی داخلی وبسایت
- اشاره به نقشه وبسایت
- جلوگیری از ایندکس شدن برخی از فایل ها مانند PDF ها در وبسایت
- ایجاد تاخیر در پایش وبسایت برای جلوگیری از فشار زیاد بر روی سرور سایت
- بهینه سازی بودجه پایشی (Crawl Budget)
موارد قابل پنهان توسط robots.txt
- صفحات با محتوای تکراری
- صفحات دوم به بعد دسته بندی ها
- آدرس های دینامیک محصولات یا دسته بندی ها
- صفحات پروفایل کاربران
- صفحات ادمین
- صفحه سبد خرید
- صفحه گفتگو های کاربران
- صفحه تشکر از کاربران
- صفحه جستجو ها