در این فایل با چند دستور ساده مشخص میکنیم که ربات اجازه بررسی کدام صفحهها را دارد و کدام صفحهها را نباید بررسی کند. مثلاً مهمترین ربات گوگل یا همان Googlebot کارش پیدا کردن صفحههای جدید در اینترنت و دریافت آن برای بررسیهای بیشتر توسط الگوریتمهای رتبهبندی کننده است. پس رباتها نه تنها ضرری برای سایت شما ندارند، بلکه باید خیلی هم از آنها استقبال کرد. موتور جستجوی گوگل تنها اجازه دسترسی به /not-launched-yet/ را ندارد اما اجازه دسترسی به /secret/ و /test/ برای آن فراهم شده است. به عنوان مثال در موتورهای جستجو گوگل و بینگ در صورتی که تعداد کاراکترهای استفاده شده در دستورالعمل Allow بیشتر باشد اولویت بیشتری نسبت به دستورالعمل Disallow خواهد داشت.
- هدف این رباتهای مخرب پیدا کردن ایمیلهای شرکتی است تا هرزنامه و اسپمها را به صورت انبوه برای این ایمیلها ارسال کنند.
- دستور دیر خزیدن یا crawl-delay، مقداریست که توسط برخی از رباتهای خزنده وب پشتیبانی میشود.
- توجه داشته باشید که حتما از یک صفحهی 404 یا صفحات مشابه برای دایرکتوریهایی که قرار نیست ایندکس شوند اما وجود دارند استفاده کنید.
- فایل Robots.txt شامل URLهایی است که نمیخواهید توسط رباتهای گوگل و یا هر موتور جستجوگر دیگری ایندکس شوند و در معرض دید کاربران قرار گیرند.
- استفاده از تگ noindex برای پیاده سازی روی منابع چندرسانه ای مانند فیلم ها و فایل های PDF دشوار خواهد بود.
- همچنین با دستورهای Allow و DisAllow میتوان مشخص کرد که همهی رباتها یا فقط رباتهای خاصی، به بخشهای مختلف سایت دسترسی داشته باشند یا دسترسی نداشته باشند.
مدیریت ترافیک رباتها از این جهت اهمیت دارد که سرور میزبان وبسایت شما برای پردازش و بارگذاری صفحات برای رباتها مشغول نشود. از طرف دیگر، اکثر سرورها یا میزبانهای وبسایت از نظر پنهای باند و ترافیک محدودیت دارند؛ به همین دلیل مصرف ترافیک برای رباتها مقرون به صرفه نیست. نمی خواهید که موتورهای جستجو صفحات مربوط به تگ ها و نویسنده ها در وب سایت شما بخزند. نمی خواهید که موتورهای جستجو صفحات جستجوی داخلی وب سایت شما را بخزند. یکی از مهم ترین نکاتی که باید درباره فایل robots.txt بدانید این است که موتورهای جستجو به شکل های مختلفی از این فایل استفاده می کنند.
حالا باید این فایل را در سرور میزبان به جای فایل قبلی قرار دهید. بعد از این که فایل را ساختید آن را باید در سرور میزبان سایت آپلود کنید. حالا این فایل را باز کنید و طبق راهنمایی که گفته شد، دستورات لازم را در آن بنویسید. با نگاه کردن به فایلهای robots.txt دیگر سایتها میتوانید از آنها برای سایت خودتان الگو بگیرید. راههای دیگر جایگزین برای حذف صفحه از نتایج جستجئی گوگل را در ادامه معرفی میکنیم. با این حال از اول سپتامبر 2019 گوگل پشتیبانی از این دستورالعمل را به طور کامل متوقف کرد.
به طور کلی فایل هایی که در دستور disallow قرار داده می شوند توسط ربات های گوگل خزیده نمی شوند. درنهایت، پس از واردکردن دستورات، بر روی گزینه Test که در پایین صفحه در سمت راست قرار دارد، کلیک کنید.اگر نوشته دکمه از Test به Allowed تغییر یافت به این معنی است که فایل robots.txt شما معتبر است. با ترکیب این دو دستور شما قادر خواهید بود قوانین مختلفی برای دسترسی به صفحات داخلی سایت خود وضع کنید. برای مثال با یک User-agent میتوان مشخص کرد چندین آدرس را معرفی نمود و یا برعکس این کار. این دستور به ربات گوگل میگوید که اجازه مشاهده و ایندکسِ فایل seo.png را دارد، علیرغم اینکه فولدر Photos از دسترس رباتها خارجشده است. دستور Disallow به رباتها میگوید که چه فولدرهایی از سایت شمارا نباید بررسی کنند.
کد بالا به این معنی است که “اجرای دستورات فایل، تنها برای ربات گوگل الزامی است. در نهایت، ما با بررسی Crawl Rate و Crawl Demand، مقدار Crawl Budget یک وبسایت را تعریف میکنیم. در واقع Crawl Budget، تعداد URLهایی است که ربات گوگل میخواهد و میتواند ایندکس کند. Crawl Stats وجود دارد که دفعات بررسی صفحههای سایت به صورت روزانه را نمایش میدهد.
در استفاده از Nofollow و Disallow به طور همزمان مراقب باشید.
موتورهای جستجوگر شناخته شده نظیر گوگل، بینگ و… این توانایی را دارند که با بررسی محتویات فایل Robots.txt درک بهتری نسبت به ساختار یک سایت پیدا کنند و از برخی دستورات داده شده پیروی کنند. Robots.txt مخفف شده عبارت Robots Exclusion Protocol میباشد که به معنی پروتکل حذف ربات میباشد. اگر اجازه بررسی صفحهای را با دستورات فایل ربات نداده باشیم باز هم امکان دارد گوگل آن را ایندکس کند و در نتایج جستجو ظاهر شود. ربات گوگل یا باید به صورت مستقیم صفحه را دریافت و بررسی کند (معمولاً به کم نقشه سایت) یا باید از لینکهای دیگری که از صفحهها و سایتهای دیگر به آن صفحه دادهاند آن را پیدا و بررسی کند.
ساخت فایل ربات
هنگامی که فایل robots.txt خود را در رایانه خود ذخیره کردید، آماده است تا آن را در اختیار خزنده های موتورهای جستجو قرار دهید. هیچ ابزاری وجود ندارد که بتواند در این مورد به شما کمک کند، زیرا نحوه آپلود فایل در سایت شما به معماری سایت و سرور شما بستگی دارد. در مبحث شبکه، پروتکل قالبی برای ارائه دستورالعملها یا دستورات است.
این کار با مقایسه قاعده با مؤلفه مسیر URL که خزنده سعی در واکشی آن را دارد کار می کند. نقش اصلی آن بهینه سازی نرخ خزش است و اینکه به ربات ها بگویید کجا را کراول کنند و کجا را کراول نکنند تا فرصت کراول برای صفحات مهم تر ایجاد شود. در صورتی که مشکل صفحه را حل نکنید و دستور دیس الو را هم اجرا نکنید، صفحه مورد نظر در گوگل ایندکس می شود و ممکن است به سئو سایت شما ضربه بزند. در مثال بالا همه رباتهای خزنده از دسترسی به تمامی آدرسهایی که دارای کاراکتر ؟ هستند منع شدهاند. برای صدور دسترسی کامل به کل سایت برای رباتهای خزنده دستور Disallow به شکل زیر خواهد بود. جلوگیری از ایندکس برچسب ها و تگ هایی که محتوای تکراری یا اضافی در سایت ایجاد می کنند.
بعد از اینکه این فایل را در پنل مدیریت خود قرار دادید، نوبت به آن می رسد که دسترسی سرچ کنسول را نیز به او بدهید در این صورت ربات ها گوگل زودتر به صفحات allow و یا disallow خواهند رسید. برای مثال می توانید به ربات های گوگل بگویید که کدام صفحات مجله خبری سئو سایت شما را ایندکس کنند و در نتایج گوگل نمایش دهند و کدام صفحات را در نتایج گوگل نمایش ندهند و ایندکس نکنند. فایل Robots.txt یک فایل متنی کاملا ساده است؛ همانطور که از نام این فایل پیداست، فرمت .txt دارد و در دایرکتوری سایتتان قرار خواهد داشت.
از استفاده از UTF-8 BOM در فایل robots.txt خودداری کنید
یک User-agent میتواند تنها با یک مجموعه قوانین مطابقت داشته باشد، که اولین و خاص ترین گروهی است که با یک User-agent مشخص مطابقت دارد. دستور Disallow را می توان به روشهای مختلفی مورد استفاده قرار داد که چندین مورد از آنها در مثال بالا نمایش داده شده است. چگونه یک فایل robots.txt ایجاد کنیم؟قوانین قالب و مکان1- نام فایل باید robots.txt باشد. طراحی سایت انتشارات برای ناشران و موسسات فعال در زمینهی نشر کتاب اهمیت بسیاری پیدا کرده است. طراحی سایت انتشارات یکی از انواع طراحی سایت است که ما در مه ویژن به صورت کاملاً حرفهای آن را از صفر تا صد طراحی و پیادهسازی میکنیم.