رباتهای موتورهای جستوجو فقط دستورات Disallow و Allow را قبول دارند و میدانند. البته میتوانیم با دستور Crawl-delay، گشتن و کراول کردن آنها را برای صفحهای خاص به تاخیر بیاندازیم. سایت مپ، سایت شما نیز در دستورات فایل Robot.txt قرار میگیرد که به رباتهای موتورهای جستوجو میگوید فایل XML نقشه سایت کجاست. پس برای اینکه به آنها بگویید صفحهای را ایندکس نکنند باید از دستور Disallow و برای اینکه بگویید بعدا این صفحه را کراول کنند از دستور Crawl-delay باید استفاده کنید.
بررسی صحت فایل robots.txt
موتور جستجو گوگل به تجربه کاربری سایتها توجه ویژهای دارد، یکی از مواردی که به تجربه کاربری کاربران لطمه زیادی وارد میکند بحث از دسترس خارج شدن سایت یا به اصطلاح down شدن آن است. برای انجام این کار و یافتن خطاهای فایل Robots.txt ابتدا وارد وب سایت Google Search Console شده و سپس وارد بخش robots.txt Tester شوید و گزینه Test را انتخاب کنید. در صورت وجود هرگونه مشکل در فایل Robots.txt پس از چند ثانیه ارور قرمز رنگ Disallowed به همراه تمامی خطاهای موجود به صورت با هایلایت شده برای شما نمایش داده میشوند. اما اگر فایل خود را به درستی تنظیم کرده باشید گزینه قرمز Test به گزینه Allowed سبز رنگ تغییر پیدا خواهد کرد.
امیدواریم این نگاه حرفهای به رقابتی سالم دامن بزند که در نهایت به پیشرفت وب فارسی منجر شود. مثلا در مثال بالا رباتهای خزنده از دسترسی به تمام فایلهای پی دی اف و اکسل منع شدهاند. مثلا در مثال بالا رباتهای خزنده از دسترسی به تمام آدرسهایی که به autos. در مثال زیر تمامی رباتها از دسترسی به دایرکتوری media منع شدهاند اما در عین حال اجازه دسترسی به یک فایل پی دی اف با عنوان terms-and-conditions.pdf موجود در دایرکتوری media داده شده است. در صورتی که سایت شما دارای ساب دامین است لازم است هریک از این ساب دامینها دارای فایل robots.txt مختص خود باشند. بعنوان مثال nardebangroup.com فایل خودش را دارد و my.nardebangroup.com هم فایل robots.txt جدا دارد.
در واقع بخش های اطلاعات در سازمان ها و ادارات مختلف با هدف راهنمایی مراجعه کنندگان و پاسخ به سوالات آن ها ایجاد شده اند. (همچنین، اگر از پلاگین های وردپرس برای ریدایرکت یا کاستومایز پرمالینک ها استفاده کرده باشید، ممکنه اشکال از این پلاگین ها باشه و با غیر فعال کردنشون ممکنه که این مشکل برطرف بشه). در مورد مشکلت فکر نمی کنم robots.txt بتونه بهت کمکی بکنه چون این مشکل باید از یک جای دیگه درست بشه.
فایل robots.txt چیست؟
این امر بهویژه در مورد خزندههای بد مانند رباتهای بدافزار یا خراش دهنده آدرس ایمیل رایج است. استفاده از این نحو در فایل robots.txt به همه خزندههای وب میگوید که هیچ مجله خبری سئو صفحهای را در از جمله صفحه اصلی، نخزند. اگر فایل حاوی قاعدهای باشد که برای بیش از یک کاربر عامل اعمال میشود، خزنده فقط به خاصترین گروه دستورالعملها توجه میکند.
- با این حال از اول سپتامبر 2019 گوگل پشتیبانی از این دستورالعمل را به طور کامل متوقف کرد.
- هنگامی که یک برنامه، اتصال به یک وب سرور را آغاز میکند (خواه یک ربات باشد یا یک مرورگر وب استاندارد)، اطلاعات اولیه هویت خود را از طریق یک هدر HTTP به نام “user-agent” ارائه میدهد که منظور همان عامل کاربر است.
- درصورتیکه در هر یک از مواردی که در این نوشته بیانشده مشکل، سؤال ابهامی دارید متوانید از بخش دیدگاهها مطرح کنید و تا حد توان کارشناسان ما پاسخ گوی شما خواهند بود.
- برای قرار دادن کامنت می توانید از کاراکتر # در ابتدای توضیحات استفاده نمایید.
- فایل Robots.txt یک فایل متنی و ساده است که با ساخت آن میتوانید از ایندکس شدن برخی صفحات در وب سایت خود جلوگیری نمایید.