هدر دادن منابع سرور برای این صفحات، باعث از بین رفتن Crawl Budget شما میشود. به این ترتیب صفحات ارزشمند و مهمی که واقعاً نیاز به ایندکس شدن دارند خیلی دیرتر به نتایج جستجو راه پیدا میکنند. در ادامه میخواهیم با جزئیات کامل درباره همین فایل مهم صحبت کنیم. قدم به قدم جلو میرویم تا ببینیم چطور میتوان از فایل Robots.txt استفاده کرد؛ چطور میتوانیم رباتها را محدود کنیم، چطور از ایندکس شدن صفحهها جلوگیری کنیم و در نهایت یک فایل Robots.txt عالی بسازیم. با وجود این که امروزه تمامی موتورهای جستجو به این دستورالعمل ها احترام می گذارند ولی باید توجه داشت که پیروی از آنها برای هیچ یک از موتورهای جستجو اجباری نیست.
سایت شرکت آفر
اگر مطمئن نیستید که Robots.txt را دارید یا نه میتوانید به سادگی در انتهای آدرس سایت خود یک Robots.txt را تایپ کنید تا مشخص شود که سایت شما دارای این فایل است یا خیر. فقط کافی است در انتهای آدرس یک سایت کلمه Robots.txt را قرار دهید تا این فایل را برای شما نشان دهد. افزونه رنک مث هم که به تازگی به یکی از رقبای جدی پلاگین یواست تبدیل شده، برای ویرایش مستقیم فایل robots.txt بخشی را در نظر گرفته است. با اینحال در سیستم مدیریت محتوا وردپرس به لطف پلاگینهای مختلف که برای آن طراحی شده است، کار حتی از این هم راحتتر است.
عملکرد موتورهای جستجو در زمان برخورد با دستورالعمل Crawl-delay
بنابراین، اگر میخواهید اطلاعات را از خزندههای مخفی نگه دارید، بهتر است از روشهای مسدودسازی دیگر مانند محافظت از فایلهای خصوصی با رمز عبور روی سرور خود استفاده کنید . قطعاً استفاده از Robots.txt برای سایت یک سری مزایایی را به همراه خواهد داشت، برای مثال یکی از این مزایا عبارت است از بهینهسازی بودجه خزش یا همان Crawl Budget. با استفاده از فایل Robots.txt همانطور که گفته شد، شما میتوانید به خزندههای موتورهای جستجو دستوراتی را بدهید تا با پیروی از آن درک صحیحتری از سایت شما داشته باشند.
در همین صفحه، حجم دانلود شده توسط رباتها و همینطور زمان بارگذاری صفحهها را میتوانید ببینید. در این بخش قصد دارم برخی از مهم ترین مثال های فایل robots.txt را در اختیار شما قرار بدم. دلیل دیگر این است که موتورهای جستجوی دیگری نیز وجود دارند که ممکن است به اندازه گوگل در این خصوص بخشنده نباشند. برای این که یک ربات خاص نیز از دستورالعمل های عمومی تمامی ربات ها پیروی کند باید این دستورالعمل ها را برای ربات خاص مد نظر خود نیز تکرار کنید. داشتن چندین گروه از دستورالعمل ها برای یک موتور جستجو می توانند باعث سردرگم شدن آنها شود. حتما باید برای هر موتور جستجو یک گروه از دستورالعمل ها را تعریف کنید.
- اگر در دسترس نباشد، گوگل فرض می کند که هیچ محدودیتی برای خزیدن وجود ندارد.
- با اینکار در حقیقت اعلام میکنیم که تمام رباتها مد نظر ما هستند و تمام رباتها باید به دستورات ما توجه کنند و دیگر نیازی نیست اسامی تک تک رباتها را بنویسیم.
- اما وقتی کدهای مربوطه را در صفحات خود جاسازی می کنید، ممکن است گوگل پیشنهاد دهد که به دلیل اینکه محتوای جایگذاری شده بدون فهرست است، این کار را انجام ندهید.
- در این مقاله از سایت سئواستاد به طور مفصل در مورد نحوه تنظیم اصولی فایل Robots.txt بر اساس سئو صحبت می کنیم.
در ادامه به بررسی مهمترین دستوراتی میپردازیم که به کمک آنها میتوانیم برای رباتهای مختلف قوانین بخصوصی را برای بررسی سایتمان مشخص کنیم. علاوه بر اینها، گوگل رباتهای مختلف دیگری را هم دارد که لیست کامل نام و وظیفه آنها را میتوانید در مقاله “مرور خزندههای موتور جستجو گوگل” که توسط خود گوگل منتشر شده است ببینید. فقط فراموش نکن من بارها در آموزش سئو وبین سئو گفتم که site map سایت مپ ات را هم داخل robots.txt به گوگل معرفی کن. یعنی چی؟ یعنی اینکه یک تایمی ربات های گوگل برای هر سایت در نظر می گیرند تا در داخلش خزش کنند.
هنوز که هنوز است خیلیها از عملکرد دقیق فایلهای ربات اطلاعی ندارند. استانداردهای خاصی برای آن وجود ندارد و نمیتوان با قطعیت گفت کدام المانها و به چه شکل در فایلهای Robots.txt میتوانند سرنوشت ساز باشند. در این مقاله به طریقه و روش استفادهی صحیح از این فایلها پرداختهایم تا بدون هر گونه ریسک و تاثیرگذاری منفی در سئو از آنها استفاده کنید. یکی از ابزارهای مجله خبری سئو مختلف که به شما در بررسی صحت فایل robots.txt کمک میکند استفاده از ابزار تست robots.txt گوگل است. در مثال زیر تمامی رباتها از دسترسی به دایرکتوری media منع شدهاند اما در عین حال اجازه دسترسی به یک فایل پی دی اف با عنوان terms-and-conditions.pdf موجود در دایرکتوری media داده شده است. تصویر زیر فایل robots.txt سایت یوتیوب به عنوان نمونه نمایش داده شدهاست.
BOM در واقع مخفف عبارت byte order mark است که در واقع یک کاراکتر غیر قابل مشاهده در ابتدای فایل robots.txt می باشد و برای رمزگذاری منحصر به فرد یک فایل متنی مورد استفاده قرار می گیرد. بهترین راه برای ارسال یک سیگنال به موتورهای جستجو به منظور این که یک صفحه نباید ایندکس شود این است که از تگ meta robots یا X-Robots-Tag استفاده کنید. این مسئله به خصوص زمانی که قصد راه اندازی ویژگی های جدید در وب سایت خود را دارید بیشتر از قبل خود را نمایش می دهد و تاثیر بیشتری روی سئو سایت شما می گذارد. دستورالعمل های فایل robots.txt تنها برای دامنه یا زیردامنه ای که در آن قرار دارد اعمال می شود.
برای حذف کامل صفحات از نتایج گوگل به جای فایل robots.txt از تگ noindex استفاده کنید