صفحه ای که در برابر خزیدن مسدود شده باشد ممکن است همچنان توسط ربات ها ایندکس شود. به منظور دسترسی آسوده تر در هنگام نظر دهی، نام، ایمیل و وبسایت مرا در این مرورگر ذخیره کن. برای جلوگیری از بروز این خطا، توصیه میشود که بعد از URL نقشه سایت یک خط را خالی بگذارید. لینکها به صفحههایی که در robots.txt لیست شدهاند اگر به صفحههای دیگری که پیمایش شدهاند لینک باشند هنوز هم میتوانند در نتایج جستجو ظاهر شوند.
robots.txt چیست؟
در واقع با این کار به رباتها میگویید کدام صفحهها اصلاً در اولویت شما نیستند. حتماً شما هم نمیخواهید که ربات خزنده گوگل برای مشاهده و ایندکس محتوای تکراری و کم ارزش، سرورهای شما را اشغال کند. بنابراین برای جلوگیری از جمع آوری اطلاعات صفحات غیرضروری سایت و کاهش حجم رفت و آمد رباتها به وب سایت خود حتما باید به فکر ایجاد فایل Robots.txt باشید. فایل Robots.txt در حقیقت به رباتها اطلاع میدهد که کجا میتوانند فایل یا فایلهای نقشه سایت XML را پیدا کنند و در این میان کدام صفحات نباید کراول شوند. قبل از اینکه رباتهای موتورهای جستجو نظیر گوگل صفحات وب را کراول کنند ابتدا فایل Robots.txt را بررسی میکنند و اگر این فایل موجود باشد مطابق با اطلاعات مندرج در آن اقدام به ایندکس کردن صفحات میکنند.
در ادامه نحوه بروزرسانی و انجام تغییرات در داخل فایل robots.txt را در دو پلاگین یواست و رنک مت ، بررسی خواهیم کرد. گاهی اوقات با بزرگ شدن فایل ربات لازم میشود که یادداشتهایی برای خودمان بگذاریم تا بعدا خیلی سریعتر متوجه کارهایی که قبلا انجام دادهایم شویم و ضریب خطا هم کاهش پیدا کند. ربات Googlebot-Image وقتی به این دستور میرسد متوجه میشود که علارقم اینکه نباید محتوای فولدر mypic را بررسی مجله خبری سئو کند اما استثنا یک فولدر به نام logo.png در آن وجود دارد که باید آن را بررسی کند. همچنین اگر کنجکاو شدید که از اسامی معروفترین خزندهها و رباتهای دنیای اینترنت باخبر شوید، میتوانید دیتابیس اسامی رباتها را مشاهده کنید. اگر نسبت به این موضوع هیچ اطلاعاتی ندارید ویا علاقهمند آشنایی و درک بهتر موضوع فوق العاده مهم بودجه خزش هستید حتما مقاله “بودجه خزش سایت چیست” را با دقت مطالعه کنید.
اگر پاسخ سوال شما در این قسمت نیست، سوال خود را قسمت نظرات برای ما بنویسید. تمایلی به دسترسی رباتها به صفحات برچسب و نویسندگان سایت ندارید. بدین ترتیب تمامی صفحات موجود در وبلاگ از دسترس ربات بایدو خارج خواهد شد. اگر تا الان روی سئوی سایتت کاری نکردی، بهتره که از همین امروز شروع کنی. محتواها را ایندکس کنند تا به کسانی که دنبال اطلاعات در دنیای وب هستند نشان دهند.
Google در حال حاضر محدودیت اندازه فایل robots.txt را 500 کیلوبایت اعمال می کند. میتوانید با ادغام دستورالعملهایی که منجر به ایجاد یک فایل robots.txt بزرگتر میشود، اندازه فایل robots.txt را کاهش دهید. به عنوان مثال، مطالب حذف شده را در یک فهرست جداگانه قرار دهید.
نقشه سایت یا سایت مپ یک فایل با پسوند XML است که تمام محتواهای مهم روی یک سایت را فهرست میکند و نحوه ارتباط صفحات مختلف را نمایش میدهد. دستور sitemap که در ادامه این دستور آدرس نقشه سایت میآید یک روش برای نشان دادن نقشه سایت به موتور جستجو است. این دستور برای اطمینان حاصل کردن از این است که هیچ صفحهای در حین خزیدن در سایت فراموش نشود. با این وجود وجود نقشه سایت تاثیری در اولویتبندی خزش صفحات توسط ربات ندارد. مدیریت منابع مصرفی سرور توسط رباتها امری مهم است زیرا به جز رباتهای موتورهای جستجو، رباتهای بد دیگری وجود دارند که به دستورات موجود در فایل robots.txt توجه نمیکنند.
یا بهتر است بگوییم در کجا باید بدنبال این فایل بگردیم؟ پاسخ این سوال بسیار ساده است. دقت داشته باشید که اگر این فایل در هاست شما موجود نبود می توانید خودتان آن را ایجاد کنید. حالا یک فایل با نام robots.txt در مسیر اصلی سایت خود ایجاد کنید و محتوای فوق را در آن کپی نمایید.
- اگر شما اعتقاد دارید در بودجه خزش سایت شما اشکالاتی وجود دارد پس بلاک کردن موتورهای جستجو از بررسی قسمتهای کم اهمیت سایت، از هدر رفت بودجه خزش جلوگیری میکند.
- یک روش مشاهده ساده که برای هر سایتی کار می کند این است که URL دامنه را در نوار جستجوی مرورگر خود تایپ کنید و /robots.txt را در پایان اضافه کنید.
- برای مشاهده و ویرایش فایل ربات در وردپرس یا هر سایت دیگری به فایل منیجر در پنل هاست مراجعه کنید و درون فولدر public_html بدنبال فایل robots.txt بگردید.
- با این حال، تگ noindex از نشان دادن محتوا در صفحات دیگر نیز جلوگیری میکند.
در حقیقت این دستور، بیانگر آدرس صفحهای است که میخواهید از دید روباتها پنهان بماند. حالا که متوجه شدید گوگل چه دیدی از سایت شما دارد، شاید بهتر باشد برای اصلاح این دید، دست بکار شوید. این بدان معناست که اگر از دستور شما پیروی کنند، برخی یا کل صفحات را بررسی نمی کنند. ارزش لینک سازی شما زیاد است و زمانی که از robots.txt به درستی استفاده می کنید، ارزش پیوند به صفحاتی که واقعاً می خواهید ارتقا دهید منتقل می شود. فقط از فایلهای robots.txt برای صفحاتی استفاده کنید که نیازی ندارید در آن صفحه لینک سازی به دیگر صفحات داشته باشید. از آنجایی که منبع محدودی از خزیدن دارید، میتوانید robots.txt را نصب کنید تا از صفحات اضافی از طریق Googlebot جلوگیری کرده و آنها را به موارد مهم معرفی کنید.
آشنایی با دستورات فایل Robots.txt و معانیشان