درصورتیکه در هر یک از مواردی که در این نوشته بیانشده مشکل، سؤال ابهامی دارید متوانید از بخش دیدگاهها مطرح کنید و تا حد توان کارشناسان ما پاسخ گوی شما خواهند بود. در فهرستهای شخصی، robots.txt میتواند از مجله خبری سئو رباتهای موتور جستجو جلوگیری کند، اما به یاد داشته باشید که این کار از اطلاعات حساس و خصوصی محافظت نمیکند. این کار به این دلیل کار می کند که فایل robots.txt همیشه باید در فهرست اصلی وب سایت قرار گیرد.
مسدود کردن یک فایل (به عبارت دیگر، یک صفحه وب خاص)
برخی از موتورهای جستوجو مانند گوگل رباتهای خاص برای خود داند. گوگل رباتهایی دارد که عکس را جستوجو میکنند و رباتهایی نیز دارند که به سراغ محتواها میروند. نیازی نیست برای این دو ربات جداگانه دستورالعمل مشخص کنیم، اما دادن دستورالعمل میتواند، نحوهی خزیدن این رباتها در سایت شما را تنظیم و کنترل کند.
دستورات فایل ربات شما از ایندکس جلوگیری نمی کند و می بایست مابقی تنظیمات وردپرس را برای این مورد بررسی نمایید. در انتها هم با زدن دکمه submit از گوگل بخواهید تا فایل جدید را دریافت و بررسی کند. اگر این کارها را با موفقیت انجام دهید، ساعت و تاریخ آخرین بررسی فایل ربات به زمانی بعد از درخواست تغییر میکند. برای اطمینان هم میتوانید دوباره از همین ابزار برای مطمئن شدن استفاده کنید. بعد از انتخاب وبسایت به صفحهای هدایت میشوید که آخرین محتوای فایل Robots.txt که گوگل دریافت و بررسی کرده را نمایش میدهد. میتوانید فایل را در همین صفحه ویرایش کنید و بعد با زدن دکمه submit صفحهای باز میشود.
در ادامه این نوشته به بررسی دقیقتر و عمیقتری از فایل Robots.txt میپردازیم. اهمیت استفاده از فایل Robots.txt برای یک سایت از آن جهت است که شما میتوانید مدیریتی درست و ساختارمند بر روی سایت خود و محتواها و صفحات مختلف آن داشته باشید. برای پیدا کردن یک شناخت بهتر نسبت به فایل Robots.txt در ادامه همراه ما باشید. Google دارای خزندههایی جدا از «Googlebot» اصلی است، از جمله Googlebot Images، Googlebot Videos، AdsBot و موارد دیگر. با robots.txt میتوانید خزندهها را از فایلهایی که نمیخواهید در جستجوها ظاهر شوند، دور کنید. به عنوان مثال، اگر میخواهید فایلها را از نمایش در جستجوهای Google Images مسدود کنید، میتوانید دستورالعملهای غیر مجاز را روی فایلهای تصویری خود قرار دهید.
در این مثال هیچ یک از موتورهای جستجو اجازه دسترسی به لینک هایی که شامل علامت سوال می باشند را ندارند. این کارها تنها می تواند از نمایش داده شدن این صفحات توسط موتورهای جستجو در لیست جستجوی آنها جلوگیری کند. استفاده از یک لینک canonical یا تگ meta robots نمی تواند از خزیدن موتورهای جستجو در این صفحات جلوگیری کند.
اجازه دسترسی به همه خزندههای وب برای تمام محتوای سایت:
در این بخش، گوگل به شما کنترل بیشتری می دهد تا بگویید، صفحه ای را که در آن کدهای مربوطه جایگذاری شده اند را چگونه فهرست کنید. این موضوع را به عنوان هشداری در گوگل در مورد جایگذاری شبکه های اجتماعی از جمله اینستاگرام یا سایر تصاویر و مشکلات سئو که می توانید ایجاد کنید موثر خواهد بود. در یک فایل Robots.txt با چندین دستورالعمل، میتوان قوانین مجاز به دسترسی و عدم مجاز به دسترسی را ایجاد کرد. همانطور که در تصویر زیر مشاهده میکنید یک Robots.txt مشخص شده است که در آن قواعد مختلف برای رباتها توسط یک کاربر ایجاد شده است. رباتها و خزندهها فقط به مواردی که به آنها دسترسی یا همان کد follow داده شده است میتوانند مراجعه کنند.
یک نمونه فایل ربات جالب
دقت داشته باشید که صفحات اصلی را از دید ربات ها پنهان نمی کنید. این اقدام تنها بایست در ابتدای ساخت وب سایت انجام شده و در آینده در هنگام بررسی سئو سایت مورد توجه قرار گیرد. دستور سایت مپ(نقشه سایت) برای معرفی کردن نقشه سایت (سایت مپ) به کراولر ها کاربرد دارد. نقشه سایت یک فایل XML است که شامل لیستی از تمام صفحات وب سایت شما و همچنین متادیتاها می باشد (متادیتا شامل اطلاعاتی است که به هر URL منسوب می شود). فایل txt کار می کند، نقشه سایت به موتورهای جستجو اجازه می دهد تا در فهرستی از تمام صفحات وب سایت شما در یک مکان بخزند. نقشه سایت یا سایت مپ یک فایل با پسوند XML است که تمام محتواهای مهم روی یک سایت را فهرست میکند و نحوه ارتباط صفحات مختلف را نمایش میدهد.
- مشخص کنید و از این طریق مقدار بودجه ی خزش سایت خود را بهینه کنید.
- به همین علت نیز در ادامه نحوه عملکرد برخی از مهم ترین این موتورهای جستجو را به شما معرفی میکنم.
- هر گروه با یک خط User-agent شروع میشود که هدف گروه ها را مشخص میکند.
- امکان دارد هر کدام از رباتها دستورات را به شکل متفاوتی درک کند.
اگر در نحوه دسترسی به ریشه وب سایت خود مشکل دارید یا برای انجام این کار به مجوز نیاز دارید، با ارائه دهنده خدمات میزبانی سایت تماس بگیرید. هر شخص یا برنامه ای که در اینترنت فعال است یک “عامل کاربر” یا یک نام اختصاص یافته خواهد داشت. برای کاربران انسانی، این شامل اطلاعاتی مانند نوع مرورگر و نسخه سیستم عامل است، اما اطلاعات شخصی ندارد. عامل کاربر به وبسایتها کمک میکند محتوایی را نشان دهند که با سیستم کاربر سازگار است. برای ربات ها، عامل کاربر (از لحاظ نظری) به مدیران وب سایت کمک میکند تا بدانند چه نوع ربات هایی در سایت خزیدهاند. یک ربات خزنده وب از خاصترین مجموعه دستورالعمل ها در فایل robots.txt پیروی میکند.