در واقع با این کار به رباتها میگویید کدام صفحهها اصلاً در اولویت شما نیستند. حتماً شما هم نمیخواهید که ربات خزنده گوگل برای مشاهده و ایندکس محتوای تکراری و کم ارزش، سرورهای شما را اشغال کند. بنابراین برای جلوگیری از جمع آوری اطلاعات صفحات غیرضروری سایت و کاهش حجم رفت و آمد رباتها به وب سایت خود حتما باید به فکر ایجاد فایل Robots.txt باشید. فایل Robots.txt در حقیقت به رباتها اطلاع میدهد که کجا میتوانند فایل یا فایلهای نقشه سایت XML را پیدا کنند و در این میان کدام صفحات نباید کراول شوند. قبل از اینکه رباتهای موتورهای جستجو نظیر گوگل صفحات وب را کراول کنند ابتدا فایل Robots.txt را بررسی میکنند و اگر این فایل موجود باشد مطابق با اطلاعات مندرج در آن اقدام به ایندکس کردن صفحات میکنند.
حذف کامل یک صفحه از نتایج گوگل به کمک فایل robots.txt
در ادامه نحوه بروزرسانی و انجام تغییرات در داخل فایل robots.txt را در دو پلاگین یواست و رنک مت ، بررسی خواهیم کرد. گاهی اوقات با بزرگ شدن فایل ربات لازم میشود که یادداشتهایی برای خودمان بگذاریم تا بعدا خیلی سریعتر متوجه کارهایی که قبلا انجام دادهایم شویم و ضریب خطا هم کاهش پیدا کند. ربات Googlebot-Image وقتی به این دستور میرسد متوجه میشود که علارقم اینکه نباید محتوای فولدر mypic را بررسی کند اما استثنا یک فولدر به نام logo.png در آن وجود دارد که باید آن را بررسی کند. همچنین اگر کنجکاو شدید که از اسامی معروفترین خزندهها و رباتهای دنیای اینترنت باخبر شوید، میتوانید دیتابیس اسامی رباتها را مشاهده کنید. اگر نسبت به این موضوع هیچ اطلاعاتی ندارید ویا علاقهمند آشنایی و درک بهتر موضوع فوق العاده مهم بودجه خزش هستید حتما مقاله “بودجه خزش سایت چیست” را با دقت مطالعه کنید.
قوانین فهرست شده در فایل robots.txt فقط برای میزبان، پروتکل و شماره پورتی که فایل robots.txt در آن میزبانی می شود اعمال می شود. روی ارسال کلیک کنید تا به Google اطلاع دهید که تغییراتی در فایل robots.txt شما ایجاد شده است و از Google درخواست کنید آن را بخزد. مثالهای زیر نشان میدهند که خزندههای Google کدام قانون را روی یک URL خاص اعمال میکنند. یک پسوند خاص را برای ممنوع کردن خزیدن مشخص کنیدبه عنوان مثال، خزیدن همه فایل های gif را ممنوع کنید.
- تصویر زیر فایل robots.txt سایت یوتیوب به عنوان نمونه نمایش داده شدهاست.
- امیدواریم این نگاه حرفهای به رقابتی سالم دامن بزند که در نهایت به پیشرفت وب فارسی منجر شود.
- از این دستور میتوان به دو شکل در فایل robots.txt استفاده کرد.
- این قانون به Googlebot میگوید که پوشه تصویر وبسایت شما را ایندکس نکند.
همانطور که گفتیم، هاست و منابع سرور سایت ما برای پاسخ دادن به درخواستهای رباتها دقیقا همانند پاسخگویی به درخواستهای کاربران واقعی مشغول میشود. وقتی این درخواستها از حد توان سرور سایت ما خارج شوند اتفاق از دسترس خارج شدن سایت رخ میدهد. آژانس دیجیتال مارکتینگ و طراحی سایت eBgroup از دهه 90 بعنوان یکی از آژانسهای موفق در زمینه سئو، طراحی سایت، تولید محتوا و تبلیغات کلیکی در غرب تهران مشغول به فعالیت بوده است.
موتورهای جستجو لینکهای موجود در هر صفحه را دنبال میکنند و از سایت A به سایت B رفته و از سایت B به سایت C و این فرایند را به همین شکل ادامه میدهند. بهطورکلی توصیه میشود که همیشه دستور فرعی ‘Sitemap’ را در کنار URL نقشه سایت در فایل robots.txt قرار دهید. اما در برخی موارد مشاهدهشده است که این کار باعث بروز خطاهایی میشود. میتوانید حدود یک هفته بعدازاینکه فایل robots.txt را بهروزرسانی کردید و موقعیت نقشه سایت را در آن قراردادید، برای بررسی وجود چنین خطاهایی از ابزار سرچ کنسول گوگل استفاده کنید. چهبسا این دستورات را بسیار ساده بپندارید اما همین دستورات بهکلی میتوانند سیاست سئوی سایت شمارا تغییر دهند. البته در نظر داشته باشید که فایل robots.txt نسبت به بزرگ و کوچک بودن حروف لاتین حساس بوده و آدرس صفحات باید بهدقت وارد شوند.
در حقیقت این دستور، بیانگر آدرس صفحهای است که میخواهید از دید روباتها پنهان بماند. حالا که متوجه شدید گوگل چه دیدی از سایت شما دارد، شاید بهتر باشد برای اصلاح این دید، دست بکار شوید. این بدان معناست که اگر از دستور شما پیروی کنند، برخی یا کل صفحات را بررسی نمی کنند. ارزش لینک سازی شما زیاد است و زمانی که از robots.txt به درستی استفاده می کنید، ارزش پیوند به صفحاتی که واقعاً می خواهید ارتقا دهید منتقل می شود. فقط از فایلهای robots.txt برای صفحاتی استفاده کنید که نیازی ندارید در آن صفحه لینک سازی به دیگر صفحات داشته باشید. از آنجایی که منبع محدودی از خزیدن دارید، میتوانید robots.txt را نصب کنید تا از صفحات اضافی از طریق Googlebot جلوگیری کرده و آنها را به موارد مهم معرفی کنید.
۲.در ابتدای ورود خزنده ها به سایت آن ها در دایرکتوری ریشه سایت به دنبال فایل robots.txt می گردند. اگر شما فایلی بانام Robots.txt مشاهده نمیکنید، به این معناست که سایت شما آن فایل را ندارد. اما نگران نباشید، خیلی ساده یک فایل ایجاد کنید و نام آن را robots.txt قرار دهید. از متا تگهای ربات نمی توان برای فایل های غیر HTML مانند تصاویر، فایل های متنی یا اسناد PDF استفاده کرد. از طرف دیگر از تگ های X-Robots می توان با استفاده از دستورات .htaccess برای فایل های غیر HTML استفاده کرد.
صفحه ای که در برابر خزیدن مسدود شده باشد ممکن است همچنان توسط ربات ها ایندکس شود. به منظور دسترسی آسوده تر در هنگام نظر دهی، نام، ایمیل و وبسایت مرا در این مرورگر ذخیره کن. برای جلوگیری از بروز این خطا، توصیه میشود که بعد از URL نقشه سایت یک خط را خالی بگذارید. لینکها به صفحههایی که در robots.txt لیست شدهاند اگر به صفحههای دیگری که پیمایش شدهاند لینک باشند هنوز هم میتوانند در نتایج جستجو ظاهر شوند.
نقشه سایت یا سایت مپ یک فایل با پسوند XML است که تمام محتواهای مهم روی یک سایت را فهرست میکند و نحوه ارتباط صفحات مختلف را نمایش میدهد. دستور sitemap که در ادامه این دستور آدرس نقشه سایت میآید یک روش برای نشان دادن نقشه سایت به موتور جستجو است. این دستور برای اطمینان حاصل کردن از این است که مجله خبری سئو هیچ صفحهای در حین خزیدن در سایت فراموش نشود. با این وجود وجود نقشه سایت تاثیری در اولویتبندی خزش صفحات توسط ربات ندارد. مدیریت منابع مصرفی سرور توسط رباتها امری مهم است زیرا به جز رباتهای موتورهای جستجو، رباتهای بد دیگری وجود دارند که به دستورات موجود در فایل robots.txt توجه نمیکنند.
فایل robots.txt چیست؟
یا بهتر است بگوییم در کجا باید بدنبال این فایل بگردیم؟ پاسخ این سوال بسیار ساده است. دقت داشته باشید که اگر این فایل در هاست شما موجود نبود می توانید خودتان آن را ایجاد کنید. حالا یک فایل با نام robots.txt در مسیر اصلی سایت خود ایجاد کنید و محتوای فوق را در آن کپی نمایید.