اگر صفحات وبسایت خود را در فایل Robots.txt نوایندکس کنید، گوگل باز هم آن را در نتایج جستجو نمایش میدهد. گوگل به کمک انکرتکست هر لینک و سایر فاکتورها رتبهای به مجله خبری سئو این صفحه در جستجوهای مرتبط میدهد. معمولاً این نوع صفحات در نتایج جستجو بدون توضیحات متا ظاهر میشود چون گوگل محتوای صفحه و توضیحات متا را ذخیره نکرده است.
با گوگل الرتس (Google Alerts) سئو سایت خود را قدرتمند کنید!
به عنوان مثال فایل robots.txt سایت گروه دیجیتال نردبان از اینجا قابل مشاهده است. و شایان به ذکر می باشد که در صورت استفاده نادرست از این فایل موجب ایندکس شدن اشتباه صفحات می شود. برای همین خاطر در صورتی که شما سئو کمپین جدیدی را شروع می کنید فایل Robots.txt را ابزار های نوشتاری موجود در ربات های گوگل بررسی کنید.
در این مثال هیچ یک از موتورهای جستجو اجازه دسترسی به لینک هایی که شامل علامت سوال می باشند را ندارند. این کارها تنها می تواند از نمایش داده شدن این صفحات توسط موتورهای جستجو در لیست جستجوی آنها جلوگیری کند. استفاده از یک لینک canonical یا تگ meta robots نمی تواند از خزیدن موتورهای جستجو در این صفحات جلوگیری کند.
دقت داشته باشید که صفحات اصلی را از دید ربات ها پنهان نمی کنید. این اقدام تنها بایست در ابتدای ساخت وب سایت انجام شده و در آینده در هنگام بررسی سئو سایت مورد توجه قرار گیرد. دستور سایت مپ(نقشه سایت) برای معرفی کردن نقشه سایت (سایت مپ) به کراولر ها کاربرد دارد. نقشه سایت یک فایل XML است که شامل لیستی از تمام صفحات وب سایت شما و همچنین متادیتاها می باشد (متادیتا شامل اطلاعاتی است که به هر URL منسوب می شود). فایل txt کار می کند، نقشه سایت به موتورهای جستجو اجازه می دهد تا در فهرستی از تمام صفحات وب سایت شما در یک مکان بخزند. نقشه سایت یا سایت مپ یک فایل با پسوند XML است که تمام محتواهای مهم روی یک سایت را فهرست میکند و نحوه ارتباط صفحات مختلف را نمایش میدهد.
این فایل کاملا قایل دسترسی است و میتوانید اطلاعات داخل آن را بخوانید و یا ویرایش کنید و افراد مختلف نیز صرفا با اضافه کردن این پسوند به لینک وبسایت شما میتوانند آن را ببینند. موتورهای جستوجو برای خزیدن در سایتها لینکها را دنبال میکنند و از این سایت به سایتهای دیگر میروند تا میلیاردها صفحه و لینکهای دیگر را کشف کنند. برخی این حرکت موتورهای جستوجو را به عنکبوت نسبت دادهاند و نامش را گذاشتهاند. در همین حال یک ربات کراولر موتورهای جستوجو، پس از ورود به سایت و قبل از Spidering، به دنبال فایل Robot.txt سایت میگردد. موتورهای جستجوگر شناخته شده نظیر گوگل، بینگ و… این توانایی را دارند که با بررسی محتویات فایل Robots.txt درک بهتری نسبت به ساختار یک سایت پیدا کنند و از برخی دستورات داده شده پیروی کنند.
برخی از موتورهای جستوجو مانند گوگل رباتهای خاص برای خود داند. گوگل رباتهایی دارد که عکس را جستوجو میکنند و رباتهایی نیز دارند که به سراغ محتواها میروند. نیازی نیست برای این دو ربات جداگانه دستورالعمل مشخص کنیم، اما دادن دستورالعمل میتواند، نحوهی خزیدن این رباتها در سایت شما را تنظیم و کنترل کند.
«بودجه خزیدن» تعداد صفحاتی است که Googlebot در مدت زمان معینی در یک سایت می خزد و فهرست می کند. پیاده سازی آنها راحت تر است و احتمال وقوع فاجعه کمتر است (مانند مسدود شدن کل سایت شما). و همینطور هر چیزی که بعد از “Disallow” شما آن را برای خزیدن ربات ها مسدود می کنید. دستورالعمل های متا نمی تواند برای منابع چندرسانه ای مانند PDF ها و تصاویر به خوبی Robots.txt عمل نماید. مثلا یک صفحه در دست ساخت دارید و یا اینکه یک صفحه برای ورود به بخش مدیریت سایت دارید.
برخی از موارد استفاده رایج از فایل Robots.txt
این بهینهسازی Crawl Rate Limit نام دارد که برای ارائه تجربه کاربری بهتر، تعداد صفحات قابل Crawl در یک روز را محدود میکند. در صورتی که شما هم قصد دارید تا سئو سایت خود را به صورت کاملا حرفه ای بهینه سازی کنید بهتر است که با تمامی جنبه های مختلف فایل robots.txt آشنا شوید و از نیروهای متخصص برای پیاده سازی این فایل استفاده کنید. در حال حاضر موتور جستجوی گوگل از حداکثر سایز 500 کیلوبایت برای فایل robots.txt پشتیبانی می کند. در زمان پیاده سازی این قطعه کد در فایل robots.txt توجه داشته باشید که این کار باعث قطع شدن دسترسی تمامی ربات های گوگل می شود. دلیل اول این است که شما نمی خواهید درباره تنظیماتی که برای خزیدن ربات های موتورهای جستجو در وب سایت خود اعمال کرده اید ابهامی وجود داشته باشد.
- با اینکار خزندههای موتور جستجو گوگل حتی اگر فایل robots.txt سایت شما را هم نادیده بگیرند چون در داخل صفحه صراحتا از رباتها خواسته شده که این صفحه را ایندکس نکنند، به این درخواست احترام میگذارند.
- شناخته میشوند را مدیریت کرده و آدرس آنها را مخفی کنید تا کاربران به نوعی مجبور به کلیک روی آنها شوند.
- کاربرد و فایده اصلی آن این است که به افراد متخصص در زمینه سئو این دسترسی را می دهد که به طور همزمان و بدون اینکه نیاز به تغییرات در سورس باشد به راحتی تغییرات لازم را اعمال نمایند و از ایندکس صفحه جلوگیری کنند.
- یک فایل Robots.txt دارای ساختاری میباشد که در صورتی که این ساختار دچار اختلالی باشد، شاید اصلاً کاربردی را که باید داشته باشد را از دست بدهد.
چهبسا این دستورات را بسیار ساده بپندارید اما همین دستورات بهکلی میتوانند سیاست سئوی سایت شمارا تغییر دهند. البته در نظر داشته باشید که فایل robots.txt نسبت به بزرگ و کوچک بودن حروف لاتین حساس بوده و آدرس صفحات باید بهدقت وارد شوند. پس از ساخت فایل موردنظر خود و ذخیره آن در فرمت txt آن را بر روی سرور و در ریشه اصلی کپی کنید. دستورات اعمالشده برای روباتهایی هستند که ازاینپس به سایت شما وارد میشوند. از آنجایی که گوگل و سایر موتورهای جستجو برای ایندکس کردن و سئو از ربات ها استفاده می کنند، بنابراین می توان گفت که ربات ها در سئو نقش دارند.