فایل Robots txt چیست و چه تاثیری بر سئو دارد؟ مه ویژن-سئو

فرض کنید که شما در حال پیاده سازی یک وب سایت در حوزه تجارت الکترونیک هستید و بازدیدکنندگان از سایت شما می توانند برای جستجوی سریع تر در میان محصولات شما از یک فیلتر استفاده کنند. موتورهای جستجو مختلف دستورالعمل های موجود در این فایل را به شکل های مختلفی تفسیر می کنند. فایل Robots.txt دسترسی خزنده‌ها به بخش‌های مختلف سایت شما را کنترل می‌کنند. درنتیجه اگر شما به صورت تصادفی Googlebot را از خزیدن در سایت خود منع کنید ممکن است برای سئو و رتبه بندی سایت شما خیلی خطرناک باشد. وقتی صحبت از URL های واقعی در فایل Robots.txt می‌شود، آدرس‌ها و دستورهای کاملاً پیچیده‌ای در این فایل استفاده می‌شوند.

فایل robots.txt چگونه کار می کند؟

در این بخش قصد دارم برخی از مهم ترین مثال های فایل robots.txt را در اختیار شما قرار بدم. دلیل دیگر این است که موتورهای جستجوی دیگری نیز وجود دارند که ممکن است به اندازه گوگل در این خصوص بخشنده نباشند. یکی از مهم ترین نکات در زمان کار کردن با فایل robots.txt این است که روی تغییراتی که در این فایل اعمال می کنید نظارت کامل داشته باشید. برای یک ربات خاص مانند ربات گوگل تنها یک گروه از دستورالعمل ها معتبر است.

کد بالا به این معنی است که “اجرای دستورات فایل، تنها برای ربات گوگل الزامی است. اما باید حواستان باشد که این ربات‌ها زبان آدمیزاد سرشان نمی‌شود! یعنی همینطور مثل چی سرشان را می‌ندازند پایین و سر تا پای سایت را بررسی می‌کنند. بعضی وقت‌ها هم ربات‌ها گوگل چیزهایی را که دوست نداریم هر کسی ببیند را برمی‌دارند می‌برند در سرورهای گوگل ذخیره می‌کنند و به عالم و آدم نشان می‌دهند. فایل robots.txt از بخش های مختلفی تشکیل شده است که در زمان پیاده سازی باید به تمامی این بخش ها توجه داشته باشید و سعی کنید که جزئی ترین نکات را نیز در زمان پیاده سازی رعایت کنید.

فایل Robots.txt در کجا قرار دارد؟

شما با اضافه کردن کلمه robots.txt به انتهای ادرس سایت خود می‌توانید فایل robots.txt کنونی را ملاحظه بفرمایید. به عنوان مثال اگر دامنه شما example.com است به آدرس example.com/robots.txt بروید و فایل robots.txt را مشاهده کنید. در صورتی که نتیجه‌ای در برنداشت باید به پوشه public_html در هاست خود بروید و یک فایل متنی با نام robots.txt ایجاد کنید و محتوای آن را مطابق با نیازهای خود و مطالب ارائه شده در این مقاله اصلاح کنید.

ربات Email Harvesters و Spambots Malware و یا ربات هایی که وظیفه تامین امنیت را بر عهده دارند، جزء این موارد می باشند. فرض پیش‌فرض این است که یک User-agent می‌تواند هر صفحه یا دایرکتوری را که توسط قانون غیرمجاز مسدود نشده مجله خبری سئو است بخزد. خزیدن پوشه (دایرکتوری) و محتویات آن را ممنوع کنیدیک اسلش رو به جلو به نام پوشه اضافه کنید تا خزیدن کل پوشه و محتویان آن ممنوع شود. خطوطی که با هیچ یک از این دستورالعمل ها مطابقت ندارند نادیده گرفته می شوند.

نمونه یک فایل Robots.txt:

همان‌طور که در به‌طور کامل توضیح دادیم برای مدیریت ربات‌های موتورهای جستجو از دو دستور اصلی که شامل User-agent و Disallow است استفاده می‌شود. همچنین در فرآیندهای خزیدن و نمایه‌سازی، دستورالعمل‌ها به عنوان دستوراتی عمل می‌کنند تا ربات‌های موتور جستجو ، مانند Googlebot، به صفحات مناسب هدایت شوند. بهترین روش پیشگیری از مسدود کردن دسترسی به دایرکتوری های بک اند شما و دایرکتوری های غیرضروری دیگر برای سئو شما از طریق robots.txt است. اگردقت داشته باشید در وردپرس از نسخه ۴ به بعد، مشخص شد که در فایل ربات این سیستم مدیریت محتوا دایرکتوری هایی مثل wp include یا plugins دیگر مورد ایندکس شدن قرار نمی گیرند. و در روش Domain نیز کافیست آدرس سایت خود را بدون پیشوند Hamyarwp.com وارد کنید.

به عنوان مثال، اگر محتوای دانلود شده به جای قوانین robots.txt HTML باشد، گوگل سعی می کند محتوا را تجزیه کند و قوانین را استخراج کند و هر چیز دیگری را نادیده بگیرد. مسیر نقشه های سایت را می توانید در انتهای دستورات فایل robots.txt به مانند تصویر زیر قرار دهید. موتورهای جستجو برای پایش وب سایت ها لینک ها را دنبال کرده و از یک سایت به سایتی دیگر می روند.

اگر می‌خواهید نقشه سایت خود را به موتورهای جستجو نشان دهید، پس باید از این فایل استفاده کنید. ما به شدت توصیه می‌کنیم اگر فایل robots.txt را در سایت خود ندارید، بلافاصله آن را ایجاد کنید. این فایل شما را قادر می‌سازد تا با موتورهای جستجو ارتباط برقرار کنید و به آن ها نشان دهید که چه بخشی از سایت شما را باید ایندکس کنند و چه بخش‌هایی را نباید ایندکس کنند. Google در حال حاضر محدودیت اندازه فایل robots.txt را 500 کیلوبایت اعمال می کند.

توجه داشته باشید که تفسیر آنها از این دستورالعمل اندکی متفاوت می باشد و به همین علت نیز بهتر است که قبل از استفاده حتما اسناد موجود در وب سایت این موتورهای جستجو را مطالعه کنید.
توجه داشته باشید که دستورالعمل Crawl-delay دقیقا باید بعد از دستورالعمل های Disallow یا Allow قرار گیرد.
در بیشتر مواقع، کاربر در وب سایت اگر بداند که در کجا آنها را پیدا کند، می تواند این صفحات را پیمایش کند.
دستور Disallow به ربات‌ها می‌گوید که چه فولدرهایی از سایت شمارا نباید بررسی کنند.
موتورهای جستجو در مورد محتوای تکراری حساس هستند ، با این حال، برای خزیدن صفحات محتوای تکراری و نمایش آنها در SERP ها، نیازی به ربات ندارید.

بعد از خواندن این مقاله می‌توانید هر نوع رباتی را فقط با دانستن نامش محدود و کنترل کنید. ربات‌ها در واقع نرم‌افزارهایی هستند که به صورت خودکار صفحه‌های مختلف را باز و بررسی می‌کنند. دقت کنید که حذف کردن این لینک ها از گوگل امکان پذیر است و شما با استفاده از کنسول جستجوی گوگل می توانید به راحتی اقدام به حذف آنها کنید. برای این که یک ربات خاص نیز از دستورالعمل های عمومی تمامی ربات ها پیروی کند باید این دستورالعمل ها را برای ربات خاص مد نظر خود نیز تکرار کنید. در حقیقت مشکل اصلی شما این است که وب سایت شما در یک هاست ضعیف اجرا می شود و به شکل نادرستی تنظیم شده است.

فایل Robot.txt در دایرکتوری روت سایت شما ذخیره می شود؛ برای پیدا کردن آن می توانید به دسترسی FTP در سی پنل یا دایرکت ادمین بروید. این فایل حجم سنگینی ندارد و در اکثر مواقع نهایتاً چند صد بایت خواهد بود. ذخیره نام، ایمیل و وبسایت من در مرورگر برای زمانی که دوباره دیدگاهی می‌نویسم. ما یک آژانس دیجیتال مارکتینگی هستیم که طراحی دیجیتال و تبلیغات شبکه‌های اجتماعی را نوآورانه انجام می‌دهیم.