فایل robots txt چیست؟ آموزش ساخت و استفاده در سئو-سئو

اغلب موتورهای جستجوی شناخته‌شده نظیر گوگل، بینگ و یاهو از فایل ربات پشتیبانی می‌کنند و محتویات موجود در آن را بررسی می‌کنند. مطالعه این راهنما به شما در مورد فایل robots.txt سایت و نحوه ساخت فایل ربات سایت و اهمیت آن در سئو اطلاعات زیادی خواهد داد. با مطالعه این مقاله شما می‌توانید فایل robots.txt سایت خود را ایجاد و بررسی کنید و مطابق با ساختار سایتتان اصلاح کنید. فایل Robots.txt یا فایل ربات ساز یکی از موارد مهم در چک لیست سئو تکنیکال است که فعالیت‌ ربات‌های جستجوگر جهت ایندکس صفحات مختلف یک وب سایت را کنترل و مدیریت می‌کند.

اگر سایتی با تعداد صفحات زیاد داشته باشید که ربات ها همواره در حال بررسی این صفحات هستند، طبیعتا با مشکل سرعت و ترافیک بالا پهنا باند مواجه خواهید شد، لذا وجود این فایل برای کنترل این درخواست ها ضروری است. شاید برخی از صاحبان سایت و وبمستران علاقه نداشته باشند برخی از صفحات و فایل های موجود در سایت خود را نمایش دهند. به همین دلیل با اعمال دستوراتی در فایل ربات سایت می توان از این امر جلوگیری کرد. Crawl Budget در حقیقت تعداد صفحاتی از وب سایت‎تان است که ربات گوگل در یک روز آنها را خزیده و بررسی می‌کند. بودجه شما، یا همان تعداد صفحاتی که توسط Googlebot مشاهده می شوند، بر اساس حجم وب‌سایت شما (تعداد صفحات)، سلامت آن (عدم بروز خطا) و تعداد بک‌لینک‌های سایت‌تان تعیین می‌شود. هر کدام از این ربات‌ها به صورت مداوم، صفحه‌های وبسایت را بررسی می‌کنند.

دستورالعمل Disallow در این فایل

ایندکس کردن محتوای سایت‌ها به طوری که بتوان آن‌ها را دسته بندی کرده و در نتایج جست‌وجوها نشان داد. در این قسمت شما می‌توانید دو فایل اصلی و مهم robots.txt و htaccess. در ادامه نحوه بروزرسانی و انجام تغییرات در داخل فایل robots.txt را در دو پلاگین یواست و رنک مت ، بررسی خواهیم کرد. گاهی اوقات با بزرگ شدن فایل ربات لازم می‌شود که یادداشت‌هایی برای خودمان بگذاریم تا بعدا خیلی سریع‌تر متوجه کارهایی که قبلا انجام داده‌ایم شویم و ضریب خطا هم کاهش پیدا کند. ربات Googlebot-Image وقتی به این دستور می‌رسد متوجه می‌شود که علارقم اینکه نباید محتوای فولدر mypic را بررسی کند اما استثنا یک فولدر به نام logo.png در آن وجود دارد که باید آن را بررسی کند.

نادرست تنظیم شده باشد، می تواند باعث اشتباه در ایندکس شدن صفحات سایت شود. گاهی اوقات صاحبان سایت ها بعلت نداشتن اطلاعات کافی در این زمینه اشتباهاتی را در ساخت یا ویرایش مجله خبری سئو این فایل متنی رقم می زنند که منجر به خساراتی به سئوی سایت آنها می شود. دستور Disallow به ربات‌ها می‌گوید که چه فولدرهایی از وب‌سایت شما را نباید بررسی کنند.

  • به عنوان مثال می توانید دسترسی به پوشه تصاویر و ویدیو ها را و یا صفحه ادمین سایت را با این کد ببندید.
  • در قسمت بالا منظور از User-agent نوع رباتی است که شما آن را فرا می خوانید.
  • بنابراین فایل ربات ساز از ورود ربات‌ها به صفحات موردنظر شما جلوگیری کرده و ایندکس شدن آنها را ممنوع خواهد کرد.
  • دستورالعمل ها می توانند برای user-agent های خاصی مورد استفاده قرار می گیرند اما با این حال می توان از آنها برای تمامی user-agent ها نیز استفاده کرد.
  • بررسی و ویرایش فایل ربات TXT سایت یک فاکتور رتبه بندی نیست و تنها کنترل‌کننده نحوه رفتار ربات‌های خزنده است.

در این ویرایشگر صفحه ای را باز کنید و یک برگه خالی را با نام robots.txt ذخیره کنید؛ سپس وارد cPanel شوید و بعد public_html را برای دسترسی به دایرکتوری روت سایت، باز کنید. یکی از ابزارهای مختلف که به شما در بررسی صحت فایل robots.txt کمک می‌کند استفاده از ابزار تست robots.txt گوگل است. معمولا موتورهای جستجو محتویات فایل robotx.txt را ذخیره می‌کنند تا به دانلود مجدد آن نیاز نداشته باشند، با این حال روزانه چندبار نسخه جدید فایل را بارگذاری می‌کنند.

اما اگر مسیرها و دایرکتوری‌ها را دیس‌آلو کنید این ربات‌ها صرفا می‌توانند صفحه‌ی دایرکتوری را ببینند و امکان دیدن سایر صفحات و وب‌پیج‌ها وجود ندارد. توجه داشته باشید که حتما از یک صفحه‌ی 404 یا صفحات مشابه برای دایرکتوری‌هایی که قرار نیست ایندکس شوند اما وجود دارند استفاده کنید. فایل robots.txt فایلی جهت مشخص کردن دسترسی موتورهای جستجو به وب سایت است. 5 تاکتیک سئو برای کاهش ریسک این فایل در این مقاله اموزشی سئو آمده است.

خیلی‌ها فکر می‌کنند که از طریق فایل‌های ربات از اطلاعات محرمانه‌ی خود مراقبت می‌کنند در حالی که کاملا برعکس است و برخی ربات‌ها می‌توانند از این اطلاعات شما سوءاستفاده کنند. اگر سایت شما وردپرسی است با نصب افزونه‌های سئو وردپرس نظیر رنک مث یا یوست سئو بصورت خودکار برای شما این فایل ایجاد خواهد شد. در غیر این صورت به پوشه public_html در هاست خود بروید و یک فایل متنی با نام robots.txt ایجاد کنید و محتوای آن را مطابق با نیازهای خود و مطالب ارائه شده در این مقاله اصلاح کنید. در صورتی که قصد این را دارید که بصورت قابل اطمینان یک صفحه را از نتایج جستجو حذف کنید بایستی از تگ noindex در صفحه مورد نظر استفاده کنید. برای مشاهده این تگ بایستی اجازه بررسی صفحه و مشاهده این تگ را به موتور جستجو بدهید پس بهتر است صفحه را در robots.txt بلاک نکنید.

آنالیز تخصصی سئوکار

ابزارInspector چیست؟ ابزاری به نام developer tool یک ابزار کاربردی است که در مرورگرهای مطرح وجود دارد. اگر نیاز به تعلیق موقت خزیدن دارید، توصیه می‌کنیم برای هر URL در سایت یک کد وضعیت 503 HTTP ارائه دهید. می توانید قوانینی را که برای چندین انجین اعمال می شود با تکرار user-agent خطوط برای هر خزنده، گروه بندی کنید. فرض پیش‌فرض این است که یک user-agent می‌تواند هر صفحه یا فهرستی را که توسط یک disallow قانون مسدود نشده است بخزد. ماکسیمم سایز قابل پشتیبانی برای فایل robots.txt، 500 کیلو بایت است.

منتشر شده در
دسته‌بندی شده در اخبار