صفحات غیرمجاز لزوماً “پنهان” نیستند – آنها فقط برای کاربران عادی Google یا Bing مفید نیستند، بنابراین به آنها نشان داده نمیشوند. در بیشتر مواقع، کاربر در وب سایت اگر بداند که در کجا آنها را پیدا کند، می تواند این صفحات را پیمایش کند. درکل robots.txt به شما این امکان را میدهد که دسترسی رباتها به بخشهایی از وبسایت خود را ممنوع کنید، بهخصوص اگر قسمتی از صفحه شما خصوصی باشد یا اگر محتوا برای موتورهای جستجو ضروری نباشد. جلوگیری از ایندکس کردن فایلهای خاص در وبسایت شما (تصاویر، PDF و غیره) توسط موتورهای جستجو. این رباتها صفحات وب را میخزند و محتوا را فهرستبندی میکنند تا بتواند در نتایج موتورهای جستجو نشان داده شود. فایلهای Robots.txt (فایل روبوتس) بیشتر برای مدیریت فعالیتهای رباتهای خوب مانند خزندههای وب در نظر گرفته شدهاند، زیرا رباتهای بد احتمالاً دستورالعملها را دنبال نمیکنند.
آیا استفاده از فایل txt لازم است؟
در صورتی که برای شما درباره موارد دیگری از فایل Robots.txt سؤال وجود دارد، میتوانید سؤالتان را در بخش کامنتهای سایت با ما در میان بگذارید. قطعاً استفاده از Robots.txt برای سایت یک سری مزایایی را به همراه خواهد داشت، برای مثال یکی از این مزایا عبارت است از بهینهسازی بودجه خزش یا همان Crawl Budget. با استفاده از فایل Robots.txt همانطور که گفته شد، شما میتوانید به خزندههای موتورهای جستجو دستوراتی را بدهید تا با پیروی از آن درک صحیحتری از سایت شما داشته باشند. یکی از مشکلاتی که برای سایتها پیش میآید و عملاً جز ماموریتهای یک متخصص سئو میباشد، این است که نهایت استفاده از بودجه خزش را بکند، از این رو با مسدود کردن برخی از پیشفرضهای صفحات سایت میتواند این امر را محقق کند. طرز پیادهسازی این کار به این شکل است که، برخی از صفحات بیاهمیت و یا کم اهمیت سایت را روی حالت نو ایندکس قرار میدهیم و با پیادهسازی این حرکت، بودجه خزش ما خرج صفحات اصلی سایت میشود.
- با لیست کردن برخی صفحات خاص و استفاده از Disallow در حقیقت شما به رباتهای مخرب و هکرها میگویید که این صفحات سایت مهم هستند و نباید به آنها دسترسی پیدا کنید و آنها به راحتی این صفحات را پیدا میکنند.
- در مثال بالا هیچ یک از موتورهای جستجو به جز گوگل اجازه دسترسی به بخش های /secret/، /test/ و /not-launched-yet/ را ندارند.
- اولین بخش، Crawl Rate Limit (حد نرخ خزیدن) است و دومی Crawl Demand.
- چرا که گوگل علاقه مند به مشاهده وب سایت به شکلیست که برای کاربران به نمایش در می آید.
اگر در دسترس نباشد، گوگل فرض می کند که هیچ محدودیتی برای خزیدن وجود ندارد. هنگام درخواست فایل robots.txt، کد وضعیت HTTP پاسخ سرور بر نحوه استفاده از فایل robots.txt توسط خزندههای Google تأثیر میگذارد. جدول زیر نحوه برخورد ربات Googlebot با فایلهای robots.txt را برای کدهای وضعیت مختلف HTTP خلاصه میکند. Google از مقدار مسیر در دستورالعملها allow و disallow بهعنوان مبنایی برای تعیین اینکه آیا یک قانون برای یک URL خاص در یک سایت اعمال میشود یا خیر، استفاده میکند. این کار با مقایسه قاعده با مؤلفه مسیر URL که خزنده سعی در واکشی آن را دارد کار می کند.
هدف این رباتهای مخرب پیدا کردن ایمیلهای شرکتی است تا هرزنامه و اسپمها را به صورت انبوه برای این ایمیلها ارسال کنند. این کد در فایل Robots.txt به این معنی است که رباتها به هیچ محتوایی که در پوشه ذکرشده قرار دارد، دسترسی ندارند. به همین خاطر و بخاطر سایر مسائل امنیتی، همیشه توصیه میشود که هرچند وقت یکبار، صحت و سلامت فایل ربات سایتتان را بررسی کنید و از دستوراتی که داخل این فایل وجود دارد اطمینان مجله خبری سئو حاصل کنید. اما اگر تعداد صفحات ایندکس شده دقیقا و یا تقریبا همان تعداد صفحاتی بود که انتظار دارید در داخل گوگل ایندکس شده باشند، نیازی به ساخت و یا تغییر فایل robot سایت خود ندارید. در این قسمت شما میتوانید به صورت زنده تغییرات مورد نظرتان را در محتویات فایل robots.txt انجام دهید و سپس از طریق بخش پایینی بررسی کنید که آیا تغییرات انجام شده دقیقا همان چیزی هستند که به دنبال آن هستید یا خیر.
آشنایی با دستورات فایل Robots.txt و معانیشان
برای صدور دسترسی کامل به کل سایت برای رباتهای خزنده دستور Disallow به شکل زیر خواهد بود. هر شخص و یا هر برنامه کامپیوتری فعال روی شبکه جهانی اینترنت دارای یک user-agent (یک نام اختصاص داده شده) است. برای کاربران واقعی user-agent شامل نوع مرورگر، و سیستم عامل است و حاوی اطلاعات شخصی نیست.
با اینکه این امکان می تواند در صورت اشتباه شما کمی خطر ناک نیز باشد، اما از طرفی بسیار کارامد نیز است. هر یک از ساب دامین های وب سایت بایستی دارای فایل robots.txt مختص به خود باشند. به عبارت دیگر blog.example.com و example.com بایستی هر یک دارای فایل robots.txt مجزایی در مسیر خود باشند. فایل Robots.txt یک فایل متنی کاملا ساده است؛ همانطور که از نام این فایل پیداست، فرمت .txt دارد و در دایرکتوری سایتتان قرار خواهد داشت.
چگونه میتوانیم یک فایل Robots.txt ایجاد کنیم؟