استفاده از فایل robots.txt برای تمام سایتهای متوسط و بزرگ تقریبا اجتناب ناپذیر است. اما در برخی سایتهای کوچک با تعداد صفحههای محدود، میتوان در مواردی حتی قید این فایل را هم زد و به موتورهای جستجو اجازه مجله خبری سئو داد تا تمام صفحات را بررسی کنند. اما نباید فراموش کنید که اگرچه میتوان سایت مپ در داخل فایل ربات سایت به رباتهای موتور جستجو گوگل معرفی کرد اما این روش بهترین روش معرفی سایت مپ به رباتهای گوگل نیست.
قیف بازاریابی محتوا چیست؟
اگر روزانه تعداد زیادی ربات برای بررسی و ایندکس صفحات وارد سایت شما شوند قطعا با مشکل افت سرعت مواجه خواهید شد. کاهش سرعت بارگذاری سایت نیز ارتباط مستقیمی با سئو و تجربه کاربران دارد. بنابراین با استفاده از فایل ربات ساز میتوانید از کاهش سرعت سایت خود و ورود تعداد زیادی ربات به آن جلوگیری نمایید. با ایجاد فایل Robots.txt میتوانید از ایندکس شدن صفحات غیرضروری سایت و یا صفحاتی که هنوز دارای محتوای مناسبی نیستند و یا قوانین سئو در آنها پیاده نشده است به راحتی جلوگیری نمایید. انجام این کار تاثیر مستقیمی بر سئو سایت شما دارد و تنها صفحات استاندارد و معتبر را در دسترس رباتها و سپس کاربران قرار خواهد داد. پروتکل نقشه سایت کمک میکند تا مطمئن شوید که ربات های عنکبوتی وب در هنگام خزیدن یک وب سایت چیزی را از دست نمیدهند، اما رباتها همچنان روند خزیدن معمول خود را دنبال میکنند.
نحوه ایجاد فایل Robots.txt در سایتها
در حال حاضر بهترین راه برای حذف صفحهای از نتایج جستجو، اضافه کردن دستور noindex در قسمت head صفحهها است. اگر از وردپرس استفاده میکنید افزونههایی برای این کار وجود دارد و در غیر اینصورت باید از طراحی وبسایت خود بخواهید که امکاناتی برای افزودن این کدها یا دستورات در قسمت هد هر صفحه فراهم کند. در اینجاست که ساخت فایل Robots.txt به کمک شما میآید و این مشکل را به راحتی برطرف میسازد.
یکی از تکنیک هایی که در سئو مورد استفاده قرار می گیرد، URL Cloacking نام دارد که برای پنهان کردن آدرس صفحات از دید موتور های جستجو و کاربران کاربرد دارد. Crawl-delay به موتور های جستجو دستور می دهد که صفحه ای را با تاخیر ایندکس کنند؛ این دستور زمانی کاربرد دارد که صفحه شما دارای مشکل است و می خواهید آن را برطرف کنید. همانطور که گفته شد با استفاده از این فایل و دو دستور بالا، می توانید به ربات های گوگل بگویید که صفحه مورد نظر شما را ایندکس کنند و یا ایندکس نکنند. با توضیحاتی که تا به اینجا درباره فایل Robot.txt داده شد، احتمالا متوجه اهمیت آن شده اید؛ Robot.txt در واقع یک ابزار قدرتمند است که به شما این امکان را می دهد تا وبسایت خود را آن گونه که می خواهید، به گوگل نمایش دهید. فایل Robots.txt یک ابزار بسیار بحرانی برای سئو میباشد و اگر نتوانید به درستی آن را هندل کنید ممکن است در امنیت سایت شما تاثیر منفی داشته باشد. اما اگر اصول و قواعد و تکنیکهای آن را یاد بگیرید میتوانید به راحتی از آن برای بهبود کارایی وبسایت خود استفاده کنید.
فایل robots.txt به گوگل، بینگ و دیگر روبات ها می گوید که به کدام صفحات در یک وب سایت دسترسی ندارند. در صورتی که شما از این فایل در برخی از صفحات در طراحی سایت خود استفاده کنید، موتور های جستجو آن صفحات را به اصطلاح crawl (خزیدن) نمی کنند و امکان دارد URL آن صفحات را در ایندکس خود ثبت نکنند. در این مقاله در گروه تحقیقاتی خارکن سعی ما بر این بود که شما را به صورت کامل و خیلی ساده با موضوع چستی و چگونگی عملکرد فایل Robots.txt آشنا کنیم.
یکی از نکات بسیار مهم در خصوص فایل robots.txt این است که برای هر دستورالعمل یک خط جداگانه را در نظر بگیرید. در واقع در این مثال موتورهای جستجو به لینک گفته شده دسترسی پیدا می کنند. دستورالعمل Allow در داخل فایل robots.txt دقیقا در مقابل دستورالعمل Disallow قرار می گیرد. شاید برای شما جالب باشد که بدانید جلوگیری از ایندکس شدن محتوای تکراری در سایت نیز با استفاده از همین فایل انجام می شود. به همین علت نیز باید قوانینی را تنظیم کنید تا موتورهای جستجو به صفحات تولید شده توسط این فیلتر دسترسی نداشته باشند. شما نمی خواهید که موتورهای جستجو این صفحات تکراری مربوط به فیلتر را ایندکس کنند و وقت خود را با این لینک های تکراری تلف کنند.
اغلب user agent ها از یک موتور جستجو، از همان دستورالعمل کلی برای یکی از user agent ها استفاده کرده و نیازی به تعریف دستورات متنوع برای هر یک نیست. اما در صورتی که نیاز به تعاریف دستورات متفاوت برای user agent های مختلف دارید، میتوانید با فراغ بال آنها را در فایل robots.txt تعریف کنید. موتور جستجوی گوگل چندین نوع روبات مخصوص به خود دارد که معروفترین آنها بانام Googlebot شناخته میشود و وظیفه بررسی و ایندکس صفحات وب را بر عهده دارد.
- این قضیه از الگوریتم پاندای گوگل شروع شد و به راحتی می توان به آن اشاره کرد که هرگز فایل های سی اس اس یا جاوا اسکریپت شما را مورد بررسی قرار ندهد.
- بنابراین برای جلوگیری از ایندکس صفحات سایت، فایل ربات ساز نسبت به متا تگ noindex انتخاب هوشمندانهتری به نظر میرسد.
- اگر تعداد صفحاتی که شما می خواهید با تعداد صفحات فهرست بندی شده برابر بودند.
- برای کامنت بعدی من نام، ایمیل، و وبسایت من را در این مرورگر ذخیره کن.
- دستور / بعداز Disallow به ربات گوگل میگوید باید وارد پوشهای در ریشه فایل شوی.
مجددا باید تکرار کنیم که استفاده از این دستور صرفا صفحات را از دسترسی رباتها مخفی میکند و ممکن است کاربر با کلیک روی لینک این صفحات امکان بازدید صفحه را داشته باشد و یا حتی این صفحات در نتایج جستجو فهرست شوند. علاوه بر این یک فایل robots.txt به موتورهای جستجو بیان می کند که نقشه سایت XML در کجا واقع شده است. پس از درک مفهوم فایل robots.txt به تاثیر این فایل در سئو و بهینه سازی سایت می پردازیم. ربات یک برنامه کامپیوتری خودکار است که با وب سایت ها و برنامه های کاربردی تعامل دارد. این رباتها صفحات وب را «خزش» میکنند و محتوای آن را فهرستبندی میکنند تا در نتایج موتورهای جستجو نمایش داده شوند. Robots.txt در واقع یک فایل واقعیست، در حالی که robots و x-robots جز داده های متا هستند.
همانطور که تا اینجا متوجه شدید، برای حذف کامل یک فایل خاص مانند فایلهای PDF یا تصاویر از نتایج گوگل، میتوان به کمک محدودیتهای فایل robot اینکار را به صورت کامل انجام داد. به عنوان مثال در بسیاری از سایتها بخشی تحت عنوان پروفایل کاربران وجود دارد که نمایش این پروفایلهای کاربری در نتایج گوگل هیچ ترافیکی برای سایت مورد نظر ایجاد نمیکنند. گوگل که به خوبی از این موضوع آگاه است، برای اینکه به تجربه کاربری سایتها کمترین لطمه را وارد کند برای هر سایت یک بودجه خزش مشخص در نظر میگیرد و با توجه به فاکتورهای مختلفی این بودجه را کم یا زیاد میکند. فقط فراموش نکن من بارها در آموزش سئو وبین سئو گفتم که site map سایت مپ ات را هم داخل robots.txt به گوگل معرفی کن. یعنی چی؟ یعنی اینکه یک تایمی ربات های گوگل برای هر سایت در نظر می گیرند تا در داخلش خزش کنند. شما با دسترسی ندادن به صفحات غیر عمومی ات این تایم را بیشتر می کنی برای صفحاتی که باید ببیند.