میتوانید حدود یک هفته بعدازاینکه فایل robots.txt را بهروزرسانی کردید و موقعیت نقشه سایت را در آن قراردادید، برای بررسی وجود چنین خطاهایی از ابزار سرچ کنسول گوگل استفاده کنید. هرچه تعداد صفحات وبسایت شما بیشتر باشد، رباتهای موتور جستجو زمان بیشتری برای خزیدن و ایندکس کردن صفحات نیاز دارد. همین زمان طولانی، روی رتبه سایتتان در نتایج جستجو، تاثیر منفی خواهد گذاشت. قوانین خاصی برای برخی از موتورهای جستجو وجود دارد که بهتر است اطلاعات کاملی در این زمینه داشته باشید تا بتوانید به بهترین شکل ممکن فایل robots.txt وب سایت خود را پیاده سازی کنید. ربات های خزنده گوگل یعنی Googlebot از دستورالعمل Crawl-delay پشتیبانی نمی کنند بنابراین اگر به فکر بهینه سازی موتور جستجوی گوگل هستید بهتر است که از این دستورالعمل استفاده نکنید. یک ربات خوب، مانند یک خزنده وب یا یک ربات فید خبری، سعی میکند قبل از مشاهده هر صفحه دیگری در یک دامنه، ابتدا از فایل robots.txt بازدید کند و دستورالعمل های آن را دنبال کند.
هر خزنده ای ممکن است سینتکس کد شما را متفاوت تفسیر کنداگرچه خزندههای وب معتبر دستورالعملهای موجود در فایل robots.txt را قبول میکنند، اما هر خزنده ممکن است دستورالعملها را متفاوت تفسیر کند. شما باید سینتکس مناسب برای آدرس دادن به خزنده های وب مختلف را بدانید زیرا ممکن است برخی دستورالعمل های خاصی را درک نکنند. در ادامه توجه شما را به نکاتی جلب می کنیم که رعایت آن ها در ساخت فایل robots.txt موجب سئو هر چه بهتر وب سایت شما خواهد شد. دستور Disallow برای ایندکس نکردن کاربرد دارد؛ با این دستور شما به ربات های موتور جستجو می گویید که نمی خواهید صفحه یا بخش مورد نظر در سایتتان، ایندکس شود. اگر یک نفر بخواهد به صفحاتی از وبسایت شما دسترسی پیدا کند که شما این صفحات را در فایل ربات بلاک کردهاید یقینا برای شناسایی این صفحات میتواند به راحتی از فایل ربات استفاده کند.
- گوگل در ابزار سرچ کنسول، ابزاری رایگان به نام robots.txt tester را در دسترس وبمسترها قرار داده است.برای آزمایش فایل خود ابتدا وارد اکانت کنسول جستجوی خود شوید.
- به طور کلی بهترین مکان قرار دادن نقشه سایت در انتهای فایل Robots.txt تان است.
- اگر کمی با کدهای HTML آشنایی داشته باشید پس میدانید که هر صفحه دو قسمت هد و بدنه دارد.
- به طور خلاصه این فایل نشان می دهد که موتورهای جستجو از کدام بخش ها باید دوری کنند.
- همانطور که میبینید دیجیکالا دستور سایت مپ را در فایل robots.txt خود قرار داده است.
- اما در صورتی که این فایل را پیدا نکردید و در آدرس robots.txt/ هم با یک صفحه ناموجود رو به رو شدید، تنها کاری که لازم است انجام دهید، ایجاد یک فایل جدید با پسوند txt و آپلود آن بر روی ریشه اصلی وبسایتتان است.
از آنجاییکه در سئو مهم ترین ربات ها مربوط به موتور گوگل هستند، پس منظور ما از واژه ربات ها همان خزنده های گوگل است. این فایل را فقط یکبار باید آماده کنید و دیگر کاری با آن نخواهید داشت مگر این که تغییرات مهمی در ساختار سایت ایجاد کنید. اگر کمی با کدهای HTML آشنایی داشته باشید پس میدانید که هر صفحه دو قسمت هد و بدنه دارد.
شما با کمک این فایل می توانید به ربات های گوگل و کراولر ها دستورات دلخواه خود را بدهید. اگر میخواهید امنیت فایل ربات خود را چند درجه بالاتر ببرید از مکانیزم امنیتی Honeypot (یک مکانیزم مبتنی بر دادههایی که قابل دسترسی هستند اما دسترسی آنها به صورت مداوم مانیتور میشود) استفاده کنید. اگر از ورود آیپیهای مختلف به منابع Dissallow اطلاع داشته باشید میتوانید از یک لیست سیاه برای این کار استفاده کنید و قسمتهای مختلف سایت را با استفاده از این تکنیک ایمن کنید. در مثال بالا همه رباتهای خزنده از دسترسی به تمامی آدرسهایی که دارای کاراکتر ؟ هستند منع شدهاند.
مسدودکردن همه خزندههای وب از همه محتوا:
تجربه شما در استفاده و تنظیم این فایل چگونه است؟ آیا robots.txt سایت خود را بررسی کردهاید؟ چه مشکلاتی داشته اید؟ سوالات و نظرات خود را برای ما بنویسید. تمایلی به دسترسی رباتها به صفحات مجله خبری سئو برچسب و نویسندگان سایت ندارید. اگر تا الان روی سئوی سایتت کاری نکردی، بهتره که از همین امروز شروع کنی. هر زیر دامنه از دامنهی اصلی باید فایل Robots.txt اختصاصی و جداگانه داشته باشند.
اکثر موتورهای جستجوی بزرگ از جمله گوگل، بینگ و یاهو وقتی به صفحات سایت ما سر میزنند ابتدا نگاهی به قوانینی که در فایل ربات سایتمان مشخص کردهایم میاندازند و سپس با توجه به این قوانین به سراغ صفحات سایت ما میروند. فایل Robots.txt یک فایل متنیست که وبمسترها با ایجاد آن می توانند ربات های موتورهای جستجو را در هنگام پایش وب سایت راهنمایی کنند. فایل robots.txt جزیی از پروتکلی با نام REP است که به استانداردسازی نحوه پایش وب توسط رباتها و چگونگی دسترسی و ایندکس محتوا و ارائه آن به کاربران می پردازد. پروتکل REP همچنین شامل نحوه برخورد با متا تگ Robots و دستوراتی دیگری مانند فالو کردن لینک ها نیز است. پیکربندی صحیح فایل robots.txt یکی از اقدامات اساسی در بهینه سازی بودجه خزش و سئو سایت است. بررسی و ویرایش فایل ربات TXT سایت یک فاکتور رتبه بندی نیست و تنها کنترلکننده نحوه رفتار رباتهای خزنده است.
تمامی این رباتها بهصورت خودکار عمل میکنند بهطوریکه قبل از ورود به هر سایت یا صفحهای از وجود فایل Robots.txt بر روی آن و محدود نبودن دسترسی محتویات اطمینان حاصل میکنند. تمام رباتهای استاندارد در وب به قوانین و محدودیتها پایبند بوده و صفحات شمارا بازدید و ایندکس نخواهند کرد ولی ناگفته نماند که بعضی از رباتها توجهی به این فایل ندارند. چرا که وردپرس این قابلیت را دارد که در به کارگیری از متا تگ ربات ها عملکرد مناسبی از خود نشان دهد. اگر تعداد صفحات ایندکس شده چیزی فراتر از تصور و انتظارتان بود در این حالت احتمالا به یک فایل robots.txt با قوانین و محدودیتهای مشخص نیاز دارید. اگر صاحب یک وبسایت کوچک با تعداد صفحات کمی هستید، با مراجعه به سرچ کنسول وبسایتتان میتوانید تعداد صفحاتی از سایتتان که توسط گوگل ایندکس شدهاند را در بخش Coverage مشاهده کنید.
دستور CREATE
در URL Cloacking از روشی استفاده می شود که شرایط و قوانین گوگل را کاملا نقض می کند و به همین دلیل است که به آن روش سئوی کلاه سیاه می گویند. در این دستور شما زمان تاخیر را هم به ربات ها اعلام می کنید؛ البته این دستور برای رباتی مانند Googlebot قابل اجرا نیست و برای انجام آن باید از ابزاری مانند گوگل سرچ کنسول بهره بگیرید. به طور کلی، دو نوع دستور برای این فایل ها داریم؛ اولین دستور برای محدود کردن موتور های جستجو از کراول کردن است و دومین دستور هم برای اجازه دادن به موتور های جستجو برای کراول کردن خواهد بود.
عدم اجازه دسترسی به برخی از بخش های سایت می تواند مورد سوءاستفاده توسط هکرها قرار گیرد. لطفا توجه داشته باشید که فایل robots.txt شما به صورت عمومی در دسترس خواهد بود. با این حال باید توجه داشت که اولین دستورالعمل همواره در ابتدا مورد بررسی قرار می گیرد. دقت داشتن به دستورالعمل هایی که برای تمامی فایل های robots.txt و در عین حال برای یک فایل خاص می باشند.
موتور جستجو چیست؟ معرفی مهمترین موتورهای جستجوگر اینترنت