شاید برای شما جالب باشد که بدانید جلوگیری از ایندکس شدن محتوای تکراری در سایت نیز با استفاده از همین فایل انجام می شود. به همین علت نیز باید قوانینی را تنظیم کنید تا موتورهای جستجو به صفحات تولید شده توسط این فیلتر دسترسی نداشته باشند. شما نمی خواهید که موتورهای جستجو این صفحات تکراری مربوط به فیلتر را ایندکس کنند و وقت خود را با این لینک های تکراری تلف کنند. فرض کنید که شما در حال پیاده سازی یک وب سایت در حوزه تجارت الکترونیک هستید و بازدیدکنندگان از سایت شما می توانند برای جستجوی سریع تر در میان محصولات شما از یک فیلتر استفاده کنند. خیر رباتهای بدافزارها به دنبال اطلاعات کلی از سایتها مانند ایمیلهای بخش Info هستند درنتیجه به صورت کامل Robots.txt را نادیده میگیرند و از دستورات آن پیروی نمیکنند.
تمام رباتهای استاندارد در وب به قوانین و محدودیتها پایبند بوده و صفحات شمارا بازدید و ایندکس نخواهند کرد ولی ناگفته نماند که بعضی از رباتها توجهی به این فایل ندارند. اگر در فایل Robots دستور دهید که رباتهای گوگل اجازه دسترسی به صفحاتی را ندارند، این صفحات کلاً بررسی نمیشوند اما هیچ تضمینی وجود ندراد که این صفحه در نتایج جستجوی گوگل ظاهر نشود. امکان دارد رباتها از طریق لینکهایی که به همان صفحه داده شدهاند و کمک گرفتن از همان انکر تکست لینک، صفحه را ایندکس کنند. در حال حاضر بهترین راه برای حذف صفحهای از نتایج جستجو، اضافه کردن دستور noindex در قسمت head صفحهها است. اگر از وردپرس استفاده میکنید افزونههایی برای این کار وجود دارد و در غیر اینصورت باید از طراحی وبسایت خود بخواهید که امکاناتی برای افزودن این کدها یا دستورات در قسمت هد هر صفحه فراهم کند.
روشی که متخصصان سئو می توانند از ChatGPT استفاده کنند
همان Notepad ساده ویندوز یا هر ویرایشگر متن دیگر که فایل خروجی از نوع TXT میدهد قابل استفاده است. همانطور که میبینید دیجیکالا دستور سایت مپ را در فایل robots.txt خود قرار داده است. دستور / بعداز Disallow به ربات گوگل میگوید باید وارد پوشهای در ریشه فایل مجله خبری سئو شوی. مطمئناً شما هم میخواهید ربات گوگل Crawl Budget سایتتان را به بهترین شکل ممکن مصرف کند. به عبارت دیگر، ربات گوگل باید ارزشمندترین و مهمترین صفحات شما را بهتر و بیشتر بررسی کند. اما باید حواستان باشد که این رباتها زبان آدمیزاد سرشان نمیشود!
برای ایجاد فایل Robots.txt ابتدا شما باید به هاست دسترسی داشته باشید و این فایل را در ریشه اصلی آن کپی کنید. اگر به هر دلیلی شما به هاست دسترسی نداشته باشید میتوانید با قرار دادن تگهای متا در هدر صفحه دسترسی رباتهای گوگل را به آن محدود نمایید. اکنون که اصول robots.txt و نحوه استفاده از آن در سئو را می دانید، مهم است که بدانید چگونه یک فایل robots.txt را پیدا کنید. یک روش مشاهده ساده که برای هر سایتی کار می کند این است که URL دامنه را در نوار جستجوی مرورگر خود تایپ کنید و /robots.txt را در پایان اضافه کنید.
همانطور که می بینید، ما عنکبوت ها را از خزیدن صفحه مدیریت WP منع می کنیم. برای ایجاد یک فایل TXT می توانید از ویرایشگر notepad ویندوز خود استفاده کنید. اما اگر تعداد صفحات فراتر از حد انتظار بود (به URL صفحاتی که فهرست بندی شده اند که شما نمی خواهید توجه نمایید) زمان آن است که از Robots.txt استفاده نمایید. مثلا یک صفحه در دست ساخت دارید و یا اینکه یک صفحه برای ورود به بخش مدیریت سایت دارید. و صفحاتی را که تشخیص دهد که مهم نیستند، یا کپی از صفحات دیگر هستند را فهرست بندی نمی کند. (همچنین، اگر از پلاگین های وردپرس برای ریدایرکت یا کاستومایز پرمالینک ها استفاده کرده باشید، ممکنه اشکال از این پلاگین ها باشه و با غیر فعال کردنشون ممکنه که این مشکل برطرف بشه).
همچنین برخی از دستورات انحصاری رباتهای خاص هم برای بسیاری از رباتها، ناشناخته و غیر قابل درک است و به همین خاطر ممکن است برخی رباتها از این دستورات پیروی کنند و برخی دیگر به آنها توجهی نکنند. دقیقا همانطوری که حرف زدن به زبان چینی برای بسیاری از مردم جهان کاملا غیر قابل مفهوم و درک است. قبل از اینکه بخواهیم در فایل robots.txt سایتمان تغییراتی ایجاد کنیم، لازم است که با محدودیتهای این فایل آشنا باشیم. برای گذاشتن کامنت و یادداشت در داخل فایل ربات میتوانیم از علامت # استفاده کنیم، به این ترتیب جلوی هشتگ هرچیزی که بنویسیم توسط رباتها و خزندهها نادیده گرفته میشود. در مرحله دوم، بعد از اینکه مشخص کردیم دقیقا با چه رباتی طرف هستیم، حالا باید مشخص کنیم که محدودیتهای این ربات چیست و چه صفحات و منابعی از وبسایت شما را نباید بررسی کند. با اینکار در حقیقت اعلام میکنیم که تمام رباتها مد نظر ما هستند و تمام رباتها باید به دستورات ما توجه کنند و دیگر نیازی نیست اسامی تک تک رباتها را بنویسیم.
مدیریت لینک ها و آدرس ها (URL) با Robots.txt
در صورتی که این فایل را بروزرسانی کردهاید بهتر است آدرس آن را برای بررسی در گوگل سرچ کنسول ارسال کنید تا سریعتر بروز رسانی شود. برای اینکه بتوانید سئوی سایت خود را بهبود ببخشید باید از فایل Robots.txt استفاده کنید. در گام نخست باید بررسی کنید که هیچ محتوایی در این فایل برای بررسی و خزیدن رباتها مسدود نشده باشد. به این نکته توجه داشته باشید که اگر آدرسی در این فایل برای رباتها مسدود شود هیچ وقت سئو و ایندکس نمیشود.
محدود کردن ایندکس فایلهای خاص
به عنوان یک فایل متنی، در واقع می توانید با استفاده از دفترچه یادداشت ویندوز یک فایل ایجاد کنید. اگر یک سئو کار حرفه ای نیستید، به هیچ عنوان سمت استفاده از این روش نروید؛ این تکنیک یکی از تکنیک های سئوی کلاه سیاه به حساب می آید و حتما باید توسط افراد حرفه ای و متخصص انجام شود. فایل Robot.txt در دایرکتوری روت سایت شما ذخیره می شود؛ برای پیدا کردن آن می توانید به دسترسی FTP در سی پنل یا دایرکت ادمین بروید. این فایل حجم سنگینی ندارد و در اکثر مواقع نهایتاً چند صد بایت خواهد بود. ذخیره نام، ایمیل و وبسایت من در مرورگر برای زمانی که دوباره دیدگاهی مینویسم.
- این دستورات از طریق متا تگهای رباتها و تگهای X-Robots اجرا می شوند.
- حالا که تا حدودی متوجه شدیم که کلیت این فایل چیست، بد نیست که نگاهی به نقشهای فایل robots.txt و دلایل اهمیت آن بپردازیم و دقیقا مشخص کنیم که چرا سایتمان باید حاوی فایل robots.txt باشد.
- اگر به محصولات و خدمات ما نیاز دارید، از طریقسایت انگلیسیبا ما در ارتباط باشید.
- فقط از فایلهای robots.txt برای صفحاتی استفاده کنید که نیازی ندارید در آن صفحه لینک سازی به دیگر صفحات داشته باشید.