آیا می دانستید که کنترل اینکه چه کسی در سایت شما را قرار گیرد و ایندکس نماید، امکان پذیر است؟ روش انجام این کار از طریق فایلی به نام Robots.txt است. اما فایل Robots.txt چیست؟ یک فایل متنی ساده است که در فهرست اصلی سایت شما قرار می گیرد، به «ربات ها» (که عنکبوت های موتورهای جستجو نامیده می شوند) می گوید که درکدام صفحات در سایت شما بچرخند و کدام صفحات را نادیده بگیرند. هر چند که فایل Robots.txt ضروری نیست، اما به شما قدرت کنترلی زیادی برای مشاهده سایت توسط گوگل و سایر موتورهای جستجو می دهد. هنگامی که این ربات ها به درستی مورد استفاده قرار گیرند، می توانند چرخش در سایت ها را بهبود ببخشد و حتی بر سئو نیز تاثیر بگذارد.
تاریخچه مختصری از ربات های وب
انسان ها حافظه کوتاه و انتخابی دارند و این ویژگی برای به دست آوردن و ذخیره انواع اطلاعات، مشکل ساز است. به عنوان مثال، ما گوگل را یک موتور جستجوی هوشمند و با میلیارها اطلاعات دسته بندی شده می شناسیم. اغلب آن را طوری می بینند که گویی یک فهرست هوشمند از همه نوع اطلاعاتی را در خود ذخیره نموده است.
اما در روزهای اولیه وب، محیطی تاریک و گیج کننده بود و هیچ راه رباتیک و هوشمندی برای جستجو و سرچ اطلاعات وجود نداشت. در آن زمان موتور های جستجو به شکل امروزی وجود نداشتند. WebCrawler اولین موردی بود که بیشتر مردم از آن استفاده می کردند و پس از مدت کوتاهی Lycos نیز به آن اضافه شد. ویژگی این موتورهای جستجو این بود که هر چیزی را می توانستید در وب پیدا کنید و ایندکس نمایید؛ در واقع کمی بیش از حد خوب کار می کردند!
زمانی که شما به دنبال یک موضوع خاص در وب بودید، باید موارد فراوانی را سرچ می کردید تا به نتیجه دلخواه برسید. اگر تا به حال از WebCrawler، Lycos یا هر یک از موتورهای جستجوی پیش از Google استفاده کرده باشید، صفحات و نتایجی را به خاطر می آورید که هیچ ارتباطی با آنچه شما به دنبال آن بودید، نداشته اند. برای رسیدن به موضوع مورد نظر باید زمان زیادی را به سرچ کردن و جستجو می پرداختید. در موتور های جستجوی قدیمی، نمایه سازی همه چیز مشکل ساز بود. مشکل فهرست بندی منجر به نتایج جستجوی بی فایده می گردید.
یاهو، چاره حل مشکل!
بدتر از همه، هرزنامه نویس ها در همان اوایل، فقدان پیچیدگی در موتورهای جستجو را شناسایی می کردند و این اغلب منجر به بارگیری صفحات مملو از کلمات و عباراتی می شد که هیچ ارتباطی با موضوع سرچ شده نداشتند و نتیجه سرچ بی فایده می گشت. برای حل این مشکلات، موتور های جستجو دچار پیشرفت چشم گیری شدند و در نهایت «یاهو» طراحی شد.
یاهو در واقع یک موتور جستجو نبود؛ بلکه لیستی از وب سایت ها بود که برای به دست آوردن اطلاعات، مفید به نظر می رسید. اگر چه اکنون از یاهو به آن صورت استفاده نمی شود، اما در آن دوره یکی از مفیدترین روش های سرچ بدون هرج و مرج و بی نظمی بود و به عنوان نقطه شروعی برای اکثر علاقه مندان به استفاده از وب محسوب می شد.
Robots.txt چیست؟
اگر تا به الان جواب این سوال را درنیافته اید، در ادامه قصد داریم به توضیح کامل آن بپردازیم و متوجه می شویم، فایل Robots.txt چیست و چگونه کار می کند. به طور کلی فایل robots.txt به موتورهای جستجو می گوید که چگونه هنگام سرچ، بر اساس محتوای مورد نظر شما رفتار کنند و برای مدیریت کلی سایت، بسیار ارزشمند هستند.
فایل robots.txt یک فایل متنی ساده است که مدیران وب سایت ها می توانند آن را ایجاد کنند تا به ربات های وب بگویند که به کدام بخش از وب سایت باید هدایت شوند و به کدام قسمت نباید وارد شوند. این فایل در دایرکتوری اصلی (ریشه) روی سرور ذخیره می شود. پس همانطور که قبلا گفته شد وجود این فایل تاثیر مستقیمی روی سئو سایت دارد.
هنگامی که یک ربات به یک وب سایت می رسد، ابتدا فایل robots.txt را می خواند تا مشخص کند که به کدام قسمت از وب سایت باید انتقال یابد یا به اصلاح «خزیده شود» و کدام قسمت ها را نادیده بگیرد. بر اساس استاندارد Robots Exclusion Protocol شما مجبور نیستید یک فایل robots.txt ایجاد کنید، اما اغلب توصیه می شود این کار را انجام دهید. با یک فایل robots.txt، می توان کل دایرکتوری ها را از خزیدن حذف کرده و در صورت لزوم، حتی می توانید ربات ها را مسدود نمایید.
Robots.txt فایلی است که به عنکبوت های موتورهای جستجو می گوید به صفحات یا بخش های خاصی از یک وب سایت وارد نشوند. اکثر موتورهای جستجوی اصلی (از جمله گوگل، بینگ و یاهو) درخواست های Robots.txt را می شناسند و به آن ها احترام می گذارند.
فایل robots.txt چگونه کار می کند؟
حال که به صورت مختصر با این فایل آشنا شده اید، لازم است با نحوه کارکرد و چگونگی آن نیز بیشتر آشنا شوید. ممکن است در ظاهر کارکرد این فایل آسان به نظر برسد، اما جدا از این مسئله به دلیل بالا بردن بازدید سایت و تاثیرگذاری بر سئو، بسیار مفید و موثر است که در ادامه با اهمیت آن بیشتر آشنا می شویم.
فایل robots.txt فقط یک فایل متنی بدون کد نشانه گذاری، HTML است؛ از این رو پسوند robots.txt مانند هر فایل دیگری در وب سایت بر روی وب سرور میزبانی می شود. در واقع، فایل robots.txt برای هر وب سایت معینی معمولاً با تایپ URL برای صفحه اصلی و سپس افزودن /robots.txt مانند https://www….com/robots.txt قابل مشاهده است. زمانی که فایل به جای دیگری در سایت پیوند داده نشده است، کاربران به احتمال زیاد به آن برخورد نمی کنند، اما در زمان وجود این فایل بیشتر ربات های وب ابتدا قبل از هدایت به بقیه قسمت های سایت به دنبال این فایل می گردند.
در حالی که یک فایل robots.txt دستورالعمل هایی را برای ربات ها ارائه می دهد و سرعت جستجو و پیدا کردن سایت را افزایش می دهد. یک ربات خوب، مانند یک خزنده وب، سعی می کند قبل از مشاهده هر صفحه دیگری، ابتدا از فایل robots.txt بازدید کند و دستورالعمل های آن را دنبال نماید. یک ربات بد، یک فایل robots.txt را نادیده می گیرد یا آن را پردازش می کند تا صفحات وب ممنوعه را پیدا نماید. یک ربات خزنده وب از مجموعه ی دستورالعمل ها در فایل robots.txt پیروی می کند.
پروتکل های استفاده شده در فایل robots.txt کدامند؟
در شبکه، از پروتکل های خاصی برای ارائه دستورالعمل ها یا دستورات استفاده می شود. فایل های Robots.txt از چند پروتکل مختلف استفاده می کنند؛ پروتکل اصلی Robots Exclusion Protocol نام دارد. این راهی است برای اینکه به ربات ها بگویید از کدام صفحات وب و منابع اجتناب کنند. دستورالعمل های فرمت شده برای این پروتکل در فایل robots.txt گنجانده شده است.
پروتکل دیگری که برای فایل های robots.txt استفاده می شود، پروتکل Sitemaps است. این را می توان یک پروتکل برای گنجاندن ربات ها در نظر گرفت. نقشه های سایت به خزنده وب نشان می دهند که در کدام صفحات می توانند بخزند. این کمک می کند تا اطمینان حاصل شود که یک ربات خزنده، هیچ صفحه مهمی را از دست نخواهد داد.
چرا Robots.txt مهم است؟
اگر اکنون متوجه شدید که فایل Robots.txt چیست و چگونه کار می کند، به طور حتم این سوال هم برایتان پیش آمده است که آیا داشتن این فایل برای سایت شما مهم و ضروری است یا خیر؟
باید گفت که اکنون اکثر وب سایت ها به فایل robots.txt نیاز ندارند. به این دلیل که گوگل معمولاً می تواند تمام صفحات مهم سایت شما را پیدا کرده و فهرست بندی کند و آن ها به طور خودکار صفحاتی که نسخه های مهم یا تکراری نیستند را ایندکس می کنند. با این حال، چند دلیل اصلی وجود دارد که لازم است از فایل robots.txt استفاده کنید:
مسدود کردن صفحات غیر عمومی: گاهی اوقات صفحاتی در سایت خود دارید که نمی خواهید ایندکس شوند. به عنوان مثال، ممکن است یک نسخه مرحله بندی از یک صفحه داشته باشید یا یک صفحه ورود برای این صفحات باید وجود داشته باشند. اما شما نمی خواهید افراد تصادفی روی وارد این سایت ها شوند و به آن های دسترسی پیدا نمایند. در این مورد می توانید از فایل robots.txt برای مسدود کردن این صفحات از دسترس خزنده ها و ربات های موتور جستجو استفاده کنید.
به حداکثر رساندن بودجه خزیدن: اگر برای ایندکس کردن تمام صفحات خود با مشکل مواجه هستید، ممکن است با مشکل بودجه خزیدن مواجه شوید. با مسدود کردن صفحات بی اهمیت با robots.txt، Googlebot می تواند بیشتر بودجه خزیدن شما را صرف صفحاتی کند که واقعاً مهم هستند.
نتیجه نهایی؟ Robots.txt به ربات های موتورهای جستجو می گوید که به صفحات خاصی در وب سایت شما وارد شود و یا مانع ورود آن گردد.
سوالات متداول
- نحوه نوشتن و وارد کردن فایل Robots.txt چیست؟
فایل Robots.txt به حروف کوچک و بزرگ حساس است؛ نام فایل باید robots.txtباشد؛ نه Robots.txt، robots.TXT یا غیره.
- اگرفایل Robots.txtحاوی هیچ دستور العملی نباشد، چگونه کار می کند؟
اگر فایل robots.txt حاوی هیچ دستورالعملی نباشد که ورود به یک صفحه را مجاز یا ممنوع کند، به هدایت کردن کاربرد به سایر اطلاعات سایت ادامه خواهد داد.
- جایگاه فایل Robots.txt چیست؟
برای یافتن، فایل robots.txt باید در دایرکتوری در قسمت بالای وب سایت، مراجعه کنید.