Semalt מספק טיפים להתמודדות עם בוטים, עכבישים וסורקים

מלבד יצירת כתובות URL ידידותיות למנועי חיפוש , קובץ ה- htaccess מאפשר למנהלי אתרים לחסום בוטים ספציפיים מכניסה לאתר שלהם. אחת הדרכים לחסום רובוטים אלה היא באמצעות קובץ robots.txt. עם זאת, רוס ברבר, מנהל הצלחת לקוחות Semalt , מצהיר כי ראה כמה סורקים מתעלמים מבקשה זו. אחת הדרכים הטובות ביותר היא להשתמש בקובץ ה- .htaccess כדי למנוע מהם להוסיף לאינדקס את התוכן שלך.

מהם הבוטים האלה?

הם סוג של תוכנה המשמשת מנועי חיפוש למחיקת תוכן חדש מהאינטרנט לצורכי אינדקס.

הם מבצעים את המשימות הבאות:

  • בקר בדפי אינטרנט שקשרת אליהם
  • בדוק שגיאות בקוד ה- HTML שלך
  • הם שומרים לאילו דפי אינטרנט שאתה מקשר ורואים אילו דפי אינטרנט מקשרים לתוכן שלך
  • הם באינדקס של התוכן שלך

עם זאת, חלק מהבוטים הם זדוניים ומחפשים באתר שלך כתובות דוא"ל וטפסים המשמשים בדרך כלל כדי לשלוח לך הודעות או דואר זבל לא רצויים. אחרים אפילו מחפשים פרצות אבטחה בקוד שלך.

מה דרוש כדי לחסום סורקי רשת?

לפני השימוש בקובץ .htaccess, עליך לבדוק את הדברים הבאים:

1. האתר שלך חייב להיות פועל בשרת Apache. בימינו, גם חברות אירוח אתרים שהן חצי הגונות בתפקידן, נותנות לך גישה לקובץ הנדרש.

2. אתה אמור להיות בעל גישה לרישומי השרת הגולמיים של האתר שלך, כך שתוכל לאתר אילו בוטים ביקרו בדפי האינטרנט שלך.

שים לב שאין מצב שתוכל לחסום את כל הרובוטים המזיקים אלא אם כן תחסום את כולם, אפילו כאלה שאתה מחשיב כמועילים. בוטים חדשים עולים מדי יום, וישנים ישנים יותר. הדרך היעילה ביותר היא לאבטח את הקוד שלך ולהקשות על בוטים לספאם אותך.

זיהוי בוטים

ניתן לזהות בוטים באמצעות כתובת ה- IP או מ"חרוזת סוכנות המשתמש "שלהם, אותם הם שולחים בכותרות HTTP. לדוגמה, גוגל משתמשת ב- "Googlebot".

יתכן שתזדקק לרשימה זו עם 302 בוטים אם כבר יש לך את שם הבוט שתרצה להרחיק באמצעות .htaccess

דרך נוספת היא להוריד את כל קבצי היומן מהשרת ולפתוח אותם באמצעות עורך טקסטים. המיקום שלהם בשרת עשוי להשתנות בהתאם לתצורת השרת שלך. אם אינך מצליח למצוא אותם, פנה לעזרה ממארח האינטרנט שלך.

אם אתה יודע איזה דף ביקר, או את זמן הביקור, קל יותר להגיע עם בוט לא רצוי. אתה יכול לחפש בקובץ היומן עם פרמטרים אלה.

פעם ציינת אילו בוטים אתה צריך לחסום; לאחר מכן תוכל לכלול אותם בקובץ .htaccess. שימו לב כי חסימת הבוט אינה מספיקה בכדי לעצור אותה. יתכן שהוא יחזור עם IP או שם חדש.

כיצד לחסום אותם

הורד עותק של קובץ ה- .htaccess. ערוך גיבויים במידת הצורך.

שיטה 1: חסימת באמצעות IP

קטע קוד זה חוסם את הבוט באמצעות כתובת ה- IP 197.0.0.1

להזמין דחה, אפשר

דחה מ- 197.0.0.1

פירוש השורה הראשונה שהשרת יחסום את כל הבקשות התואמות את התבניות שציינת ויאפשר לכל האחרים.

השורה השנייה מורה לשרת להוציא דף 403: אסור

שיטה 2: חסימת על ידי סוכני משתמש

הדרך הקלה ביותר היא להשתמש במנוע השכתוב של אפאצ'י

RewriteEngine On

RewriteCond% {HTTP_USER_AGENT} BotUserAgent

RewriteRule. - [F, L]

השורה הראשונה מבטיחה שמודול השכתוב יהיה מופעל. שורה שנייה היא התנאי עליו חל הכלל. ה- "F" בשורה 4 אומר לשרת להחזיר 403: אסור בעוד ש- "L" פירושו שזה הכלל האחרון.

לאחר מכן תעלה את קובץ ה- .htaccess לשרת שלך ויחליף את הקיים. עם הזמן תצטרך לעדכן את ה- IP של הבוט. במקרה שאתה מבצע שגיאה, פשוט העלה את הגיבוי שביצעת.

mass gmail