Semalt ให้คำแนะนำเกี่ยวกับวิธีจัดการกับบ็อตสไปเดอร์และซอฟต์แวร์รวบรวมข้อมูล

นอกเหนือจากการสร้าง URL ที่เป็นมิตรกับ เครื่องมือค้นหา แล้วไฟล์. htaccess ยังช่วยให้ผู้ดูแลเว็บบล็อกบ็อตเฉพาะจากการเข้าถึงเว็บไซต์ของพวกเขา วิธีหนึ่งในการบล็อกโรบอตเหล่านี้คือผ่านไฟล์ robots.txt อย่างไรก็ตาม Ross Barber ผู้จัดการฝ่ายความสำเร็จของลูกค้าของ Semalt กล่าวว่าเขาได้เห็นโปรแกรมรวบรวมข้อมูลบางส่วนไม่สนใจคำขอนี้ หนึ่งในวิธีที่ดีที่สุดคือการใช้ไฟล์. htaccess เพื่อหยุดไม่ให้จัดทำดัชนีเนื้อหาของคุณ

บอทเหล่านี้คืออะไร?

เป็นซอฟต์แวร์ประเภทหนึ่งที่ใช้โดยเสิร์ชเอ็นจิ้นเพื่อลบเนื้อหาใหม่จากอินเทอร์เน็ตเพื่อการจัดทำดัชนี

พวกเขาทำงานต่อไปนี้:

  • เยี่ยมชมหน้าเว็บที่คุณเชื่อมโยง
  • ตรวจสอบข้อผิดพลาดรหัส HTML ของคุณ
  • พวกเขาบันทึกหน้าเว็บที่คุณเชื่อมโยงไปถึงและดูว่าหน้าเว็บใดที่เชื่อมโยงไปยังเนื้อหาของคุณ
  • พวกเขาจัดทำดัชนีเนื้อหาของคุณ

อย่างไรก็ตามบ็อตบางตัวอาจเป็นอันตรายและค้นหาเว็บไซต์ของคุณเพื่อหาที่อยู่อีเมลและแบบฟอร์มที่มักใช้ในการส่งข้อความหรือสแปมที่ไม่ต้องการ คนอื่น ๆ ก็มองหาช่องโหว่ความปลอดภัยในรหัสของคุณ

สิ่งที่จำเป็นในการบล็อกโปรแกรมรวบรวมข้อมูลเว็บคืออะไร

ก่อนที่จะใช้ไฟล์. htaccess คุณต้องตรวจสอบสิ่งต่าง ๆ ต่อไปนี้:

1. เว็บไซต์ของคุณต้องทำงานบนเซิร์ฟเวอร์ Apache ทุกวันนี้แม้แต่ บริษัท ผู้ให้บริการเว็บโฮสติ้งที่มีคุณสมบัติเหมาะสมครึ่งหนึ่งก็สามารถให้คุณเข้าใช้งานไฟล์ที่ต้องการได้

2. คุณควรเข้าถึงไฟล์บันทึกเซิร์ฟเวอร์ของเว็บไซต์ของคุณเพื่อให้คุณสามารถค้นหาว่าบอทใดที่กำลังเยี่ยมชมหน้าเว็บของคุณ

โปรดทราบว่าไม่มีวิธีที่คุณจะสามารถปิดกั้นบ็อตที่เป็นอันตรายได้ทั้งหมดเว้นแต่คุณจะปิดกั้นบ็อตทั้งหมดแม้แต่ผู้ที่คุณคิดว่ามีประโยชน์ บ็อตใหม่จะเกิดขึ้นทุกวันและอันที่เก่ากว่านั้นจะถูกแก้ไข วิธีที่มีประสิทธิภาพมากที่สุดคือการรักษาความปลอดภัยรหัสของคุณและทำให้ยากสำหรับบอทที่จะสแปมคุณ

ระบุบอท

บอตสามารถระบุได้โดยที่อยู่ IP หรือจาก "สตริงตัวแทนผู้ใช้" ซึ่งส่งในส่วนหัว HTTP ตัวอย่างเช่น Google ใช้ "Googlebot"

คุณอาจต้องการรายการนี้ด้วยบอต 302 ถ้าคุณมีชื่อของบอทที่คุณต้องการเก็บไว้โดยใช้. htaccess

อีกวิธีหนึ่งคือการดาวน์โหลดไฟล์บันทึกทั้งหมดจากเซิร์ฟเวอร์และเปิดโดยใช้โปรแกรมแก้ไขข้อความ ตำแหน่งของพวกเขาบนเซิร์ฟเวอร์อาจเปลี่ยนแปลงได้ขึ้นอยู่กับการกำหนดค่าเซิร์ฟเวอร์ของคุณ หากคุณหาไม่พบให้ขอความช่วยเหลือจากโฮสต์เว็บของคุณ

หากคุณทราบว่ามีการเยี่ยมชมหน้าใดหรือเวลาที่เข้าชมจะเป็นการง่ายขึ้นที่จะมีบอทที่ไม่ต้องการ คุณสามารถค้นหาไฟล์บันทึกด้วยพารามิเตอร์เหล่านี้

ครั้งหนึ่งคุณเคยสังเกตว่าบ็อตใดที่คุณต้องบล็อก จากนั้นคุณสามารถรวมไว้ในไฟล์. htaccess โปรดทราบว่าการบล็อกบอทนั้นไม่เพียงพอที่จะหยุด อาจกลับมาพร้อมกับ IP หรือชื่อใหม่

วิธีการบล็อกพวกเขา

ดาวน์โหลดสำเนาของไฟล์. htaccess ทำการสำรองข้อมูลหากจำเป็น

วิธีที่ 1: การบล็อกโดย IP

ข้อมูลโค้ดนี้บล็อกบอทโดยใช้ที่อยู่ IP 197.0.0.1

ปฏิเสธคำสั่งอนุญาต

ปฏิเสธจาก 197.0.0.1

บรรทัดแรกหมายความว่าเซิร์ฟเวอร์จะบล็อกคำขอทั้งหมดที่ตรงกับรูปแบบที่คุณระบุและอนุญาตให้ผู้อื่นทั้งหมด

บรรทัดที่สองบอกให้เซิร์ฟเวอร์ออกหน้า 403 ที่ต้องห้าม

วิธีที่ 2: การบล็อกโดยตัวแทนผู้ใช้

วิธีที่ง่ายที่สุดคือใช้เครื่องมือเขียนใหม่ของ Apache

RewriteEngine On

RewriteCond% {HTTP_USER_AGENT} BotUserAgent

RewriteRule - [F, L]

บรรทัดแรกทำให้มั่นใจได้ว่าโมดูลการเขียนถูกเปิดใช้งาน บรรทัดที่สองคือเงื่อนไขที่ใช้กับกฎ "F" ในบรรทัดที่ 4 บอกให้เซิร์ฟเวอร์ส่งคืน 403: สิ่งต้องห้ามในขณะที่ "L" หมายความว่านี่เป็นกฎสุดท้าย

จากนั้นคุณจะอัปโหลดไฟล์. htaccess ไปยังเซิร์ฟเวอร์ของคุณและเขียนทับไฟล์ที่มีอยู่ เมื่อเวลาผ่านไปคุณจะต้องอัปเดต IP ของบอท ในกรณีที่คุณทำผิดพลาดเพียงอัปโหลดข้อมูลสำรองที่คุณทำไว้