Hoe de toegang tot SeekportBot of andere crawIk klikte op een website

Meestal wanneer u de toegang moet blokkeren SeekportBot of anderen crawl bots met een website zijn de redenen simpel. De webspin maakt te veel bezoeken in korte tijd en vraagt ​​de bronnen van de webserver op, of hij komt van een zoekmachine waarin u niet wilt dat uw website wordt geïndexeerd.

Het is erg gunstig voor een website die wordt bezocht door crawIk botste tegen hem op. Deze webspiders zijn ontworpen om de inhoud van webpagina's in zoekmachines te verkennen, te verwerken en te indexeren. Google en Bing gebruiken dergelijke crawIk botste tegen hem op. Er zijn echter ook zoekmachines die robots gebruiken om gegevens van webpagina's te verzamelen. Seekport is een van deze zoekmachines, die crawde SeekportBot-ler voor het indexeren van webpagina's. Helaas gebruikt het het soms overmatig en zorgt het voor onnodig verkeer.

Wat is SeekportBot?

SeekportBot een web crawler ontwikkeld door het bedrijf Seekport, gevestigd in Duitsland (maar gebruikt IP's uit verschillende landen, waaronder Finland). Deze bot wordt gebruikt om websites te crawlen en te indexeren, zodat ze kunnen worden weergegeven in de resultaten van zoekmachines. Seekport. Een niet-functionele zoekmachine, voor zover ik weet. Het leverde in ieder geval geen resultaten voor mij op voor een sleutelzin.

SeekportBot toepassingen user agent:

"Mozilla/5.0 (compatible; SeekportBot; +https://bot.seekport.com)"

Hoe de toegang tot SeekportBot of andere crawIk klikte op een website

Als u tot de conclusie bent gekomen dat deze webspider of een andere, het niet nodig is om uw hele website te scannen en onnodig verkeer naar de webserver te leiden, heeft u verschillende methoden waarmee u hun toegang kunt blokkeren.

Firewall op webserverniveau

Het zijn firewall-applicaties open-source die op besturingssystemen kan worden geïnstalleerd Linux en kan worden geconfigureerd om verkeer te blokkeren op basis van verschillende criteria. IP-adres, locatie, poorten, protocollen of user-agent.

APF (Advanced Policy Firewall) is zo'n software waarmee je ongewenste bots op serverniveau kunt blokkeren.

Omdat SeekportBot en andere webspiders meerdere IP-blokken gebruiken, is de meest effectieve blokkeerregel gebaseerd op "user agent". Dus als u de toegang wilt blokkeren SeekportBot door middel van APF, het enige dat u hoeft te doen, is verbinding maken met de webserver via SSHen voeg de filterregel toe aan het configuratiebestand.

1. Open het configuratiebestand met nano (of een andere uitgever).

sudo nano /etc/apf/conf.apf

2. Zoek naar de regel die begint met "IG_TCP_CPORTS” en voeg de user-agent toe die u wilt blokkeren aan het einde van deze regel, gevolgd door een komma. Bijvoorbeeld als u wilt blokkeren user agent "SeekportBot", zou de regel er zo uit moeten zien:

IG_TCP_CPORTS="80,443,22" && IG_TCP_CPORTS="$IG_TCP_CPORTS,SeekportBot"

3. Sla het bestand op en start de APF-service opnieuw.

sudo systemctl restart apf.service

"SeekportBot"-toegang wordt geblokkeerd.

Filter web crawls met behulp van Cloudflare – Blokkeer de toegang van SeekportBot

Met behulp van Cloudflare lijkt het mij de veiligste en handigste methode waarmee je de toegang van sommige bots tot een website op verschillende manieren kunt beperken. De methode die ik ook in de casus heb gebruikt SeekportBot om verkeer naar een online winkel te filteren.

Ervan uitgaande dat je de website al hebt toegevoegd aan Cloudflare en de DNS-services zijn geactiveerd (dat wil zeggen, het verkeer naar de website gaat via Cloudflare), volg je de onderstaande stappen:

1. Open uw Clouflare-account en ga naar de website waarvoor u de toegang wilt beperken.

2. Ga naar: Security → WAF en voeg een nieuwe regel toe. Create rule.

3. Kies een naam voor de nieuwe regel, Field: User Agent - Operator: Contains - Value: SeekportBot (of andere botnaam) – Choose action: Block - Deploy.

Toegang tot SeekportBot blokkeren
Blokkeer de toegang tot SeekportBot vanuit Cloudflare

In slechts een paar seconden, de nieuwe regel WAF (Web Application Firewall) het begint effect te krijgen.

Firewallgebeurtenissen in Cloudflare
Firewallgebeurtenissen in Cloudflare

In theorie kan worden ingesteld vanaf welke frequentie een webspin een site bezoekt robots.txt, maar... het is alleen in theorie.

User-agent: SeekportBot
Crawl-delay: 4

veel web crawlerii (behalve Bing en Google) zich niet aan deze regels houden.

Concluderend, als u een web crawl die overmatig toegang heeft tot uw site, is het het beste om zijn toegang volledig te blokkeren. Natuurlijk, als deze bot niet afkomstig is van een zoekmachine waarin u geïnteresseerd bent om aanwezig te zijn.

Gepassioneerd door techniek schrijf ik met plezier verder StealthSettings.com sinds 2006. Ik heb uitgebreide ervaring met besturingssystemen: macOS, Windows şi Linux, maar ook in programmeertalen en blogplatforms (WordPress) en voor online winkels (WooCommerce, Magento, PrestaShop).

Hoe werkt het? » surfen op het internet » Hoe de toegang tot SeekportBot of andere crawIk klikte op een website
Laat een bericht achter