Tìm hiểu về Web Scraping Bot là gì?

19/10/2019

Bot là một phần mềm thực hiện nhiệm vụ tự động trên Internet, thông thường là các công việc đơn giản, có tính lặp lại cao như thu thập dữ liệu máy tìm kiếm, theo dõi website, lấy dữ liệu web, đo tốc độ trang và hiệu suất API. Bot cũng thường được sử dụng tự động quét mạng và website nhằm tìm kiếm và giảm thiểu lỗ hổng.

Web Scraping là gì ?

Web scraping là một quá trình tự động thu thập thông tin từ website. Kiểu scraping phổ biến nhất là site scraping, tập trung vào sao chép và đánh cắp nội dung web. Hành vi tái sử dụng nội dung có thể có hoặc không nhận được sự chấp nhận từ chủ sở hữu website.

Thông thường, các con bot sao chép dữ liệu bằng cách crawling. Crawl là một thuật ngữ mô tả quá trình thu thập dữ liệu trên website của các con bot. Các con bot truy cập vào mã nguồn website, phân tích cấu trúc, lấy nội dung và đăng tải lên trang khác.

Web-scraping-1

Một dạng scraping nâng cao hơn đó là database scraping. Nó khá giống với site scraping ngoài việc tin tặc tạo ra con bot tương tác với phần ứng dụng nhằm lấy dữ liệu từ cơ sở dữ liệu của trang đó.

Web-scraping-2

Database scraping có thể được dùng để đánh cắp tài sản sở hữu trí tuệ, danh sách đơn giá, danh sách khách hàng và những tập dữ liệu khác thường gây khó chịu với người nhập liệu nhưng rất dễ dàng với các con bot.

Lấy ví dụ về một hãng cho thuê ô tô, nếu công ty tạo ra một con bot thường xuyên kiểm tra giá của công ty đối thủ và nhanh chóng giảm giá thấp hơn sẽ có nhiều lợi thế cạnh tranh. Ngược lại, để xử lý các mối đe dọa do Scraping gây ra, doanh nghiệp cũng cần triển khai giải pháp phát hiện, xác định và giảm thiểu các con bot.

Web-scraping-3

Không phải mọi Web Scraping đều xấu

Trong nhiều trường hợp, chủ dữ liệu muốn truyền tải dữ liệu đến càng nhiều người càng tốt. Ví dụ website của nhiều chính phủ cung cấp dữ liệu cho các website công cộng. Tương tự đối với các trang về du lịch, đặt phòng vé hay đặt phòng khách sạn. Các con bot lấy dữ liệu về từ API hoặc Scraping, phân loại nội dung rồi điều hướng lưu lượng đến website.

Cách phát hiện và ngăn chặn Site Scraping

Site scraping là một công cụ mạnh mẽ. Với mục đích đúng đắn, nó giúp tự động hóa việc thu thập và phát tán thông tin. Với mục đích sai, nó có thể dẫn tới đánh cắp tài sản trí tuệ hoặc gây ra cạnh tranh không lành mạnh.

layer-7-ddos-client-classification-1

Quy trình phân loại client

Chủ website có thể thực hiện các phương pháp sau để phân loại và giảm thiểu các con bot, bao gồm cả việc phát hiện Scraping Bot:

  • Sử dụng công cụ phân tích – Các công cụ phân tích kiểm tra cấu trúc web request và thông tin header. Kết hợp các thông tin này với thông tin của các con bot trả về, chủ website có thể xác định đâu là con bot hợp pháp, đâu là con bot cần ngăn chặn.
  • Triển khai cách tiếp cận “thách thức” (challenge-based)  –  Sử dụng các công nghệ web để đánh giá hành vi của client như nó có hỗ trợ cookie và JavaScript hay không? Chủ website cũng có thể sử dụng CAPTCHA để chặn các một vài cuộc tấn công.
  • Lựa chọn cách tiếp cận hành vi – Hầu hết các con bot đều tự liên kết với các chương trình client gốc như JavaScript, Internet Explorer hay Chrome. Nếu đặc điểm của các con bot này khác biệt với client gốc, chủ website có thể sử dụng các điểm bất thường để phát hiện, ngăn chặn và giảm thiểu chúng.
  • Sử dụng robots.txt – Chủ website có thể sử dụng robots.txt để bảo vệ website trước scraping bot, nhưng cách này không có hiệu quả lâu dài. Đây là tệp tin hướng dẫn các con bot thực hiện theo luật định sẵn. Trong một vài trường hợp, một vài con bot độc hại sẽ tìm kiếm thông tin trong robots.txt (thư mục riêng, trang quản trị) mà chủ website không muốn Google đánh chỉ mục và khai thác chúng.

incapsula - Security Daily

 

Tin liên quan

06/04/2020

Việt Nam lần đầu tiên có bộ tiêu chí kỹ thuật về nền tảng điện toán đám mây

Bộ TT&TT vừa ban hành Hướng dẫn bộ tiêu chí, chỉ tiêu kỹ thuật để đánh giá, lựa chọn giải pháp nền tảng điện toán đám mây phục vụ Chính phủ điện tử. Đây cũng là định hướng để doanh nghiệp Việt làm chủ công nghệ, phát triển nền tảng điện toán đám mây Việt Nam.

06/04/2020

Nguy cơ người dùng bị tấn công mạng qua lỗ hổng bảo mật của ứng dụng Zoom!

Ứng dụng Zoom đã ra mắt được 9 năm nhưng đến khi dịch bệnh COVID-19 bùng phát, nền tảng này mới trở thành công cụ giao tiếp phổ biến với hàng triệu người trên toàn cầu. Mới đây, có thông tin cho thấy lỗ hổng bảo mật trên Zoom cho phép tin tặc đánh cắp thông tin đăng nhập của người dùng và tự động khởi chạy các phần mềm trên máy tính.

01/04/2020

Office 365 chính thức đổi tên thành Microsoft 365 với nhiều ứng dụng và tính năng mới

22 tháng 4 tới, Office 365 sẽ được đổi thành Microsoft 365 nhưng không chỉ là tên gọi, Microsoft nhấn mạnh đây là một "Dịch vụ thuê bao dành cho cuộc sống của bạn" - ám chỉ nhiều hơn là một gói công cụ văn phòng. Vậy sẽ có những cập nhật gì mới?

25/03/2020

Cần chuẩn bị những gì để làm việc từ xa trong thời gian dịch Covid-19 diễn ra?

Để có thể làm việc từ xa hiệu quả bạn cần phải chuẩn bị rất nhiều thứ, trong đó có việc đảm bảo có máy tính kết nối Internet, sử dụng thành thạo các phần mềm lưu trữ, bảo mật riêng của cơ quan,...

23/03/2020

Phương pháp triển khai và vận hành quy trình làm việc từ xa cho doanh nghiệp

Làm việc từ xa là một khái niệm không mới với các freelancer hay các nhóm làm việc đa quốc gia, đặc biệt là trong lúc dịch bệnh Covid-19 đang hoành hành như hiện nay.

18/03/2020

Cloud PC (VDI) là gì? Cloud PC gồm những thành phần nào?

Cloud PC là giải pháp máy tính ảo được xây dựng dựa trên công nghệ điện toán đám mây, lưu trữ dữ liệu máy tính người dùng tại trung tâm dữ liệu, được trang bị nhiều lớp bảo mật.

18/03/2020

Giải pháp Cloud PC (VDI) đem lại những lợi ích nào cho doanh nghiệp?

Cloud PC (VDI) đem đến nhiều lợi ích lớn cho doanh nghiệp, trong đó có thể kể đến như việc làm giảm đi đáng kể mức chi phí phải đầu tư về tài nguyên phần cứng cho toàn hệ thống máy tính làm việc.

18/03/2020

Cloud Camera là gì? So sánh Cloud Camera và Camera truyền thống?

Giải pháp Cloud Camera là hệ thống truyền dẫn tín hiệu và lưu trữ dữ liệu video từ các Camera phân tán, cho phép người dùng xem, tương tác với các camera và dữ liệu video trực tuyến qua mạng, mang lại nhiều lợi ích cho doanh nghiệp.

18/03/2020

Cloud Camera - Giải pháp quản trị doanh nghiệp hiệu quả

Sử dụng Cloud Camera, doanh nghiệp có thể theo dõi cùng lúc nhiều địa điểm, chi nhánh trên cùng một giao diện, một tài khoản; theo dõi và truy xuất dữ liệu 24/7 (không lo mất dữ liệu khi đầu ghi hình hỏng như các giải pháp Camera truyền thống).

10/03/2020

Học trực tuyến - Khi E-Learning kết hợp với công nghệ điện toán đám mây

Đám mây" (Cloud) có những ảnh hưởng tích cực tới giáo dục như tiết kiệm chi phí thiết lập phần mềm đào tạo, phát triển các khóa học trực tuyến,... Cloud cho phép con người lưu trữ mọi tập tin, dịch vụ và tài sản kỹ thuật số trên máy chủ ảo, đồng thời có thể chia sẻ với các thiết bị ở bất cứ nơi đâu, bất kỳ thời gian nào.