Tìm hiểu về Web Scraping Bot là gì?
19/10/2019Bot là một phần mềm thực hiện nhiệm vụ tự động trên Internet, thông thường là các công việc đơn giản, có tính lặp lại cao như thu thập dữ liệu máy tìm kiếm, theo dõi website, lấy dữ liệu web, đo tốc độ trang và hiệu suất API. Bot cũng thường được sử dụng tự động quét mạng và website nhằm tìm kiếm và giảm thiểu lỗ hổng.
Web Scraping là gì ?
Web scraping là một quá trình tự động thu thập thông tin từ website. Kiểu scraping phổ biến nhất là site scraping, tập trung vào sao chép và đánh cắp nội dung web. Hành vi tái sử dụng nội dung có thể có hoặc không nhận được sự chấp nhận từ chủ sở hữu website.
Thông thường, các con bot sao chép dữ liệu bằng cách crawling. Crawl là một thuật ngữ mô tả quá trình thu thập dữ liệu trên website của các con bot. Các con bot truy cập vào mã nguồn website, phân tích cấu trúc, lấy nội dung và đăng tải lên trang khác.
Một dạng scraping nâng cao hơn đó là database scraping. Nó khá giống với site scraping ngoài việc tin tặc tạo ra con bot tương tác với phần ứng dụng nhằm lấy dữ liệu từ cơ sở dữ liệu của trang đó.
Database scraping có thể được dùng để đánh cắp tài sản sở hữu trí tuệ, danh sách đơn giá, danh sách khách hàng và những tập dữ liệu khác thường gây khó chịu với người nhập liệu nhưng rất dễ dàng với các con bot.
Lấy ví dụ về một hãng cho thuê ô tô, nếu công ty tạo ra một con bot thường xuyên kiểm tra giá của công ty đối thủ và nhanh chóng giảm giá thấp hơn sẽ có nhiều lợi thế cạnh tranh. Ngược lại, để xử lý các mối đe dọa do Scraping gây ra, doanh nghiệp cũng cần triển khai giải pháp phát hiện, xác định và giảm thiểu các con bot.
Không phải mọi Web Scraping đều xấu
Trong nhiều trường hợp, chủ dữ liệu muốn truyền tải dữ liệu đến càng nhiều người càng tốt. Ví dụ website của nhiều chính phủ cung cấp dữ liệu cho các website công cộng. Tương tự đối với các trang về du lịch, đặt phòng vé hay đặt phòng khách sạn. Các con bot lấy dữ liệu về từ API hoặc Scraping, phân loại nội dung rồi điều hướng lưu lượng đến website.
Cách phát hiện và ngăn chặn Site Scraping
Site scraping là một công cụ mạnh mẽ. Với mục đích đúng đắn, nó giúp tự động hóa việc thu thập và phát tán thông tin. Với mục đích sai, nó có thể dẫn tới đánh cắp tài sản trí tuệ hoặc gây ra cạnh tranh không lành mạnh.
Quy trình phân loại client
Chủ website có thể thực hiện các phương pháp sau để phân loại và giảm thiểu các con bot, bao gồm cả việc phát hiện Scraping Bot:
- Sử dụng công cụ phân tích – Các công cụ phân tích kiểm tra cấu trúc web request và thông tin header. Kết hợp các thông tin này với thông tin của các con bot trả về, chủ website có thể xác định đâu là con bot hợp pháp, đâu là con bot cần ngăn chặn.
- Triển khai cách tiếp cận “thách thức” (challenge-based) – Sử dụng các công nghệ web để đánh giá hành vi của client như nó có hỗ trợ cookie và JavaScript hay không? Chủ website cũng có thể sử dụng CAPTCHA để chặn các một vài cuộc tấn công.
- Lựa chọn cách tiếp cận hành vi – Hầu hết các con bot đều tự liên kết với các chương trình client gốc như JavaScript, Internet Explorer hay Chrome. Nếu đặc điểm của các con bot này khác biệt với client gốc, chủ website có thể sử dụng các điểm bất thường để phát hiện, ngăn chặn và giảm thiểu chúng.
- Sử dụng robots.txt – Chủ website có thể sử dụng robots.txt để bảo vệ website trước scraping bot, nhưng cách này không có hiệu quả lâu dài. Đây là tệp tin hướng dẫn các con bot thực hiện theo luật định sẵn. Trong một vài trường hợp, một vài con bot độc hại sẽ tìm kiếm thông tin trong robots.txt (thư mục riêng, trang quản trị) mà chủ website không muốn Google đánh chỉ mục và khai thác chúng.
incapsula - Security Daily
Tin nổi bật
Tin liên quan
ĐĂNG KÝ THAM DỰ TALKSHOW “MULTI-CLOUD AND MULTI-CDN FOR MULTI DEMAND”
Tham dự talkshow “Multi-Cloud and Multi-CDN for Multi Demand”, các khách mời sẽ cùng chúng tôi tìm hiểu rõ hơn về chiến lược Multi-cloud và Multi-CDN, cũng như cách ứng dụng và triển khai các xu hướng này trong nhiều lĩnh vực, ngành nghề kinh doanh khác nhau.
Hệ thống Cloud của Viettel IDC đạt tiêu chuẩn an toàn thông tin cấp độ 3
Viettel IDC vừa hoàn thành lấy hồ sơ an toàn thông tin cấp độ 3 cho hệ thống Cloud, đáp ứng Thông tư số 12/2022/TT-BTTTT quy định chi tiết và hướng dẫn Nghị định số 85/2016/NĐ-CP của Chính phủ về bảo đảm an toàn hệ thống thông tin theo cấp độ.
Viettel IDC đồng hành cung cấp hạ tầng cloud cho KardiaChain, ưu tiên đáp ứng hạ tầng thúc đẩy công nghệ blockchain tại Việt Nam
Mới đây, Viettel IDC và KardiaChain đã chính thức đặt bút kí kết hợp đồng dịch vụ Viettel Dedicated Private Cloud (vDPC) - dịch vụ điện toán đám mây cung cấp gói tài nguyên tính toán, lưu trữ và truyền dẫn với hạ tầng riêng biệt.
SOC as a service: Lựa chọn bảo mật tối ưu cho doanh nghiệp
Trung tâm Giám sát an ninh mạng (SOC- Security Operations Center) là một giải pháp an toàn thông tin (ATTT) tuy không mới nhưng khá toàn diện và cần thiết với các tổ chức, doanh nghiệp (DN).
7 lý do doanh nghiệp nên sử dụng dịch vụ thuê chỗ đặt Colocation
Colocation là một giải pháp linh hoạt cho phép các doanh nghiệp mở rộng cơ sở hạ tầng của họ khi cần thiết. Trước khi xây dựng một trung tâm dữ liệu mới hoặc mở rộng một cơ sở dữ liệu tại chỗ hiện có, các doanh nghiệp nên xem xét lợi ích của dịch vụ thuê chỗ đặt Colocation.
Cách thức xây dựng và vận hành Trung tâm điều hành bảo mật không gian mạng (SOC)
Security Operation Center (SOC) - Trung tâm Quản lý và Giám sát an ninh thông tin sử dụng các công nghệ và tiến trình để phát hiện, phân tích và giải quyết các sự cố bảo mật trong hệ thống của tổ chức. Xây dựng một Security Operation Center (SOC) là một quá trình phức tạp, đòi hỏi sự đầu tư về tài chính, thời gian và nhân lực.
Tổng quan về chức năng và vai trò của SOC
SOC - Security Operation Center có trách nhiệm đảm bảo rằng các sự cố an ninh tiềm ẩn được xác định, phân tích, bảo vệ, điều tra và báo cáo chính xác. Vậy SOC có vai trò và chức năng như thế nào. Cùng Viettel IDC tìm hiểu trong bài viết này nhé!
Trung tâm an ninh mạng (Security Operation Center) là gì?
Trung tâm an ninh mạng SOC là gì? Tại sao cần phải có các giải pháp về an ninh mạng và cùng tìm hiểu về các tính năng của trung tâm an ninh mạng SOC đem lại để phát hiện ra các sự cố an ninh bằng bài viết dưới đây nhé!
Vai trò của Trung tâm Giám sát An ninh mạng (SOC) là gì?
Thay vì các giải pháp độc lập, chuyên biệt chỉ xử lý được một khía cạnh của cuộc tấn công, người dùng bị thuyết phục bởi các giải pháp tổng thể, đa tầng, nhiều lớp, nhằm phát hiện và giải quyết triệt để các mối nguy hại chưa từng có tiền lệ. SOC chính là một giải pháp như thế!
Tìm hiểu Security Operations Center (SOC) là gì?
Tìm hiểu về cách các trung tâm hoạt động bảo mật làm việc và tại sao nhiều tổ chức dựa vào SOC như một nguồn tài nguyên quý giá để phát hiện sự cố an ninh.