Tìm hiểu về Web Scraping Bot là gì?

19/10/2019

Bot là một phần mềm thực hiện nhiệm vụ tự động trên Internet, thông thường là các công việc đơn giản, có tính lặp lại cao như thu thập dữ liệu máy tìm kiếm, theo dõi website, lấy dữ liệu web, đo tốc độ trang và hiệu suất API. Bot cũng thường được sử dụng tự động quét mạng và website nhằm tìm kiếm và giảm thiểu lỗ hổng.

Web Scraping là gì ?

Web scraping là một quá trình tự động thu thập thông tin từ website. Kiểu scraping phổ biến nhất là site scraping, tập trung vào sao chép và đánh cắp nội dung web. Hành vi tái sử dụng nội dung có thể có hoặc không nhận được sự chấp nhận từ chủ sở hữu website.

Thông thường, các con bot sao chép dữ liệu bằng cách crawling. Crawl là một thuật ngữ mô tả quá trình thu thập dữ liệu trên website của các con bot. Các con bot truy cập vào mã nguồn website, phân tích cấu trúc, lấy nội dung và đăng tải lên trang khác.

Web-scraping-1

Một dạng scraping nâng cao hơn đó là database scraping. Nó khá giống với site scraping ngoài việc tin tặc tạo ra con bot tương tác với phần ứng dụng nhằm lấy dữ liệu từ cơ sở dữ liệu của trang đó.

Web-scraping-2

Database scraping có thể được dùng để đánh cắp tài sản sở hữu trí tuệ, danh sách đơn giá, danh sách khách hàng và những tập dữ liệu khác thường gây khó chịu với người nhập liệu nhưng rất dễ dàng với các con bot.

Lấy ví dụ về một hãng cho thuê ô tô, nếu công ty tạo ra một con bot thường xuyên kiểm tra giá của công ty đối thủ và nhanh chóng giảm giá thấp hơn sẽ có nhiều lợi thế cạnh tranh. Ngược lại, để xử lý các mối đe dọa do Scraping gây ra, doanh nghiệp cũng cần triển khai giải pháp phát hiện, xác định và giảm thiểu các con bot.

Web-scraping-3

Không phải mọi Web Scraping đều xấu

Trong nhiều trường hợp, chủ dữ liệu muốn truyền tải dữ liệu đến càng nhiều người càng tốt. Ví dụ website của nhiều chính phủ cung cấp dữ liệu cho các website công cộng. Tương tự đối với các trang về du lịch, đặt phòng vé hay đặt phòng khách sạn. Các con bot lấy dữ liệu về từ API hoặc Scraping, phân loại nội dung rồi điều hướng lưu lượng đến website.

Cách phát hiện và ngăn chặn Site Scraping

Site scraping là một công cụ mạnh mẽ. Với mục đích đúng đắn, nó giúp tự động hóa việc thu thập và phát tán thông tin. Với mục đích sai, nó có thể dẫn tới đánh cắp tài sản trí tuệ hoặc gây ra cạnh tranh không lành mạnh.

layer-7-ddos-client-classification-1

Quy trình phân loại client

Chủ website có thể thực hiện các phương pháp sau để phân loại và giảm thiểu các con bot, bao gồm cả việc phát hiện Scraping Bot:

  • Sử dụng công cụ phân tích – Các công cụ phân tích kiểm tra cấu trúc web request và thông tin header. Kết hợp các thông tin này với thông tin của các con bot trả về, chủ website có thể xác định đâu là con bot hợp pháp, đâu là con bot cần ngăn chặn.
  • Triển khai cách tiếp cận “thách thức” (challenge-based)  –  Sử dụng các công nghệ web để đánh giá hành vi của client như nó có hỗ trợ cookie và JavaScript hay không? Chủ website cũng có thể sử dụng CAPTCHA để chặn các một vài cuộc tấn công.
  • Lựa chọn cách tiếp cận hành vi – Hầu hết các con bot đều tự liên kết với các chương trình client gốc như JavaScript, Internet Explorer hay Chrome. Nếu đặc điểm của các con bot này khác biệt với client gốc, chủ website có thể sử dụng các điểm bất thường để phát hiện, ngăn chặn và giảm thiểu chúng.
  • Sử dụng robots.txt – Chủ website có thể sử dụng robots.txt để bảo vệ website trước scraping bot, nhưng cách này không có hiệu quả lâu dài. Đây là tệp tin hướng dẫn các con bot thực hiện theo luật định sẵn. Trong một vài trường hợp, một vài con bot độc hại sẽ tìm kiếm thông tin trong robots.txt (thư mục riêng, trang quản trị) mà chủ website không muốn Google đánh chỉ mục và khai thác chúng.

incapsula - Security Daily

 

Tin liên quan

23/01/2023

Xu hướng Cloud 2023 hàng đầu các doanh nghiệp cần biết

Nhiều doanh nghiệp đang tích cực chạy đua với cuộc đua “số hóa”, để có được khả năng cạnh tranh cao nhất trên thị trường. Vây nên, xu hướng Cloud 2023 là những điều đang được các doanh nghiệp rất quan tâm hiện nay. Trong bài viết này, Viettel IDC sẽ đề cập đến bạn những xu hướng về điện toán đám mây hàng đầu trong năm 2023 chúng ta cần biết nhé, bên cạnh các công nghệ thực tế ảo VR, metaverse.

19/01/2023

Dự báo TOP các xu hướng công nghệ hàng đầu trong năm 2023

​Các xu hướng công nghệ 2023 nổi bật được các chuyên gia dự đoán sẽ phát triển mạnh mẽ trong những năm tới là trí tuệ nhân tạo AI, công nghệ chuỗi khối Blockchain, vũ trụ ảo Metaverse. Việc bắt kịp và thích ứng với các công nghệ này sẽ giúp các doanh nghiệp có thể nâng cao khả năng cạnh tranh của mình trong thị trường khốc liệt sắp tới. Dưới đây, hãy cùng Viettel IDC điểm qua những xu hướng công nghệ 2023 nổi bật nhé!

13/01/2023

2022 - Thời kỳ bùng nổ của Cloud tại Việt Nam

​Công nghệ điện toán đám mây - Computing Cloud năm 2022 đã phát triển và bùng nổ cực kỳ mạnh mẽ, từ đó ảnh hưởng tới nhiều doanh nghiệp lớn và nhỏ. Dưới đây, chúng ta hãy cùng xem lại các xu hướng Cloud năm 2022 phổ biến nhất với Viettel IDC nhé!

11/10/2022

Những thông tin nhất định phải biết về Ethereum mới phiên bản 2.0

Ethereum 2.0, còn được biết đến là Eth2 hay “Serenity”, là một bản nâng cấp dành cho Ethereum Node, hứa hẹn sẽ cải thiện đáng kể chức năng và trải nghiệm của toàn bộ mạng. Tuy nhiên, đó chỉ là phần nổi của tảng băng chìm. Với việc Ethereum là một trong những loại tiền điện tử phổ biến nhất trên hành tinh, việc tìm hiểu Ethereum 2.0 thực sự là gì và nó sẽ ảnh hưởng như thế nào đến toàn bộ lĩnh vực tiền mã hóa vô cùng quan trọng. Ở bài viết này, Viettel IDC sẽ cung cấp cho bạn những thông tin nhất định phải biết về Ethereum phiên bản 2.0 nhé!

13/10/2022

Công nghệ chuỗi khối Blockchain là gì? Cơ chế hoạt động của chuỗi khối Blockchain?

Công nghệ Blockchain (chuỗi khối) đang dần trở thành xu hướng mới trên thị trường đầu tư và công nghệ toàn cầu. Công nghệ này có tiềm năng ứng dụng to lớn trong các ngành từ dịch vụ tài chính, sản xuất và khu vực công cho đến chuỗi cung ứng, giáo dục và năng lượng. Việt Nam cũng không nằm ngoài xu thế này. Chính vì vậy, việc tìm hiểu về Blockchain ngay từ bây giờ là rất cần thiết đối với các bạn trẻ.

14/10/2022

Tìm hiểu kiến thức về Public Chain và Private Chain

Nền tảng blockchain đã phát triển mạnh mẽ và được ứng dụng rộng rãi trong nhiều lĩnh vực. Các phân loại của blockchain như Private, Public mang những sự khác biệt dẫn đến trải nghiệm người dùng khác nhau và đa dạng hóa sự lựa chọn loại blockchain phù hợp. Hãy cùng CryptoLeakvn tìm hiểu sự khác nhau giữa Public và Private blockchain, cũng như tìm ra lựa chọn tối ưu nhất trong các loại blockchain này thông qua bài viết hôm nay.

05/10/2022

Công nghệ Blockchain là gì? Lợi thế vượt trội khi doanh nghiệp ứng dụng Blockchain

Trong thời gian gần đây, công nghệ Blockchain đã và đang dần trở thành xu hướng trên toàn cầu, trong đó có cả Việt Nam. Có thể nói, ngành công nghệ này đã mang lại nhiều lợi ích to lớn cho doanh nghiệp, từ lĩnh vực tài chính, sản xuất cho đến cả giáo dục hoặc năng lượng.

12/10/2022

​Tất tần tật kiến thức quan trọng về hạ tầng Blockchain

Mọi hệ thống phức tạp đều yêu cầu cơ sở hạ tầng thích hợp, hoặc tài nguyên và một khuôn khổ cơ bản để hoạt động. Cũng giống như lưới điện, các trạm phát điện và đường ống bao gồm cơ sở hạ tầng năng lượng cần thiết để cung cấp điện cho một quốc gia. Do đó, các Node, phần mềm và hệ thống dựa trên đám mây hoặc phần cứng được yêu cầu để chạy các mạng Proof of Stake (PoS).

09/10/2022

Tất tần tật từ A - Z về dịch vụ Blockchain

Hiện nay, dịch vụ Blockchain đã phát triển mạnh mẽ và mở ra một xu hướng mới cho nhiều lĩnh vực khác nhau như trong tài chính, điện tử viễn thông, kế toán, logistics,... Vậy, cụ thể thì Blockchain là gì? Chúng có thể mang lại những lợi ích gì cho chúng ta? Hãy cùng Viettel IDC tìm hiểu câu trả lời cho những vấn đề này nhé! Bài viết dưới đây sẽ giải đáp chi tiết giúp bạn.

08/10/2022

Node là gì? Nên thuê Ethereum Node hay Bitcoin Node?

Bạn mới tìm hiểu về Node Blockchain, và đang phân vân không biết nên thuê Ethereum Node hay Bitcoin Note? Cách hoạt động của Node là gì? Trong bài viết này, Viettel IDC sẽ giải đáp các câu hỏi này cho bạn đọc, cùng nhau theo dõi bài viết bên dưới nhé!

// doi link