Tìm hiểu về Web Scraping Bot là gì?

19/10/2019

Bot là một phần mềm thực hiện nhiệm vụ tự động trên Internet, thông thường là các công việc đơn giản, có tính lặp lại cao như thu thập dữ liệu máy tìm kiếm, theo dõi website, lấy dữ liệu web, đo tốc độ trang và hiệu suất API. Bot cũng thường được sử dụng tự động quét mạng và website nhằm tìm kiếm và giảm thiểu lỗ hổng.

Web Scraping là gì ?

Web scraping là một quá trình tự động thu thập thông tin từ website. Kiểu scraping phổ biến nhất là site scraping, tập trung vào sao chép và đánh cắp nội dung web. Hành vi tái sử dụng nội dung có thể có hoặc không nhận được sự chấp nhận từ chủ sở hữu website.

Thông thường, các con bot sao chép dữ liệu bằng cách crawling. Crawl là một thuật ngữ mô tả quá trình thu thập dữ liệu trên website của các con bot. Các con bot truy cập vào mã nguồn website, phân tích cấu trúc, lấy nội dung và đăng tải lên trang khác.

Web-scraping-1

Một dạng scraping nâng cao hơn đó là database scraping. Nó khá giống với site scraping ngoài việc tin tặc tạo ra con bot tương tác với phần ứng dụng nhằm lấy dữ liệu từ cơ sở dữ liệu của trang đó.

Web-scraping-2

Database scraping có thể được dùng để đánh cắp tài sản sở hữu trí tuệ, danh sách đơn giá, danh sách khách hàng và những tập dữ liệu khác thường gây khó chịu với người nhập liệu nhưng rất dễ dàng với các con bot.

Lấy ví dụ về một hãng cho thuê ô tô, nếu công ty tạo ra một con bot thường xuyên kiểm tra giá của công ty đối thủ và nhanh chóng giảm giá thấp hơn sẽ có nhiều lợi thế cạnh tranh. Ngược lại, để xử lý các mối đe dọa do Scraping gây ra, doanh nghiệp cũng cần triển khai giải pháp phát hiện, xác định và giảm thiểu các con bot.

Web-scraping-3

Không phải mọi Web Scraping đều xấu

Trong nhiều trường hợp, chủ dữ liệu muốn truyền tải dữ liệu đến càng nhiều người càng tốt. Ví dụ website của nhiều chính phủ cung cấp dữ liệu cho các website công cộng. Tương tự đối với các trang về du lịch, đặt phòng vé hay đặt phòng khách sạn. Các con bot lấy dữ liệu về từ API hoặc Scraping, phân loại nội dung rồi điều hướng lưu lượng đến website.

Cách phát hiện và ngăn chặn Site Scraping

Site scraping là một công cụ mạnh mẽ. Với mục đích đúng đắn, nó giúp tự động hóa việc thu thập và phát tán thông tin. Với mục đích sai, nó có thể dẫn tới đánh cắp tài sản trí tuệ hoặc gây ra cạnh tranh không lành mạnh.

layer-7-ddos-client-classification-1

Quy trình phân loại client

Chủ website có thể thực hiện các phương pháp sau để phân loại và giảm thiểu các con bot, bao gồm cả việc phát hiện Scraping Bot:

  • Sử dụng công cụ phân tích – Các công cụ phân tích kiểm tra cấu trúc web request và thông tin header. Kết hợp các thông tin này với thông tin của các con bot trả về, chủ website có thể xác định đâu là con bot hợp pháp, đâu là con bot cần ngăn chặn.
  • Triển khai cách tiếp cận “thách thức” (challenge-based)  –  Sử dụng các công nghệ web để đánh giá hành vi của client như nó có hỗ trợ cookie và JavaScript hay không? Chủ website cũng có thể sử dụng CAPTCHA để chặn các một vài cuộc tấn công.
  • Lựa chọn cách tiếp cận hành vi – Hầu hết các con bot đều tự liên kết với các chương trình client gốc như JavaScript, Internet Explorer hay Chrome. Nếu đặc điểm của các con bot này khác biệt với client gốc, chủ website có thể sử dụng các điểm bất thường để phát hiện, ngăn chặn và giảm thiểu chúng.
  • Sử dụng robots.txt – Chủ website có thể sử dụng robots.txt để bảo vệ website trước scraping bot, nhưng cách này không có hiệu quả lâu dài. Đây là tệp tin hướng dẫn các con bot thực hiện theo luật định sẵn. Trong một vài trường hợp, một vài con bot độc hại sẽ tìm kiếm thông tin trong robots.txt (thư mục riêng, trang quản trị) mà chủ website không muốn Google đánh chỉ mục và khai thác chúng.

incapsula - Security Daily

 

Tin liên quan

15/09/2020

[Phân tích chuyên sâu] Vấn đề bảo mật của doanh nghiệp khi sử dụng Cloud

Việc ứng dụng công nghệ đám mây đã trở thành chiến lược chung của rất nhiều tổ chức trên tất cả các lĩnh vực trên con đường hướng tới chuyển đổi kỹ thuật số. Khi sử dụng Cloud, các doanh nghiệp có thể tối đa hóa rất nhiều quy trình làm việc phức tạp và giúp năng suất được cải thiện đáng kể, nhưng vấn đề bảo mật vẫn còn khiến nhiều tổ chức phân vân, chưa biết giải quyết.

15/09/2020

Vì sao ngày càng nhiều khách hàng tin dùng dịch vụ VPS Việt Nam?

Một điều cần công nhận là dịch vụ VPS ở nước ta đang được đầu tư và phát triển mạnh mẽ hơn. Điều đó giúp dịch vụ VPS trong nước không hề kém cạnh khi đem đi so với các đối thủ quốc tế. Nhờ vào nhiều điểm vượt trội, dịch vụ VPS Việt Nam còn đang được ngày càng nhiều khách hàng lựa chọn sử dụng hơn.

14/09/2020

Thời điểm nào doanh nghiệp nên thuê Cloud Server?

Quyết định khi nào nên thuê Cloud Server thường không dễ dàng đối với một số tổ chức công ty, nhất là những doanh nghiệp nhỏ và vừa đang trong giai đoạn chuyển đổi công nghệ số.

13/09/2020

Tổng quan so sánh VPS Việt Nam và VPS nước ngoài

​Sự tồn tại giữa VPS Việt Nam và VPS nước ngoài ít nhiều sẽ gây khó khăn cho khách hàng sử dụng VPS lựa chọn ra đâu là nhà cung cấp họ cần. Tuy nhiên, mỗi loại sẽ những ưu và nhược điểm nhất định, và khách hàng có thể thông qua những điểm đó để sự lựa chọn trở nên dễ dàng hơn.

12/09/2020

Các tiêu chí để lựa chọn máy chủ giá rẻ có chất lượng tốt

​Hiện nay, máy chủ giá rẻ được quảng cáo rất nhiều trên thị trường, nhưng để chọn ra được một máy chủ giá rẻ có chất lượng tốt phù hợp nhu cầu của doanh nghiệp thì không hẳn ai cũng biết. Dưới đây là các tiêu chí để khách hàng dễ dàng lựa chọn cho mình một sản phẩm tốt mà giá cả cực kỳ phải chăng.

12/09/2020

Hiểu đúng về máy chủ, trường hợp nào bạn nên sử dụng loại máy chủ nào để đạt hiệu quả tối ưu

Máy chủ hay còn gọi là Server, là một máy tính được kết nối mạng, có cấu hình cao và khả năng xử lý vượt trội. Người ta đa phần sử dụng server cho các mục đích về kinh doanh cũng như để vận hành các hệ thống lớn. Trong bài này Viettel IDC sẽ cùng các bạn đi sâu hơn vào việc sử dụng máy chủ như thế nào cho hiệu quả nhé.

12/09/2020

VPS là gì? Năm 2020 là thời điểm VPS thoái vị, Cloud VPS lên ngôi

VPS là một trong nhiều hình thức cung cấp không gian lưu trữ trên Internet dành cho cá nhân hoặc tổ chức. Tuy nhiên, liệu rằng các bạn ở đây khi sử dụng đã thực sự hiểu được bản chất của VPS là gì hay chưa? Nếu chưa thì cũng đừng quá lo, bài viết này Viettel IDC sẽ cùng các ban làm rõ khái niệm VPS là gì và trường hợp nào thì nên sử dụng VPS nhé.

11/09/2020

Dịch vụ cho thuê VPS là gì? Có những loại hình dịch vụ cho thuê VPS nào?

Dịch vụ cho thuê VPS có thể còn khá mơ hồ đối với những khách hàng đang bắt đầu tìm hiểu về VPS. Khi nhắc về nó, có nhiều từ ngữ mới mang tính chuyên ngành mới khá khó hiểu.Vậy thực sự bản chất của dịch vụ này là gì? Hãy cùng Viettel IDC tìm hiểu hôm nay nhé!

10/09/2020

Sử dụng Free Hosting cho Website của bạn, hại nhiều hơn lợi

Dịch vụ Free Hosting hiện nay đang được khá nhiều các nhà cung cấp dịch vụ Hosting sử dụng như một cách để quảng bá và PR thương hiệu. Tuy nhiên việc sử dụng những dịch vụ Free Hosting này đôi khi hại nhiều hơn lợi.

10/09/2020

[Bạn có biết?] Cloud Server và những tính năng vượt trội của Cloud Server

Chuyên mục "Bạn có biết?" tháng 9/2020 của Viettel IDC lần này sẽ cung cấp cho các bạn những kiến thức cơ bản về "Cloud Server và những tính năng vượt trội của Cloud Server", cùng đón đọc nhé!