17 thg 11, 2020

Đồng tiền xương máu

Mr. Michael (hình như tên đủ là Michael Huynh) qua Việt Nam chơi, thăm Mr. Tèo là bạn Facebook. Tèo lấy xe hơi chở Michael đi ăn sáng. Michael hỏi Tèo: Việt Nam giờ khá quá hả, người dân thường cũng có ô tô. Chiếc xe này ở Việt Nam bao nhiêu tiền?

6 thg 11, 2020

Xưa có nghề cạo giấy, nay có nghề… cạo web!

Hồi đầu tháng 10, Facebook cho biết họ vừa đệ đơn kiện 2 công ty tại Mỹ về tội đã sử dụng phương pháp cạo (scraping) trên website để thực hiện việc thu thập dữ liệu trên phạm vi toàn cầu. Thông tin này khiến người ta nhớ lại ngày xưa thường dùng chữ “nghề cạo giấy” để chỉ những người làm việc bàn giấy trong công sở. Hóa ra xưa có “nghề cạo giấy”, còn nay có “nghề cạo web”.

Thế nào là web scraping?

Web scraping hay Data scraping là một thuật ngữ công nghệ thường được giới chuyên môn ở Việt Nam dịch là “quét dữ liệu” từ các trang web, tuy nhiên nếu dịch sát nghĩa hơn và cũng mô tả đúng bản chất công việc hơn thì nên là “cạo dữ liệu” từ các trang web.

Web scraping là quá trình lấy dữ liệu không có cấu trúc từ các trang web để kết xuất thành dữ liệu có cấu trúc