Để trả lời câu hỏi này, trước tiên ta hãy nói đến một tính năng thú vị của Google mà ít người biết đến, đó là Google Books Ngram Viewer, hay thường được gọi tắt là Ngram Viewer.
Ngram Viewer là một công cụ tìm kiếm trực tuyến lập biểu đồ tần suất của bất kỳ tập hợp chuỗi tìm kiếm nào được tìm thấy trong các nguồn được in từ năm 1500 đến 2019 trong kho ngữ liệu văn bản của Google bằng tiếng Anh, tiếng Trung (giản thể), tiếng Pháp, tiếng Đức, tiếng Do Thái, tiếng Ý, tiếng Nga hoặc tiếng Tây Ban Nha. Ngoài ra còn có một số kho ngữ liệu tiếng Anh chuyên dụng, chẳng hạn như tiếng Anh - Mỹ, tiếng Anh - Anh và tiếng Anh - tiểu thuyết.
Ngram được tạo ra vào năm 2009 như một phần của nhóm Google Books, nó cho thấy cách sách và các tác phẩm văn học khác đã sử dụng một số từ hoặc cụm từ nhất định theo thời gian. Michael Ballbach, một kỹ sư phần mềm làm việc trên Google Books cho biết: “Ngrams chỉ đơn giản là tổng hợp việc sử dụng các từ hoặc cụm từ trên toàn bộ tập dữ liệu của Google Books. Sau đó, nó vẽ biểu đồ việc sử dụng các từ hoặc cụm từ đó theo thời gian”. Mỗi từ trong cụm từ được tìm kiếm gọi là một “gram”.
Khả năng của Ngrams gần đây đã phát triển nhờ bản cập nhật vào năm 2019 đã bổ sung thêm khoảng 19 triệu cuốn sách vào tập dữ liệu của nó (trước đó Google Books có 5,2 triệu cuốn sách). Michael nói: “Đối với kho ngữ liệu tiếng Anh, nó bổ sung hàng ngàn tỷ từ". Công cụ này nhằm giúp người dùng tìm hiểu sự thay đổi trong cách sử dụng từ ngữ của con người trong hơn 5 thế kỷ qua.
Để sử dụng Ngram Viewer, hãy truy cập: https://books.google.com/ngrams. Bạn hãy nhập các từ, cụm từ cần tìm kiếm và đặt các tùy chọn, bao gồm: tập dữ liệu (từ xa nhất là năm 1500 đến gần nhất là 2019), tập ngôn ngữ (tiếng nước nào, rất tiếc chưa có tiếng Việt), có phân biệt chữ hoa chữ thường hay không và độ làm mượt (xem xét đến mức độ sai chính tả hoặc sai lệch khác của văn bản).
Thí dụ: Đây là tìm kiếm và so sánh tần suất xuất hiện các cụm từ Vietnam, Viet Nam, China, Chinese từ 1500 đến nay (2019).
Bây giờ ta thử tìm xem tần suất xuất hiện của cụm từ "new normal" trong 500 năm qua như thế nào nhé.
Xin lưu ý rằng dữ liệu của Ngram chỉ có đến 2019, trong khi cụm từ new normal dường như chỉ mới thịnh hành từ 2020 - 2021 trở đi, nên biểu đồ Ngram không thể hiện được sự tăng đột biến từ 2020 của new normal. Tuy vậy ta có những nhận xét thú vị như sau:
- Không phải từ 2020, mà từ 2019 đã có sự tăng đột biến của cụm từ new normal rồi.
- Khoảng thời điểm 1560 - 1561 các văn bản, sách trên thế giới đã đột ngột dùng từ bình thường mới (new normal) nhiều hơn hẳn bình thường, thậm chí nhiều hơn cả năm 2019.
- Giai đoạn 1676 - 1680 là giai đoạn thứ hai cụm từ new normal được xuất hiện nhiều hơn bình thường.
- Tần suất xuất hiện cụm từ new normal tăng lên dần từ giữa thế kỷ 19, đạt đỉnh khoảng đầu thế kỷ 20 rồi giảm dần đến giữa thế kỷ 20. Theo nhà văn Molly McHugh-Johnson, cộng tác viên của Google Books thì trong giai đoạn này chủ yếu cụm từ new normal xuất hiện trong các tài liệu về học thuật.
Như vậy, qua khảo sát bằng ứng dụng Ngram Viewer ta có kết luận khá bất ngờ, đó là: không phải bây giờ người ta mới dùng nhiều cụm từ bình thường mới mà từ giữa thế kỷ 16 rồi sau đó trong cả một thế kỷ từ giữa thế kỷ 19 đến giữa thế kỷ 20 cụm từ này cũng đã từng rất thịnh hành.
Ta nhín thêm chút thời gian để xem sự biến thiên tần suất xuất hiện từ vaccine trong 3 thế kỷ qua nhé.
Tần suất xuất hiện của từ vaccine tăng đột ngột vào đầu thế kỷ 19, sau đó giảm đến năm 1813… chỉ tăng trở lại vào đầu đến giữa những năm 1900, khi nhiều bài báo học thuật được xuất bản về những thứ như bệnh thương hàn, tiêm phòng dịch tả và ho gà. Sau đó, nó tăng và giảm, lên và xuống, lên mức cao nhất mọi thời đại vào năm 2003. Trong biểu đồ này, nó đã giảm nhẹ ở năm 2019 - nhưng chắc chắn rằng khi có dữ liệu của những năm 2020 - 2021 ta sẽ thấy tần suất xuất hiện của từ này tăng lên rất cao.
Bây giờ tới phiên bạn. Hãy nghịch một tí với Ngram Viewer, tìm xem sự biến thiên tần suất xuất hiện của những từ, cụm từ khác xem sao.
Phạm Hoài Nhân
Không có nhận xét nào:
Đăng nhận xét