Nghiên cứu AI cho Email Security: Từ bài toán thực tế đến Best Paper Award

Home
/
Technology
/
Nghiên cứu AI cho Email Security: Từ bài toán thực tế đến Best Paper Award

Technology

lvn

16Views

Nghiên cứu AI cho Email Security: Từ bài toán thực tế đến Best Paper Award

29/06/202613 min read

Trong cuộc sống hằng ngày, chắc hẳn nhiều người từng nhận được những email với nội dung như:

“Tài khoản của bạn sắp bị khóa.”
“Đơn hàng cần được xác nhận.”
“Bạn có khoản hoàn tiền đang chờ xử lý.”
“Vui lòng đăng nhập để cập nhật thông tin.”

Thoạt nhìn, những email này trông rất giống email từ ngân hàng, sàn thương mại điện tử hoặc các dịch vụ quen thuộc. Tuy nhiên, nhiều trường hợp trong số đó là email phishing – một hình thức lừa đảo trực tuyến, trong đó kẻ tấn công giả mạo một tổ chức uy tín để đánh lừa người dùng nhấp vào liên kết độc hại hoặc cung cấp thông tin như mật khẩu, mã OTP hay dữ liệu cá nhân.

Phishing đã trở thành một trong những hình thức tấn công mạng phổ biến nhất hiện nay. Cùng với sự phát triển của AI, các email giả mạo ngày càng tự nhiên hơn, khiến cả người dùng lẫn các hệ thống bảo vệ đều gặp nhiều thách thức.

Đó cũng là lý do nhóm nghiên cứu của chúng tôi lựa chọn bài toán này.

Khi AI cũng có thể “bị đánh lừa”

Ngày nay, nhiều hệ thống bảo mật sử dụng AI và Machine Learning để tự động phân tích và phát hiện email phishing.

Tuy nhiên, có một vấn đề thú vị.

Con người vẫn có thể hiểu nội dung của một email ngay cả khi có vài lỗi chính tả hoặc cách viết hơi khác bình thường. Trong khi đó, một mô hình AI có thể suy giảm đáng kể hiệu quả nếu dữ liệu đầu vào thay đổi theo những cách mà nó chưa từng được học.

Ví dụ, kẻ tấn công có thể: thay đổi cách viết có dấu hoặc không dấu; sử dụng các ký tự Unicode rất giống nhau; cố tình viết sai chính tả; xen kẽ tiếng Việt và tiếng Anh; thay đổi khoảng trắng hoặc ký tự đặc biệt.

Những thay đổi này gần như không ảnh hưởng đến khả năng đọc hiểu của con người, nhưng có thể khiến mô hình AI nhận diện sai.

Trong nghiên cứu, hiện tượng này được gọi là Orthographic Distribution Shift – tức là sự thay đổi trong cách biểu diễn văn bản khiến dữ liệu thực tế khác với dữ liệu mà mô hình đã được huấn luyện.

Nghiên cứu của chúng tôi tập trung vào điều gì?

Bài báo của nhóm có tên “Robust Vietnamese Phishing Email Detection under Orthographic Distribution Shift” – đã được chấp nhận đăng tại hội nghị FICTA-2026.

Mục tiêu không phải là tạo ra một mô hình có độ chính xác cao nhất trên bộ dữ liệu thử nghiệm.

Điều chúng tôi quan tâm hơn là khả năng robust (chống chịu) của mô hình: liệu hệ thống có còn phát hiện được email phishing khi cách viết của kẻ tấn công thay đổi hay không?

Để trả lời câu hỏi đó, nhóm đã:

– nghiên cứu các dạng biến đổi thường gặp trong email phishing tiếng Việt;
– đánh giá mức độ ảnh hưởng của các biến đổi này đến hiệu quả của mô hình;
– đề xuất phương pháp giúp mô hình duy trì khả năng phát hiện khi dữ liệu đầu vào thay đổi.

Đây là một hướng nghiên cứu có ý nghĩa thực tiễn, bởi trong môi trường thực tế, dữ liệu luôn thay đổi. Một hệ thống AI chỉ hoạt động tốt trên dữ liệu “đẹp” trong phòng thí nghiệm sẽ khó đáp ứng được các tình huống ngoài đời.

Điều tôi học được

Quá trình thực hiện nghiên cứu giúp tôi thay đổi cách nhìn về AI.

Trước đây, tôi thường quan tâm đến những chỉ số như Accuracy hay F1-score. Nhưng càng làm nhiều, tôi càng nhận ra rằng một câu hỏi còn quan trọng hơn là: Liệu mô hình có còn hoạt động tốt khi dữ liệu thực tế thay đổi?

Đó cũng là tư duy mà tôi áp dụng trong công việc hằng ngày khi đào tạo và đánh giá các giải pháp an ninh mạng.

Trong thực tế, một hệ thống có thể đạt kết quả rất cao trên dữ liệu kiểm thử nhưng lại hoạt động kém khi gặp những tình huống mới. Vì vậy, khả năng thích nghi và độ bền của mô hình đôi khi quan trọng không kém, thậm chí còn quan trọng hơn, việc cải thiện thêm vài phần trăm độ chính xác.

Một cột mốc đáng nhớ

Tôi rất vui khi nghiên cứu này đã được trao Best Paper Award tại hội nghị quốc tế FICTA (International Conference on Frontiers of Intelligent Computing: Theory and Applications).

Theo thông tin từ ban tổ chức, giải thưởng này được trao cho khoảng 5% bài báo có chất lượng nổi bật tại hội nghị.

Đây là sự ghi nhận đáng quý đối với nỗ lực của cả nhóm nghiên cứu. Với cá nhân tôi, giải thưởng không phải là đích đến, mà là động lực để tiếp tục theo đuổi những bài toán giao thoa giữa AI và Cybersecurity – nơi các kết quả nghiên cứu có thể tạo ra giá trị thực tế trong việc bảo vệ người dùng và doanh nghiệp trước các mối đe dọa ngày càng tinh vi.

Lời kết

Tôi tin rằng khoảng cách giữa nghiên cứu học thuật và ứng dụng thực tế đang ngày càng thu hẹp. Những vấn đề xuất hiện trong doanh nghiệp có thể trở thành đề tài nghiên cứu, và ngược lại, các kết quả nghiên cứu có thể góp phần tạo ra những giải pháp an ninh mạng hiệu quả hơn.

Trong thời gian tới, tôi sẽ tiếp tục chia sẻ trên blog về các chủ đề như AI trong an ninh mạng, Email Security, Machine Learning ứng dụng và những kinh nghiệm rút ra từ quá trình nghiên cứu cũng như triển khai thực tế.

Hy vọng những chia sẻ này sẽ hữu ích với các bạn quan tâm đến AI, Cybersecurity hoặc đơn giản là muốn hiểu hơn về cách công nghệ đang được sử dụng để bảo vệ chúng ta trước các hình thức lừa đảo trực tuyến.