Thiết kế và triển khai tính năng phát hiện giả mạo AI của Cisco
Mạng lưới đối mặt với những mối đe dọa bảo mật mới hàng ngày. Các đối thủ không ngừng phát triển và sử dụng các cơ chế ngày càng mới để xâm nhập vào mạng lưới doanh nghiệp và chiếm giữ quyền sở hữu trí tuệ làm con tin. Các vụ xâm nhập và sự cố bảo mật gây chú ý thường xảy ra bằng việc thu thập thông tin kỹ lưỡng của thủ phạm. Trong giai đoạn này, thường một hoặc một số thiết bị kết thúc trong mạng lưới đã bị xâm phạm được sử dụng để quan sát mẫu lưu lượng truy cập, khám phá dịch vụ, xác định kết nối và thu thập thông tin để khai thác thêm.
Các thiết bị bị xâm phạm là một phần của mạng lưới, nhưng thường là các thiết bị không có chu kỳ sửa lỗi bảo mật, chẳng hạn như bộ điều khiển IoT, máy in hoặc phần cứng tùy chỉnh chạy firmware hoặc hệ điều hành có sẵn để chạy trên tài nguyên phần cứng tối thiểu. Từ góc độ bảo mật, thách thức là phát hiện khi các thiết bị này bị xâm phạm, ngay cả khi không có hoạt động độc hại nào đang diễn ra.
Trong phần này, chúng tôi thảo luận về một số phương pháp mà các thiết bị bị chiếm đóng có thể truy cập vào các phần của mạng lưới bị hạn chế và cách Cisco AI Spoofing Detection được thiết kế để phát hiện các thiết bị như vậy bằng cách mô hình hóa và giám sát hành vi của chúng.
Từ Thiết bị đến Mô hình Hành vi
Một trong những cách mà các hệ thống kiểm soát truy cập mạng hiện đại cho phép các thiết bị vào mạng bằng cách phân tích các chữ ký nhận dạng được tạo ra bởi các thiết bị. Nhưng một chữ ký nhận dạng được tạo ra từ một thiết bị bị xâm nhập có thể giả mạo thiết bị 1 cách hiệu quả để nâng cao đặc quyền của nó, cho phép nó truy cập vào các phần của mạng trước đây không được ủy quyền và tài nguyên quan trọng. Hành vi này có thể dễ dàng tránh được phát hiện vì nó nằm trong các tham số hoạt động bình thường của các hệ thống Kiểm soát Truy cập Mạng (NAC) và hành vi của các thiết bị cuối. Thông thường, các chữ ký nhận dạng này được thu thập thông qua các bản kiểm tra tuyên bố chứa các tham số cụ thể của thiết bị (ví dụ: OUI, CDP, HTTP, User-Agent). Sau đó kết hợp các bản kiểm tra này được sử dụng để liên kết một danh tính với các thiết bị.
Bất kỳ bản kiểm tra nào có thể được kiểm soát (tức là được khai báo) bởi một thiết bị cuối đều có thể bị làm giả. Vì vậy, ở một số môi trường, loại thiết bị cuối được sử dụng để gán quyền truy cập và đặc quyền, kiểu cố gắng giả mạo này có thể dẫn đến các rủi ro bảo mật nghiêm trọng. Ví dụ, nếu một thiết bị cuối bị xâm phạm có thể được làm trông giống một máy in bằng cách tạo các bản kiểm tra nó tạo ra, sau đó nó có thể truy cập vào mạng/VLAN máy in với quyền truy cập vào máy chủ in, từ đó có thể mở mạng lưới cho thiết bị cuối thông qua các chuyển động bên.Có ba cách phổ biến mà một thiết bị cuối trên mạng có thể truy cập vào các phân đoạn hạn chế của mạng:
– Giả mạo MAC: kẻ tấn công giả mạo một thiết bị cuối cụ thể để có được cùng các đặc quyền.
– Giả mạo thăm dò: một kẻ tấn công tạo ra các gói tin cụ thể để mạo danh loại thiết bị cụ thể.
– Phần mềm độc hại: một thiết bị cuối bị nhiễm virus, trojan hoặc các loại phần mềm độc hại khác cho phép kẻ tấn công tận dụng quyền của thiết bị cuối để truy cập vào các hệ thống bị hạn chế.
Cisco AI Spoofing Detection (AISD) tập trung chủ yếu vào việc phát hiện các thiết bị cuối sử dụng giả mạo thăm dò, hầu hết các trường hợp giả mạo MAC và một số trường hợp nhiễm Malware. Khác với các hệ thống dựa trên quy tắc truyền thống để phát hiện giả mạo, Cisco AISD dựa vào các mô hình hành vi để phát hiện các thiết bị cuối không hoạt động như loại thiết bị mà chúng tuyên bố. Các mô hình hành vi này được xây dựng và đào tạo trên dữ liệu được ẩn danh từ hàng trăm nghìn thiết bị cuối được triển khai trong nhiều mạng của khách hàng khác nhau. Phương pháp dựa trên dữ liệu và trí tuệ nhân tạo này cho phép Cisco AISD xây dựng các mô hình nắm bắt toàn bộ phạm vi hành vi của nhiều loại thiết bị trong các môi trường khác nhau.
Hình 1: Các loại giả mạo. AISD chủ yếu tập trung vào giả mạo thăm dò và một số trường hợp giả mạo MAC.
Tạo bộ dữ liệu thử nghiệm
Để tạo ra tập dữ liệu thử nghiệm (benchmark dataset) cho việc huấn luyện các mô hình hành vi trong Cisco AISD, như bất kỳ phương pháp dựa trên trí tuệ nhân tạo nào khác, đòi hỏi một lượng lớn dữ liệu. Tất nhiên, khi các mạng mở rộng thêm các thiết bị cuối, tập dữ liệu thử nghiệm cũng thay đổi theo thời gian. Các mô hình mới được xây dựng theo cách lặp lại sử dụng các tập dữ liệu mới nhất. Tập dữ liệu AISD của Cisco cho các mô hình đến từ hai nguồn:
- Cisco AI Endpoint Analytics (AIEA) data lake: Dữ liệu này được lấy từ Cisco DNA Center với Cisco AI Endpoint Analytics và Cisco Identity Services Engine (ISE) và được lưu trữ trong một cơ sở dữ liệu đám mây. Tập dữ liệu AIEA bao gồm nhiều thông tin về các thiết bị cuối từ mạng của từng khách hàng. Bất kỳ thông tin cá nhân cụ thể (PII) hoặc các thông tin xác định khác như địa chỉ IP và MAC đều được mã hóa tại nguồn trước khi gửi lên đám mây. Đây là một cơ chế mới được Cisco sử dụng trong kiến trúc điều khiển kết nối đám mây lai, trong đó các khóa mã hóa được lưu trữ tại điều khiển của mỗi khách hàng.
- Cisco AISD Attack data lake: tập dữ liệu này chứa dữ liệu được tạo ra bởi Cisco, bao gồm các kịch bản tấn công giả mạo thăm dò và giả mạo MAC.
Để tạo ra tập dữ liệu thử nghiệm (benchmark dataset) có khả năng ghi lại hành vi của các thiết bị cuối trong cả tình huống bình thường và tình huống tấn công, dữ liệu từ cả hai tập dữ liệu được kết hợp lại, kết hợp các bản ghi NetFlow và các phân loại thiết bị cuối (EPCL). Chúng tôi sử dụng tập dữ liệu EPCL để phân loại các bản ghi NetFlow thành các luồng dựa trên các lớp hợp lý. Một lớp hợp lý bao gồm các loại thiết bị dựa trên chức năng, ví dụ: Điện thoại IP, Máy in, Máy ảnh IP, vv. Dữ liệu cho mỗi lớp hợp lý được chia thành các tập đào tạo, tập xác thực và tập kiểm tra. Chúng tôi sử dụng tập đào tạo để đào tạo mô hình và tập xác thực để điều chỉnh thông số và lựa chọn mô hình. Chúng tôi sử dụng tập kiểm tra để đánh giá các mô hình đã được đào tạo và ước tính khả năng tổng quát của chúng đối với dữ liệu trước đây chưa từng thấy.
Tập dữ liệu thử nghiệm (benchmark datasets) được phiên bản hóa, đánh dấu và ghi lại bằng cách sử dụng Comet, một nền tảng theo dõi thí nghiệm và quản lý hoạt động học máy (MLOps) mà Cisco phát triển và sử dụng cho một số giải pháp trí tuệ nhân tạo/máy học. Tập dữ liệu thử nghiệm được cập nhật định kỳ để đảm bảo rằng các mô hình mới được huấn luyện và đánh giá dựa trên sự biến đổi mới nhất trong mạng của khách hàng.
Hình 2: Tạo Tập dữ liệu Thử nghiệm (Benchmark Dataset) và Chia dữ liệu (Data Split)
Phát triển và giám sát mô hình
Trong giai đoạn phát triển mô hình, chúng tôi sử dụng tập dữ liệu thử nghiệm (benchmark dataset) mới nhất để xây dựng các mô hình hành vi cho các lớp hợp lý của thiết bị. Các trang web của khách hàng sử dụng các mô hình đã được đào tạo. Tất cả các thử nghiệm đào tạo và đánh giá được ghi lại trong Comet cùng với các siêu tham số và các mô hình đã được tạo ra. Điều này đảm bảo tính tái sản xuất của thí nghiệm và sự truy vết của mô hình và cho phép kiểm tra và quản lý cuối cùng của quá trình tạo mô hình. Trong giai đoạn phát triển, nhiều nhà khoa học máy học làm việc trên các kiến trúc mô hình khác nhau, tạo ra một loạt kết quả được so sánh tổng hợp để chọn ra mô hình tốt nhất. Sau đó, đối với mỗi lớp hợp lý, các mô hình tốt nhất được đánh phiên bản và thêm vào một Registry Model (Bộ sưu tập Mô hình). Với tất cả các thử nghiệm và mô hình được tổng hợp tại một vị trí, chúng tôi có thể dễ dàng so sánh hiệu suất của các mô hình khác nhau và theo dõi sự phát triển của hiệu suất của các mô hình đã được phát hành trong từng giai đoạn phát triển.
Bộ sưu tập Mô hình (Model Registry) là một phần không thể thiếu của quy trình triển khai mô hình của chúng tôi. Trong Bộ sưu tập Mô hình, các mô hình được tổ chức theo lớp hợp lý của các thiết bị và được lập phiên bản, cho phép chúng tôi theo dõi toàn bộ chu kỳ phát triển – từ tập dữ liệu thử nghiệm (benchmark dataset) được sử dụng, siêu tham số được chọn, các tham số đã được đào tạo, kết quả thu được và mã được sử dụng cho việc đào tạo. Các mô hình được triển khai trên AWS (Amazon Web Services) nơi các quá trình suy luận diễn ra.
Các mô hình sản xuất được theo dõi một cách cận thận. Nếu hiệu suất của các mô hình bắt đầu suy giảm – ví dụ, chúng bắt đầu tạo ra quá nhiều cảnh báo sai – một giai đoạn phát triển mới sẽ được kích hoạt. Điều đó có nghĩa là chúng tôi xây dựng một tập dữ liệu thử nghiệm mới với dữ liệu của khách hàng mới nhất và đào tạo và kiểm tra lại các mô hình. Đồng thời, chúng tôi cũng xem xét lại việc xem xét các kiến trúc mô hình khác nhau.
Hình 3: Chu trình cuộc đời của Mô hình Phát hiện Giả mạo Cisco AI Spoofing Detection