DFIR

IR 101: Preparation

category
DFIR
date
Dec 15, 2021
slug
ir-101-preparation
author
status
Public
tags
incident response
summary
Làm Incident Response thì cần chuẩn bị những gì?
type
Post
thumbnail
updatedAt
Mar 1, 2023 08:53 AM
💡
Bài hơi lắm lý thuyết 😄
Đối với một người làm Incident Response (IR), họ phải luôn sẵn sàng cho việc một sự cố có kể xảy ra bất cứ lúc nào. Do đó cần phải chuẩn bị sẵn sàng về con người, hạ tầng và cả các kế hoạch ứng phó.

1. Chuẩn bị về kế hoạch, quy trình ứng phó

💡
Preparing Your Process
Với bối cảnh của an ninh mạng hiện nay, các phương pháp bảo vệ, phòng thủ theo cách truyền thống không còn phù hợp, cần phải có một cách tiếp cận mới chủ động và phù hợp hơn. Cách tiếp cận đó được gọi là "Cyber Resiliency - Khả năng phục hồi".
Vào tháng 11 năm 2019, Viện Tiêu chuẩn và Công nghệ quốc gia Hoa Kỳ (NIST) đã công bố ấn phẩm đặc biệt với tiêu đề: "Developing Cyber-Resilient Systems: A Systems Security Engineering Approach". Tại phần D.1 của tài liệu này có trình bày về Cyber Resiliency như sau:
💡
Cyber Resiliency là khả năng dự đoán, chịu đựng, phục hồi và thích ứng được với các điều kiện bất lợi, căng thẳng, tấn công hoặc thỏa hiệp trên các hệ thống bao gồm tài nguyên mạng.
Khái niệm này cho thấy được rằng, ngăn chặn được mọi cuộc tấn công mạng (CyberAttack) là không thể và cuối cùng một "kẻ thù" nào đó rồi cũng sẽ xuất hiện trong môi trường của bạn. Nhận ra điều này, chúng ta cần chuyển từ tư thế Phòng chống truyền thống sang tư thế Phòng chống + Phát hiện + Phản ứng là rất quan trọng đối với sự an toàn của mọi hệ thống mạng.
  • Phòng chống: Vẫn là nền tảng của bảo mật thông tin từ trước đến nay, khi có nhiều lớp bảo vệ thì kẻ tấn công sẽ càng khó tiếp cận tài sản của tổ chức. Tuy nhiên, đến cuối cùng thì những lớp phòng thủ này có thể cũng sẽ không thể ngăn cản được kẻ tấn công.
  • Phát hiện: Khi xảy ra sự cố, lúc này sẽ còn phụ thuộc vào khả năng điều tra, phân tích,.v.v. Ngoài việc phát hiện còn cần phải hiểu bản chất của các thành phần độc hại đó thì mới phản ứng hiệu quả.
  • Phản ứng: Quá trình phản ứng lại với sự cố sẽ tìm cách loại bỏ các thành phần độc hại khỏi môi trường, khôi phục các hoạt động bình thường của hệ thống. Tuy nhiên, ngoài việc xử lý các mối đe dọa ngay lập tức thì trong quá trình phản ứng với sự cố cũng cần phải tìm hiểu thêm về các Threat Actor và tại sao hệ thống phòng thủ không thể ngăn chặn được.
💡
Phòng chống - Phát hiện - Phản ứng tạo thành một chu trình không bao giờ kết thúc.
Lưu ý rằng Incident Response cũng là một phần của quá trình phòng thủ một cách tích cực. Để đạt hiệu quả hơn, người làm IR cần phối hợp với nhóm Giám sát an ninh mạng, nhóm Quản trị hệ thống (System Administrator), nhóm Quản trị mạng. Nhóm IR cần được hỗ trợ các tài nguyên kỹ thuật bổ sung khi cần thiết, xác định phạm vi sự cố, lên kế hoạch để khắc phục những tác động của kẻ tấn công, kế hoạch này nên được truyền đạt và phối hợp với các nhóm khác.
Có nhiều mô hình cho việc xây dựng quy trình Incident Response, dưới đây là mô hình được giới thiệu bởi NIST trong tài liệu NIST.SP.800-61r2 có tiêu đề: "Computer Security Incident Handling Guide".
notion image
Mô hình gồm 4 giai đoạn chính:
  1. Preparation - Chuẩn bị
  1. Detection and Analysis - Phát hiện và Phân tích
  1. Containment, Eradication, and Recovery - Ngăn chặn, loại bỏ, phục hồi
  1. Post-Incident Activity - Hoạt động sau sự cố
Có 2 chu kỳ con trong toàn bộ quy trình IR:
  • Chu kỳ 1: Detection and Analysis sẽ cung cấp thông tin được sử dụng trong quá trình Containment, Eradication, and Recovery
  • Chu kỳ 2: Post-Incident Activity sẽ đánh giá, nhìn nhận lại sự cố sau đó đúc rút ra bài học để củng cố lại cho Preparation như là để chuẩn bị cho các sự cố lần sau.
Ý tưởng của quy trình xử lý sự cố này như một chu kỳ đang diễn ra chứ không phải là một nhiệm vụ ngắn hạn ⇒ Đây là một tư duy quan trọng trong bối cảnh CyberSecurity hiện nay. Quá trình Phản ứng lại với sự cố như một cái gì đó sử dụng thường xuyên chứ không phải chỉ khi gặp sự cố khẩn cấp mới áp dụng.
Một mô hình phổ biến khác là PICERL, tên của nó được đặt theo các chữ cái đầu trong mỗi giai đoạn: Preparation, Identification, Containment, Eradication, Recovery Lessons Learned. Mô hình này khá giống với mô hình đưa ra của NIST, tuy có khác nhau về thuật ngữ nhưng ý nghĩa thì không thay đổi.
Thông thường, sự cố thường được xác định hoặc phát hiện với một bất thường nào đó. Sự bất thường này sẽ được phân tích để xác định lại xem nó có độc hại hay không, trong quá trình phân tích sẽ thu được những thông tin bổ sung có thể đc sử dụng để xác định được các hành vi đáng ngờ khác trong cùng hệ thống. Khi xác định được sự bất thường đó là độc hại, ảnh hưởng đến hệ thống thì các bước ngăn chặn có thể được thực hiện ngay lập tức hoặc có thể tiếp tục phân tích nhằm xác định phạm vi của sự cố sau đó mới thực hiên các bước ngăn chặn, giảm thiểu thiệt hại. Sau cùng là tiến hành bóc gỡ, loại bỏ các thành phần độc hại trên hệ thống và khôi phục lại các hoạt động bình thường.
Có thể chọn bất kỳ một mô hình nào để làm cơ sở cho quy trình IR của nhóm bạn, điều quan trọng là quy trình phải được ghi lại rõ ràng, các thành viên phải được đào tạo, vai trò của mỗi thành viên than gia vào IR phải cụ thể. Các cấp từ lãnh đạo đến nhóm IR, đến các đơn vị liên quan cần được biết về quy trình này và phải có sự phối hợp giữa các bên. Chuẩn bị sẵn sàng cả về vật tư, quyền truy cập của thành viên trong nhóm IR, về thời gian truy cập vào các hệ thống xảy ra sự cố và giao tiếp với các bên liên quan đảm bảo quá trình IR diễn ra suôn sẻ.
Các yếu tố khác như ràng buộc trong hợp đồng xử lý IR, vấn đề về pháp lý cũng rất quan trọng. Đội pháp lý của bạn cũng nên tham gia vào việc quyết định khi thực hiện, tránh những sự cố ngoài ý muốn.

2. Chuẩn bị về con người

💡
Preparing Your People
Người phụ trách IR đòi hỏi phải có kiến thức và hiểu biết về nhiều mảng kiến thức. Ngoài việc đào tạo chuyên môn kỹ thuật cho nhóm IR, thành viên của IR Team cũng phải được đào tạo cả về quy trình lẫn chính sách.
Tham gia vào các cuộc thi, thử thách là một cách tốt để rèn luyện kỹ năng IR. Việc thực hành thường xuyên giúp người chơi quen dần với các kịch bản ứng phó sự cố, khi phải chịu những áp lực và căng thẳng như khi tham gia ứng phó sự cố trong thực tế.
Trong quá trình làm IR, đôi khi chúng ta bị tập chung quá mức vào việc cố gắng thực thi được các lệnh, chạy được công cụ hay đôi khi cố gắng muốn hiểu rõ những đoạn logs này có ý nghĩa gì,... một cách không thực sự cần thiết! Khi đó chúng ta sẽ không thể tập chung vào được cái gọi là bức tranh toàn cảnh, người tham gia IR phải nhận thức, đánh giá được tình huống về sự cố. Lý tưởng nhất đó là người làm IR chỉ cần thành thạo các kỹ năng cốt lõi và thực sự cần thiết phục vụ công việc, thay vào đó sẽ tập chung vào các câu hỏi điều tra cấp cao hơn để tìm ra bản chất vấn đề.
Robert M. Lee đã có một trích dẫn rất hay trong bài báo: "The Sliding Scale of Cyber Security" của anh ấy. Tham khảo: https://www.sans.org/white-papers/36240/
💡
Bản thân một hệ thống không thể tự mình phòng thủ một cách tích cực được. Các hệ thống chỉ chỉ như là công cụ cho những người làm công việc "phòng thủ" (Cyber Defense). Điều mà khiến cho các mối đe dọa ngày càng tiên tiến và trở lên nguy hiểm là những kẻ đứng sau nó chủ động thích ứng, biết cách vận dụng kiến thức, nâng cao trình độ. Để chống lại những đối thủ này đòi hỏi người làm phòng thủ cũng phải linh hoạt, thông minh không kém.
Active Defense thể hiện rõ quan điểm rằng yếu tố con người mới là quyết định chính chứ không phải công nghệ hay máy móc mới có thể bảo vệ được hệ thống mạng của tổ chức. Quá trình IR đôi khi không phải tập chung quá nhiều vào một vấn đề kỹ thuật, mặc dù phân tích kỹ thuật toàn diện có thể được yêu cầu, điều quan trọng là cần đánh giá chính xác sự cố, duy trì và đảm bảo nguồn nhân lực sao cho hiệu quả nhất. Quan trọng là nhóm tham gia IR phải có người quản lý để có thể điều phối đúng người đúng việc đồng thời cũng giữ vai trò đầu mối với các lãnh đạo, các bên liên quan, công việc này không dành cho một người thuần kỹ thuật đang trực tiếp tham gia IR được vì nó gây mất tập chung với lượng thông tin vào quá tải dẫn đến hiệu quả không cao.
Quá trình Incident Response có thể tạo ra một lượng lớn thông tin, bao gồm: thông tin Logs, IOCs, Tactics, Techniques and Procedures (TTPs) được sử dụng bởi kẻ tấn công (Threat Actor), ngoài ra còn có các yêu cầu từ các đơn vị kinh doanh bị ảnh hưởng bởi sự cố, thông tin hậu cần, các khuyến nghị khắc phục,.v.v... Quản lý tất cả các thông tin là rất quan trọng và đầy thách thức, IR Team cần xem xét và sử dụng một hệ thống quản lý các thông tin này một cách hiệu quả. Dưới đây là một số dự án nguồn mở giúp IR Team làm việc này:
Một số lưu ý quan trọng khi thực hiện Incident Response:
  • IR = Con người + Quy trình + Công nghệ ⇒ Vẫn phải duy trình hoạt động an ninh của hệ thống (OPSEC) trong lúc thực hiện IR.
  • Thực hiện IR có thể gặp phải thông tin nhạy cảm của tổ chức ⇒ Quan tâm đến cả vấn đề pháp lý
  • Hoạt động IR không phải ai cũng được biết, rất có thể kẻ thù là chính người trong nội bộ ⇒ Hạn chế thông tin, chỉ những ai cần được biết mới cho biết
  • Các kênh liên lạc về sự cố phải được an toàn ⇒ Tránh đối thủ hoặc người không liên quan, không có quyền biết được
  • Quá trình điều tra thực hiện trên bản sao, hệ thống clone hoặc backup,... tránh việc đánh động hoặc tương tác trực tiếp với đối thủ ⇒ Đối thủ có thể phát hiện và thay đổi chiến thuật
  • Dữ liệu liên quan đến sự cố cần được lưu trữ, bảo quản an toàn (mã hóa dữ liệu, két sắt với thiết bị,.v.v.). Khi dữ liệu hoặc thiết bị được bàn giao hay chuyển cho người khác phải có giấy tờ, tài liệu lưu ký lại.

3. Chuẩn bị về công nghệ

💡
Preparing Your Technology
Sau khi đã chuẩn bị về con người: các vai trò được chỉ định, mục tiêu và sứ mệnh được xác định, các vấn đề về trách nhiệm và pháp lý đã rõ ràng cũng như các kiến thức kỹ thuật đã được đào tạo; về quy trình và chính sách đã hoàn tất đã đến lúc phải giải quyết một trong những thách thức lớn nhất đối với hầu hết các tổ chức, đó là: Chuẩn bị về công nghệ.
Dữ liệu phục vụ công tác IR như: logs, network packet captures, các sự kiện khác,.v.v. có yếu tố quyết định then chốt, chúng sẽ tái tạo lại hoạt động của những kẻ tấn công. Nếu khâu thu thập những dữ liệu này thất bại hay có sai sót thì quá trình IR coi như thất bại.
Khi thực hiện IR, cần phải xác định được một hệ thống như thế nào mới là bất thường, để biết được thì cần phải quay lại vấn đề là một hệ thống hoạt động bình thường là như thế nào. Một hệ thống CNTT mà hỗn loạn, không có một tiêu chuẩn hóa nào, không có tài liệu xây dựng hệ thống, không có sơ đồ mạng hoặc sơ đồ không chính xác, các thành phần trong hệ thống CNTT đã lỗi thời, không có hồ sơ quản lý những thay đổi và cập nhật,.v.v.. ⇒ Việc xác định sự bất thường là điều gần như không thể.
Duy trì một hồ sơ khi hệ thống CNTT ở trạng thái bình thường là rất quan trọng cho quá trình IR.
  • Nắm rõ các tiến trình, dịch vụ, cổng thường chạy trên hệ thống
  • Nắm rõ được các thay đổi như các bản update, bản vá trên hệ thống
  • Nắm rõ được sơ đồ mạng, các thành phần trong hệ thống
  • Nắm rõ được lưu lượng, mức độ sử dụng tài nguyên của hệ thống
  • ...
Nếu những yêu cầu này chưa được giải quyết thì khuyên bạn không nên chi trả bất kỳ khoản phí nào cho các công nghệ bảo mật nâng cao, công nghệ sử dụng trí tuệ nhân tạo hay dịch vụ xử lý sự cố được mời chào. Thay vào đó hãy phân bổ, quy hoạch lại hệ thống cho tối ưu và hiểu thật rõ về hệ thống của chính mình mới là thứ cần phải làm trước tiên.
Một hệ thống mạng được quy hoạch tốt là hệ thống được phân chia theo các cụm riêng biệt (VLANs), không thể từ trong một mạng có thể kết nối sang mạng khác dễ dàng mà không có sự kiểm soát được, điều này rất nguy hiểm và nó không gây bất cứ một trở ngại nào cho kẻ tấn công một khi có được chỗ đứng trong mạng của bạn. Mỗi hệ thống mạng con (cụm) cần được bảo vệ bởi các hệ thống phòng thủ, cản trở hoặc gây “ức chế” cho các hành động của kẻ tấn công, hoạt động trong mạng phải được kiểm soát và lưu lại và có cơ chế cảnh báo.
💡
Zero-Trust Network - Kiến trúc này nhấn mạnh việc sử dụng Micro-Segmentation, tường lửa nhận biết được ứng dụng (Layer 7), truy cập với đặc quyền tối thiểu và nhiều công nghệ liên quan khác nhằm hạn chế hoạt động của người dùng và ngăn chặn các hoạt động độc hại của đối thủ lây nhiễm sang các hệ thống khác.

3.1. Đảm bảo khả năng bao quát toàn hệ thống

💡
Ensuring Adequate Visibility
Khả năng bao quát toàn hệ thống ở đây có thể hiểu là hệ thống mạng được cấu hình, triển khai hệ thống giám sát đầy đủ từ các thiết bị mạng: firewall, router, switches đến máy chủ, máy người dùng,.. Những dữ liệu này cần được quản lý và khai thác một cách hiệu quả, để phục vụ cho nhu cầu này nhiều tổ chức đã đầu tư vào một hệ thống gọi là Security Information and Event Management (SIEM). Một thách thức với bất kỳ hệ thống SIEM nào đó là lượng dữ liệu đổ về quá nhiều, thậm chí là các dữ kiện không thực sự có giá trị dẫn đến một hệ quả là hệ thống trở lên quá tải và chậm chạm, trong ngữ cảnh của Ứng phó sự cố đôi khi yếu tố tốc độ cũng rất quan trọng. Điều này có thể khắc phục bằng việc xây dựng một giải pháp “SIEM Chiến thuật”, riêng biệt mà ở đó chỉ tập chung vào các sự kiện bảo mật có giá trị cao, quan trọng. Một vài ví dụ:
  • DNS Logs: Liên quan trực tiếp đến hạ tầng C2 của tin tặc. Có thể giám sát một danh sách các C2 hoặc tìm được trong quá trình điều tra, phân tích một hệ thống bị lây nhiễm ⇒ Nhanh chóng xác dịnh được máy nào đã phân giải tên miền độc hại này ⇒ Xác định được phạm vi ảnh hưởng
  • System logs: với Windows thì là Windows Event Logs, với *nix thì có Syslog Service phụ trách ghi và gửi log ⇒ Các log này có thể là: logs xác thực thành công hoặc thất bại, logs truy cập dịch vụ, log truy cập các tệp quan trọng, logs các kernel module được load,.v.v.
  • Logs của các Security Product: EDR, AV Software, 3rd Software
  • Logs các thiết bị di động, các thiết bị IoT ⇒ Mỗi thiết bị tham gia mạng đều có thể là một mối đe dọa
  • Logs từ các thiết bị mạng, các hệ thống tại biên của mạng ⇒ Khi xác định được một IP độc hại có thể theo dõi được luồng đi trong hệ thống.
  • Logs từ các hệ thống Firewall, Sandbox, IDS/IPS, DLP, Network Security Monitoring,.v.v..

3.2. Đảm bảo về trang bị phần cứng, phần mềm

💡
Arming Your Responders
Nhóm IR cần được cung cấp các thiết bị vật lý cần thiết, cho đến việc sử dụng một kết nối mạng internet riêng với tốc độ cao để có thể kết nối và phân tích từ xa, việc này sẽ phụ thuộc vào môi trường và điều kiện của tổ chức. Ngoài ra nhóm IR sẽ làm việc trên các dữ liệu bằng chứng số nên các công cụ, giải pháp được sử dụng cũng cần đảm bảo được cài đặt, cấu hình trước đó và đã được thử nghiệm. Trong một số trường hợp thì các thiết bị vật lý chuyên dụng sẽ rất quan trọng.
Một hệ thống phức tạp, nâng cao như Sandbox hay các công cụ chuyên dụng dùng trong quá trình phân tích mã độc, phân tích gói tin, trích xuất bộ nhớ RAM hay tạo image từ ổ cứng cũng cần phải được cài đặt và thử nghiệm trước đó.
Những dữ liệu hỗ trợ trong quá trình phân tích như: Giá trị băm của mẫu đã biết, các quy tắc YARA cho các tệp nghi ngờ, các signature để quét các tệp,.v.v.. cần phải được duy trì trên một Cơ sở dữ liệu. Các công cụ sử dụng để phân tích cần được cập nhật và nó nên là phiên bản mới nhất. Nhóm IR cũng cần duy trì các tài liệu, hồ sơ các cấu hình, công cụ,.v.v..
Các thiết bị, công cụ,.v.v. gọi chung là tài nguyên để phục vụ cho công việc IR nên được kiểm tra, bổ sung theo định kỳ để đảm bảo đáp ứng được nhu cầu của tổ chức.

3.3. Đảm bảo hoạt động kinh doanh và Phục hồi sự cố

💡
Business Continuity and Disaster Recovery
Business continuity and disaster recovery (BCDR) là thuật ngữ được sử dụng cho nhiều quy trình khi thiết kế để đảm bảo các hoạt động vẫn được tiếp tục khi phải đối mặt với các thảm họa. Trong bối cảnh của an ninh mạng hiện nay, chúng ta nhận ra được rằng không thể tránh khỏi một sự cố bảo mật xảy ra. Khi gặp một sự cố nghiêm trọng có tầm ảnh hưởng lớn, nó đòi hỏi sự phối hợp của các bên và các tổ chức.
Trong nhiều tình huống, việc đưa ra quyết định ngăn chặn ngay mối đe dọa hay tiếp tục giám sát để thu thập thêm thông tin về chúng cũng cần phải được bàn bạc. Phương pháp ngăn chặn cũng phải được lựa chọn, ví dụ: Việc phân chia hệ thống mạng một cách khoa học theo từng cụm sẽ dễ dàng quản lý hơn, khi có sự cố thì việc cách ly hệ thống bị lây nhiễm ở cấp độ mạng là tốt hơn so với việc phải tắt nguồn điện hệ thống vì những hành động này có thể làm hỏng hoặc mất bằng chứng số.

3.4. Các chiến thuật ứng phó với tin tặc

💡
Deception Techniques
Trong quá trình thực hiện IR, các hệ thống phòng thủ có thể sẽ được kích hoạt, điều này sẽ tạo ra khó khăn cho các Threat Actor và buộc chúng phải thay đổi chiến thuật, sử dụng các kỹ thuật khác nhau để đạt được mục đích của mình. Điều này đồng nghĩa cũng sẽ tạo ra nhiều "ồn ào" trong hệ thống và sẽ dễ bị phát hiện hơn. Các hệ thống Honeypots lúc này thực sự rất hữu dụng cho việc theo dõi các hành động của Threat Actor. Hệ thống Honeypots bắt chước càng giống với hệ thống thật sẽ càng tốt. Một số Honeypots nguồn mở:
Các thông tin xác thực có thể được lưu trữ trên bộ nhớ của hệ thống, kẻ tấn công thường lợi dụng điều này để tiến hành trích xuất chúng từ bộ nhớ. Trong các hệ thống Honeypots, chúng ta có thể tạo các mật khẩu băm giả, với thông tin tài khoản giống như tài khoản thật để đánh lừa đối thủ. Một tài khoản quản trị viên với mật khẩu mạnh nhưng không bao giờ dùng tài khoản này trong môi trường Product, một khi kẻ tấn công sử dụng tài khoản này để xác thực thì hệ thống sẽ sinh cảnh báo, từ đó chúng ta có những chiến thuật điều tra khác nhau. Một ví dụ khác đó là với các tệp tin giả mạo, chúng ta sử dụng các tệp này như "mồi nhử" hacker, các tệp trông có vẻ chứa dữ liệu quan trọng và một khi có bất kỳ tương tác nào liên quan đến tệp tin này sẽ được cảnh báo.

4. Kết luận

💡
Conclusion
Incident Response nên được coi như là một phần tích hợp vào hệ thống Cyber Resiliency. Cần chuẩn bị sẵn sàng từ con người, quy trình đến công nghệ, nếu không một khi sự cố bảo mật nghiêm trọng xảy ra, thiệt hại sẽ rất lớn. Trong phần tiếp theo, tôi sẽ trình bày các kỹ năng, kỹ thuật cần thiết để thực hiện một cuộc IR hiệu quả.

5. Tham khảo

  • Steve Anson (2020). Applied Incident Response, John Wiley & Sons, Inc