เทคโนโลยีและโซลูชัน Data Masking ใน Network Packet Broker คืออะไร

1. แนวคิดเรื่องการปกปิดข้อมูล

การปกปิดข้อมูล (Data masking) หรือที่รู้จักกันในชื่อการปกปิดข้อมูล (Data masking) เป็นวิธีการทางเทคนิคในการแปลง แก้ไข หรือปกปิดข้อมูลสำคัญ เช่น หมายเลขโทรศัพท์มือถือ หมายเลขบัตรธนาคาร และข้อมูลอื่นๆ เมื่อเรากำหนดกฎและนโยบายการปกปิดข้อมูลไว้ เทคนิคนี้ใช้เพื่อป้องกันไม่ให้ข้อมูลสำคัญถูกนำไปใช้โดยตรงในสภาพแวดล้อมที่ไม่น่าเชื่อถือ

หลักการปกปิดข้อมูล: การปกปิดข้อมูลควรคงคุณลักษณะของข้อมูล กฎเกณฑ์ทางธุรกิจ และความเกี่ยวข้องของข้อมูลเดิมไว้ เพื่อให้มั่นใจว่าการพัฒนา การทดสอบ และการวิเคราะห์ข้อมูลในภายหลังจะไม่ได้รับผลกระทบจากการปกปิดข้อมูล โปรดตรวจสอบความสอดคล้องและความถูกต้องของข้อมูลทั้งก่อนและหลังการปกปิดข้อมูล

2. การจำแนกประเภทการปิดบังข้อมูล

การปกปิดข้อมูลสามารถแบ่งออกได้เป็นการปกปิดข้อมูลแบบคงที่ (SDM) และการปกปิดข้อมูลแบบไดนามิก (DDM)

การปกปิดข้อมูลคงที่ (SDM)การปกปิดข้อมูลแบบคงที่จำเป็นต้องสร้างฐานข้อมูลสภาพแวดล้อมที่ไม่ใช่การใช้งานจริงใหม่เพื่อแยกออกจากสภาพแวดล้อมการใช้งานจริง ข้อมูลที่ละเอียดอ่อนจะถูกดึงออกมาจากฐานข้อมูลการใช้งานจริงและจัดเก็บไว้ในฐานข้อมูลที่ไม่ใช่การใช้งานจริง ด้วยวิธีนี้ ข้อมูลที่ถูกลดความไวจะถูกแยกออกจากสภาพแวดล้อมการใช้งานจริง ซึ่งสอดคล้องกับความต้องการทางธุรกิจและรับประกันความปลอดภัยของข้อมูลการใช้งานจริง

เอสดีเอ็ม

การปกปิดข้อมูลแบบไดนามิก (DDM):โดยทั่วไปจะใช้ในสภาพแวดล้อมการผลิตเพื่อลดความไวของข้อมูลสำคัญแบบเรียลไทม์ บางครั้งอาจจำเป็นต้องใช้การปกปิดข้อมูลในระดับที่แตกต่างกันเพื่ออ่านข้อมูลสำคัญเดียวกันในสถานการณ์ที่แตกต่างกัน ตัวอย่างเช่น บทบาทและสิทธิ์ที่ต่างกันอาจใช้รูปแบบการปกปิดข้อมูลที่แตกต่างกัน

ดีดีเอ็ม

การรายงานข้อมูลและการประยุกต์ใช้การปกปิดผลิตภัณฑ์ข้อมูล

สถานการณ์ดังกล่าวส่วนใหญ่ได้แก่ ผลิตภัณฑ์ตรวจสอบข้อมูลภายในหรือป้ายโฆษณา ผลิตภัณฑ์ข้อมูลบริการภายนอก และรายงานที่อิงตามการวิเคราะห์ข้อมูล เช่น รายงานทางธุรกิจและการตรวจสอบโครงการ

การรายงานข้อมูลการปกปิดผลิตภัณฑ์

3. โซลูชันการปิดบังข้อมูล

แผนการปกปิดข้อมูลทั่วไปได้แก่ การทำให้ไม่ถูกต้อง ค่าสุ่ม การแทนที่ข้อมูล การเข้ารหัสแบบสมมาตร ค่าเฉลี่ย การชดเชยและการปัดเศษ เป็นต้น

การทำให้เป็นโมฆะ:การทำให้ข้อมูลเป็นโมฆะ หมายถึง การเข้ารหัส การตัดทอน หรือการซ่อนข้อมูลสำคัญ รูปแบบนี้มักจะแทนที่ข้อมูลจริงด้วยสัญลักษณ์พิเศษ (เช่น *) การดำเนินการนี้ง่าย แต่ผู้ใช้ไม่สามารถทราบรูปแบบของข้อมูลต้นฉบับ ซึ่งอาจส่งผลกระทบต่อการใช้งานข้อมูลในภายหลัง

ค่าสุ่มค่าสุ่มหมายถึงการแทนที่ข้อมูลสำคัญแบบสุ่ม (ตัวเลขแทนตัวเลข ตัวอักษรแทนตัวอักษร และอักขระแทนอักขระ) วิธีการปิดบังข้อมูลนี้จะช่วยรักษารูปแบบของข้อมูลสำคัญในระดับหนึ่งและอำนวยความสะดวกในการนำข้อมูลไปใช้ในภายหลัง พจนานุกรมปิดบังข้อมูลอาจจำเป็นสำหรับคำที่มีความหมายบางคำ เช่น ชื่อบุคคลและสถานที่

การแทนที่ข้อมูล:การแทนที่ข้อมูลจะคล้ายกับการปิดบังค่าว่างและค่าสุ่ม ยกเว้นว่าแทนที่จะใช้ตัวอักษรพิเศษหรือค่าสุ่ม ข้อมูลการปิดบังจะถูกแทนที่ด้วยค่าที่เจาะจง

การเข้ารหัสแบบสมมาตรการเข้ารหัสแบบสมมาตรเป็นวิธีการปิดบังข้อมูลแบบพิเศษที่สามารถย้อนกลับได้ โดยจะเข้ารหัสข้อมูลสำคัญผ่านคีย์การเข้ารหัสและอัลกอริทึม รูปแบบข้อความเข้ารหัสจะสอดคล้องกับข้อมูลต้นฉบับในกฎเชิงตรรกะ

เฉลี่ย:รูปแบบค่าเฉลี่ยมักใช้ในสถานการณ์ทางสถิติ สำหรับข้อมูลเชิงตัวเลข เราจะคำนวณค่าเฉลี่ยก่อน จากนั้นจึงกระจายค่าที่ลดความไวแล้วไปรอบๆ ค่าเฉลี่ยแบบสุ่ม เพื่อให้ผลรวมของข้อมูลคงที่

การชดเชยและการปัดเศษ:วิธีการนี้จะเปลี่ยนข้อมูลดิจิทัลโดยการเลื่อนแบบสุ่ม การปัดเศษแบบออฟเซ็ตช่วยให้มั่นใจได้ถึงความถูกต้องโดยประมาณของช่วงข้อมูล ขณะเดียวกันก็รักษาความปลอดภัยของข้อมูล ซึ่งใกล้เคียงกับข้อมูลจริงมากกว่ารูปแบบเดิม และมีความสำคัญอย่างยิ่งในสถานการณ์การวิเคราะห์ข้อมูลขนาดใหญ่

ML-NPB-5660-数据脱敏

รุ่นแนะนำ "เอ็มแอล-เอ็นพีบี-5660" สำหรับการปกปิดข้อมูล

4. เทคนิคการปกปิดข้อมูลที่ใช้กันทั่วไป

(1). เทคนิคทางสถิติ

การสุ่มตัวอย่างข้อมูลและการรวมข้อมูล

- การสุ่มตัวอย่างข้อมูล: การวิเคราะห์และการประเมินชุดข้อมูลต้นฉบับโดยการเลือกชุดย่อยที่เป็นตัวแทนของชุดข้อมูลเป็นวิธีการสำคัญในการปรับปรุงประสิทธิภาพของเทคนิคการระบุตัวตน

- การรวบรวมข้อมูล: เป็นการรวบรวมเทคนิคทางสถิติ (เช่น การหาผลรวม การนับ การหาค่าเฉลี่ย ค่าสูงสุดและต่ำสุด) ที่ใช้กับแอตทริบิวต์ในไมโครดาต้า โดยผลลัพธ์จะแสดงถึงระเบียนทั้งหมดในชุดข้อมูลต้นฉบับ

(2). การเข้ารหัส

การเข้ารหัสเป็นวิธีการทั่วไปในการลดความไวหรือเพิ่มประสิทธิภาพของการลดความไว อัลกอริทึมการเข้ารหัสแต่ละประเภทสามารถให้ผลการลดความไวที่แตกต่างกันได้

- การเข้ารหัสแบบกำหนดตายตัว: การเข้ารหัสแบบสมมาตรแบบไม่สุ่ม โดยปกติจะประมวลผลข้อมูล ID และสามารถถอดรหัสและกู้คืนข้อความเข้ารหัสไปยัง ID ดั้งเดิมได้เมื่อจำเป็น แต่กุญแจจำเป็นต้องได้รับการปกป้องอย่างเหมาะสม

- การเข้ารหัสแบบย้อนกลับไม่ได้: ฟังก์ชันแฮชใช้ในการประมวลผลข้อมูล ซึ่งโดยทั่วไปจะใช้สำหรับข้อมูล ID ไม่สามารถถอดรหัสได้โดยตรงและจำเป็นต้องบันทึกความสัมพันธ์การแมป นอกจากนี้ เนื่องจากคุณสมบัติของฟังก์ชันแฮช อาจเกิดการชนกันของข้อมูลได้

- การเข้ารหัสแบบโฮโมมอร์ฟิก: ใช้อัลกอริทึมโฮโมมอร์ฟิกแบบข้อความเข้ารหัส ลักษณะเด่นคือผลลัพธ์ของการดำเนินการแบบข้อความเข้ารหัสจะเหมือนกับผลลัพธ์ของการดำเนินการแบบข้อความธรรมดาหลังจากการถอดรหัส ดังนั้น จึงมักใช้ในการประมวลผลข้อมูลตัวเลข แต่ยังไม่แพร่หลายนักเนื่องจากเหตุผลด้านประสิทธิภาพ

(3). เทคโนโลยีระบบ

เทคโนโลยีการระงับจะลบหรือป้องกันข้อมูลรายการที่ไม่เป็นไปตามการคุ้มครองความเป็นส่วนตัว แต่จะไม่เผยแพร่ข้อมูลเหล่านั้น

- การปิดบัง: หมายถึงวิธีการลดความไวต่อสิ่งเร้าที่พบบ่อยที่สุดเพื่อปิดบังค่าแอตทริบิวต์ เช่น หมายเลขคู่ต่อสู้ บัตรประจำตัวมีเครื่องหมายดอกจัน หรือที่อยู่ถูกตัดทอน

- การระงับในพื้นที่: หมายถึงกระบวนการลบค่าแอตทริบิวต์เฉพาะ (คอลัมน์) การลบฟิลด์ข้อมูลที่ไม่จำเป็น

- การระงับการบันทึก: หมายถึงกระบวนการลบบันทึกเฉพาะ (แถว) และการลบบันทึกข้อมูลที่ไม่จำเป็น

(4). เทคโนโลยีนามแฝง

Pseudomanning คือเทคนิคการลบข้อมูลระบุตัวตนที่ใช้นามแฝงแทนตัวระบุโดยตรง (หรือตัวระบุที่ละเอียดอ่อนอื่นๆ) เทคนิคนามแฝงจะสร้างตัวระบุเฉพาะสำหรับเจ้าของข้อมูลแต่ละราย แทนที่จะใช้ตัวระบุโดยตรงหรือตัวระบุที่ละเอียดอ่อน

- สามารถสร้างค่าสุ่มได้อย่างอิสระเพื่อให้สอดคล้องกับ ID ต้นฉบับ บันทึกตารางการแมป และควบคุมการเข้าถึงตารางการแมปอย่างเคร่งครัด

- คุณยังสามารถใช้การเข้ารหัสเพื่อสร้างนามแฝงได้ แต่จะต้องเก็บรักษาคีย์การถอดรหัสอย่างถูกต้อง

เทคโนโลยีนี้ใช้กันอย่างแพร่หลายในกรณีที่มีผู้ใช้ข้อมูลอิสระจำนวนมาก เช่น OpenID ในสถานการณ์แพลตฟอร์มแบบเปิด ซึ่งนักพัฒนาต่างๆ จะได้รับ OpenID ที่แตกต่างกันสำหรับผู้ใช้คนเดียวกัน

(5). เทคนิคการสรุปทั่วไป

เทคนิค Generalization หมายถึงเทคนิคการระบุตัวตนที่ลดความละเอียดของแอตทริบิวต์ที่เลือกไว้ในชุดข้อมูล และให้คำอธิบายข้อมูลที่เป็นภาพรวมและเป็นนามธรรมมากขึ้น เทคโนโลยี Generalization ใช้งานง่ายและสามารถปกป้องความถูกต้องของข้อมูลระดับเรกคอร์ดได้ เทคนิคนี้มักใช้ในผลิตภัณฑ์ข้อมูลหรือรายงานข้อมูล

- การปัดเศษ: เกี่ยวข้องกับการเลือกฐานการปัดเศษสำหรับแอตทริบิวต์ที่เลือก เช่น การปัดเศษขึ้นหรือลง ซึ่งจะทำให้ได้ผลลัพธ์ 100, 500, 1K และ 10K

- เทคนิคการเข้ารหัสด้านบนและด้านล่าง: แทนที่ค่าที่สูงกว่า (หรือต่ำกว่า) เกณฑ์ด้วยเกณฑ์ที่แสดงถึงระดับบนสุด (หรือล่างสุด) ซึ่งให้ผลลัพธ์เป็น "เหนือ X" หรือ "ต่ำกว่า X"

(6) เทคนิคการสุ่ม

เทคโนโลยีการสุ่มเป็นเทคนิคหนึ่งที่คล้ายกับเทคนิคการลบการระบุตัวตน โดยหมายถึงการปรับเปลี่ยนค่าแอตทริบิวต์ผ่านการสุ่ม เพื่อให้ค่าหลังจากการสุ่มแตกต่างจากค่าจริงเดิม กระบวนการนี้จะลดความสามารถของผู้โจมตีในการดึงค่าแอตทริบิวต์จากค่าแอตทริบิวต์อื่นๆ ในระเบียนข้อมูลเดียวกัน แต่จะส่งผลกระทบต่อความถูกต้องของข้อมูลที่ได้ ซึ่งเป็นเรื่องปกติสำหรับข้อมูลทดสอบที่ใช้งานจริง


เวลาโพสต์: 27 ก.ย. 2565