เทคโนโลยีและโซลูชัน Data Masking ใน Network Packet Broker คืออะไร

1. แนวคิดของ Data Masking

การปกปิดข้อมูลเรียกอีกอย่างว่าการปกปิดข้อมูล ซึ่งเป็นวิธีการทางเทคนิคในการแปลง แก้ไข หรือปกปิดข้อมูลที่ละเอียดอ่อน เช่น หมายเลขโทรศัพท์มือถือ หมายเลขบัตรธนาคาร และข้อมูลอื่นๆ เมื่อเรากำหนดกฎและนโยบายการปกปิดข้อมูล เทคนิคนี้ใช้เป็นหลักเพื่อป้องกันไม่ให้ข้อมูลที่ละเอียดอ่อนถูกใช้โดยตรงในสภาพแวดล้อมที่ไม่น่าเชื่อถือ

หลักการปิดบังข้อมูล: การปิดบังข้อมูลควรคงลักษณะข้อมูลเดิม กฎทางธุรกิจ และความเกี่ยวข้องของข้อมูลไว้ เพื่อให้แน่ใจว่าการพัฒนา การทดสอบ และการวิเคราะห์ข้อมูลในภายหลังจะไม่ได้รับผลกระทบจากการปิดบังข้อมูล ตรวจสอบความสอดคล้องและความถูกต้องของข้อมูลก่อนและหลังการปิดบังข้อมูล

2. การจัดประเภทการปิดบังข้อมูล

การปิดบังข้อมูลสามารถแบ่งออกได้เป็นการปกปิดข้อมูลแบบคงที่ (SDM) และการปกปิดข้อมูลแบบไดนามิก (DDM)

การปกปิดข้อมูลแบบคงที่ (SDM):การปกปิดข้อมูลแบบคงที่ต้องใช้การจัดตั้งฐานข้อมูลสภาพแวดล้อมที่ไม่ใช่การผลิตใหม่เพื่อแยกออกจากสภาพแวดล้อมการผลิต ข้อมูลที่ละเอียดอ่อนจะถูกแยกออกจากฐานข้อมูลการผลิตแล้วจัดเก็บในฐานข้อมูลที่ไม่ใช่การผลิต ด้วยวิธีนี้ ข้อมูลที่ไม่ละเอียดอ่อนจะถูกแยกออกจากสภาพแวดล้อมการผลิต ซึ่งตอบสนองความต้องการทางธุรกิจและรับรองความปลอดภัยของข้อมูลการผลิต

ส.ด.เอ็ม.

การปกปิดข้อมูลแบบไดนามิก (DDM):โดยทั่วไปแล้วจะใช้ในสภาพแวดล้อมการผลิตเพื่อลดความไวต่อข้อมูลที่ละเอียดอ่อนแบบเรียลไทม์ บางครั้งอาจต้องใช้ระดับการปกปิดที่แตกต่างกันเพื่ออ่านข้อมูลที่ละเอียดอ่อนเดียวกันในสถานการณ์ที่แตกต่างกัน ตัวอย่างเช่น บทบาทและสิทธิ์ที่ต่างกันอาจใช้รูปแบบการปกปิดที่แตกต่างกัน

ดีดีเอ็ม

แอปพลิเคชั่นการรายงานข้อมูลและการปิดบังข้อมูลผลิตภัณฑ์

สถานการณ์ดังกล่าวส่วนใหญ่ได้แก่ ผลิตภัณฑ์การตรวจสอบข้อมูลภายในหรือป้ายโฆษณา ผลิตภัณฑ์ข้อมูลบริการภายนอก และรายงานที่อิงตามการวิเคราะห์ข้อมูล เช่น รายงานทางธุรกิจและการตรวจสอบโครงการ

การรายงานข้อมูลการปิดบังผลิตภัณฑ์

3. โซลูชันการปิดบังข้อมูล

แผนการปกปิดข้อมูลทั่วไปได้แก่ การทำให้เป็นโมฆะ ค่าสุ่ม การแทนที่ข้อมูล การเข้ารหัสแบบสมมาตร ค่าเฉลี่ย การชดเชยและการปัดเศษ เป็นต้น

การทำให้เป็นโมฆะ:การทำให้ไม่ถูกต้องหมายถึงการเข้ารหัส การตัดทอน หรือการซ่อนข้อมูลที่ละเอียดอ่อน โครงร่างนี้มักจะแทนที่ข้อมูลจริงด้วยสัญลักษณ์พิเศษ (เช่น *) การดำเนินการนั้นง่าย แต่ผู้ใช้ไม่สามารถทราบรูปแบบของข้อมูลต้นฉบับได้ ซึ่งอาจส่งผลต่อการใช้งานข้อมูลในภายหลัง

ค่าสุ่ม:ค่าสุ่มหมายถึงการแทนที่ข้อมูลที่ละเอียดอ่อนแบบสุ่ม (ตัวเลขแทนที่ตัวเลข ตัวอักษรแทนที่ตัวอักษร และอักขระแทนที่อักขระ) วิธีการปิดบังนี้จะช่วยให้แน่ใจถึงรูปแบบของข้อมูลที่ละเอียดอ่อนในระดับหนึ่งและอำนวยความสะดวกในการใช้งานข้อมูลในภายหลัง อาจจำเป็นต้องใช้พจนานุกรมปิดบังสำหรับคำที่มีความหมายบางคำ เช่น ชื่อบุคคลและสถานที่

การแทนที่ข้อมูล:การแทนที่ข้อมูลจะคล้ายกับการปิดบังค่าว่างและค่าสุ่ม ยกเว้นว่าแทนที่จะใช้ตัวอักษรพิเศษหรือค่าสุ่ม ข้อมูลการปิดบังจะถูกแทนที่ด้วยค่าเฉพาะ

การเข้ารหัสแบบสมมาตร:การเข้ารหัสแบบสมมาตรเป็นวิธีการปกปิดข้อมูลแบบพิเศษที่สามารถย้อนกลับได้ โดยจะเข้ารหัสข้อมูลที่ละเอียดอ่อนโดยใช้คีย์การเข้ารหัสและอัลกอริทึม รูปแบบข้อความเข้ารหัสจะสอดคล้องกับข้อมูลต้นฉบับในกฎตรรกะ

เฉลี่ย:รูปแบบค่าเฉลี่ยมักใช้ในสถานการณ์ทางสถิติ สำหรับข้อมูลเชิงตัวเลข ก่อนอื่น เราจะคำนวณค่าเฉลี่ย จากนั้นจึงกระจายค่าที่ลดความไวแสงไปรอบๆ ค่าเฉลี่ยแบบสุ่ม ซึ่งจะทำให้ผลรวมของข้อมูลคงที่

การชดเชยและการปัดเศษ:วิธีนี้จะเปลี่ยนข้อมูลดิจิทัลโดยการเลื่อนแบบสุ่ม การปัดเศษแบบออฟเซ็ตช่วยให้แน่ใจได้ว่าช่วงข้อมูลมีความถูกต้องโดยประมาณในขณะที่ยังคงความปลอดภัยของข้อมูลไว้ ซึ่งใกล้เคียงกับข้อมูลจริงมากกว่ารูปแบบก่อนหน้านี้ และมีความสำคัญอย่างยิ่งในสถานการณ์การวิเคราะห์ข้อมูลขนาดใหญ่

ML-NPB-5660-数据脱敏

รุ่นที่แนะนำ "เอ็มแอล-เอ็นพีบี-5660" สำหรับการปิดบังข้อมูล

4. เทคนิคการปิดบังข้อมูลที่ใช้กันทั่วไป

(1). เทคนิคทางสถิติ

การสุ่มตัวอย่างข้อมูลและการรวบรวมข้อมูล

- การสุ่มตัวอย่างข้อมูล: การวิเคราะห์และการประเมินชุดข้อมูลต้นฉบับโดยการเลือกชุดข้อมูลย่อยที่เป็นตัวแทนของชุดข้อมูลถือเป็นวิธีการสำคัญในการปรับปรุงประสิทธิภาพของเทคนิคการระบุตัวตน

- การรวบรวมข้อมูล: เป็นการรวบรวมเทคนิคทางสถิติ (เช่น การหาผลรวม การนับ การหาค่าเฉลี่ย ค่าสูงสุดและค่าต่ำสุด) ที่ใช้กับแอตทริบิวต์ในไมโครดาต้า โดยผลลัพธ์จะเป็นตัวแทนของเรกคอร์ดทั้งหมดในชุดข้อมูลต้นฉบับ

(2). การเข้ารหัส

การเข้ารหัสเป็นวิธีการทั่วไปในการทำให้การลดความไวต่อสิ่งเร้าหรือเพิ่มประสิทธิภาพของการลดความไวต่อสิ่งเร้า อัลกอริธึมการเข้ารหัสประเภทต่างๆ สามารถให้ผลการลดความไวต่อสิ่งเร้าที่แตกต่างกันได้

- การเข้ารหัสแบบกำหนดแน่นอน: การเข้ารหัสแบบสมมาตรแบบไม่สุ่ม โดยปกติจะประมวลผลข้อมูล ID และสามารถถอดรหัสและกู้คืนข้อความเข้ารหัสเป็น ID ดั้งเดิมได้เมื่อจำเป็น แต่จะต้องปกป้องคีย์อย่างเหมาะสม

- การเข้ารหัสแบบย้อนกลับไม่ได้: ฟังก์ชันแฮชใช้ในการประมวลผลข้อมูล ซึ่งโดยปกติใช้สำหรับข้อมูล ID ไม่สามารถถอดรหัสได้โดยตรง และต้องบันทึกความสัมพันธ์การแมป นอกจากนี้ อาจเกิดการชนกันของข้อมูลได้เนื่องจากคุณสมบัติของฟังก์ชันแฮช

- การเข้ารหัสแบบโฮโมมอร์ฟิก: ใช้อัลกอริทึมโฮโมมอร์ฟิกของข้อความเข้ารหัส ลักษณะเฉพาะคือผลลัพธ์ของการดำเนินการข้อความเข้ารหัสจะเหมือนกับผลลัพธ์ของการดำเนินการข้อความธรรมดาหลังจากการถอดรหัส ดังนั้น จึงมักใช้ในการประมวลผลฟิลด์ตัวเลข แต่ไม่ค่อยได้ใช้เนื่องจากเหตุผลด้านประสิทธิภาพ

(3). เทคโนโลยีระบบ

เทคโนโลยีการระงับจะลบหรือป้องกันข้อมูลที่ไม่เป็นไปตามการปกป้องความเป็นส่วนตัว แต่จะไม่เผยแพร่ข้อมูลเหล่านั้น

- การปิดบัง: หมายถึงวิธีการลดความไวต่อสิ่งเร้าที่พบมากที่สุดเพื่อปกปิดค่าแอตทริบิวต์ เช่น หมายเลขของคู่ต่อสู้ บัตรประจำตัวที่มีเครื่องหมายดอกจัน หรือที่อยู่ถูกตัดทอน

- การระงับในพื้นที่: หมายถึงกระบวนการลบค่าแอตทริบิวต์ที่เฉพาะเจาะจง (คอลัมน์) การลบฟิลด์ข้อมูลที่ไม่จำเป็น

- การระงับการบันทึก: หมายถึงกระบวนการลบบันทึกเฉพาะ (แถว) การลบบันทึกข้อมูลที่ไม่จำเป็น

(4). นามแฝงเทคโนโลยี

การใช้ชื่อปลอมเป็นเทคนิคในการระบุตัวตนโดยใช้ชื่อปลอมเพื่อแทนที่ตัวระบุโดยตรง (หรือตัวระบุที่ละเอียดอ่อนอื่นๆ) เทคนิคการใช้ชื่อปลอมจะสร้างตัวระบุเฉพาะสำหรับบุคคลในข้อมูลแต่ละราย แทนที่จะใช้ตัวระบุโดยตรงหรือละเอียดอ่อน

- สามารถสร้างค่าสุ่มได้อย่างอิสระเพื่อให้สอดคล้องกับ ID ต้นฉบับ บันทึกตารางการแมป และควบคุมการเข้าถึงตารางการแมปอย่างเคร่งครัด

- คุณสามารถใช้การเข้ารหัสเพื่อสร้างนามแฝงได้ แต่ต้องเก็บรักษาคีย์การถอดรหัสอย่างถูกต้อง

เทคโนโลยีนี้ใช้กันอย่างแพร่หลายในกรณีที่มีผู้ใช้ข้อมูลอิสระจำนวนมาก เช่น OpenID ในสถานการณ์แพลตฟอร์มเปิด ซึ่งนักพัฒนาต่าง ๆ จะได้รับ Openid ที่แตกต่างกันสำหรับผู้ใช้คนเดียวกัน

(5) เทคนิคการสรุปทั่วไป

เทคนิคการสรุปข้อมูลทั่วไปหมายถึงเทคนิคการระบุตัวตนที่ลดความละเอียดของแอตทริบิวต์ที่เลือกไว้ในชุดข้อมูล และให้คำอธิบายข้อมูลทั่วไปและนามธรรมมากขึ้น เทคโนโลยีการสรุปข้อมูลทั่วไปนั้นนำไปใช้ได้ง่ายและสามารถปกป้องความถูกต้องของข้อมูลระดับเรกคอร์ดได้ โดยทั่วไปแล้วจะใช้เทคนิคนี้ในผลิตภัณฑ์ข้อมูลหรือรายงานข้อมูล

- การปัดเศษ: เกี่ยวข้องกับการเลือกฐานการปัดเศษสำหรับแอตทริบิวต์ที่เลือก เช่น การปัดเศษขึ้นหรือลง ซึ่งจะทำให้ได้ผลลัพธ์ 100, 500, 1K และ 10K

- เทคนิคการเข้ารหัสด้านบนและด้านล่าง: แทนที่ค่าที่อยู่เหนือ (หรือต่ำกว่า) เกณฑ์ด้วยเกณฑ์ที่แสดงถึงระดับบนสุด (หรือล่างสุด) ให้ผลลัพธ์เป็น "เหนือ X" หรือ "ต่ำกว่า X"

(6) เทคนิคการสุ่ม

เทคโนโลยีการสุ่มเป็นเทคนิคการระบุตัวตนชนิดหนึ่ง โดยจะปรับเปลี่ยนค่าแอตทริบิวต์ผ่านการสุ่ม เพื่อให้ค่าหลังการสุ่มแตกต่างจากค่าจริงเดิม กระบวนการนี้จะลดความสามารถของผู้โจมตีในการดึงค่าแอตทริบิวต์จากค่าแอตทริบิวต์อื่นในระเบียนข้อมูลเดียวกัน แต่จะส่งผลต่อความถูกต้องของข้อมูลที่ได้ ซึ่งเป็นเรื่องปกติสำหรับข้อมูลทดสอบการผลิต


เวลาโพสต์: 27-9-2022