เทคโนโลยีและโซลูชันการมาสก์ข้อมูลใน Network Packet Broker คืออะไร

1. แนวคิดของการมาสก์ข้อมูล

การมาสก์ข้อมูลเรียกอีกอย่างว่าการมาสก์ข้อมูล เป็นวิธีทางเทคนิคในการแปลง แก้ไข หรือครอบคลุมข้อมูลที่ละเอียดอ่อน เช่น หมายเลขโทรศัพท์มือถือ หมายเลขบัตรธนาคาร และข้อมูลอื่น ๆ เมื่อเราให้กฎและนโยบายการปกปิด เทคนิคนี้ใช้เพื่อป้องกันไม่ให้ข้อมูลที่ละเอียดอ่อนถูกใช้โดยตรงในสภาพแวดล้อมที่ไม่น่าเชื่อถือ

หลักการมาสก์ข้อมูล: การมาสก์ข้อมูลควรรักษาลักษณะข้อมูลดั้งเดิม กฎเกณฑ์ทางธุรกิจ และความเกี่ยวข้องของข้อมูล เพื่อให้แน่ใจว่าการพัฒนา การทดสอบ และการวิเคราะห์ข้อมูลในภายหลังจะไม่ได้รับผลกระทบจากการมาสก์ ตรวจสอบความสอดคล้องและความถูกต้องของข้อมูลทั้งก่อนและหลังการมาสก์

2. การจำแนกการมาสก์ข้อมูล

การมาสก์ข้อมูลสามารถแบ่งออกเป็นการมาสก์ข้อมูลแบบคงที่ (SDM) และการมาสก์ข้อมูลแบบไดนามิก (DDM)

การมาสก์ข้อมูลแบบคงที่ (SDM): การมาสก์ข้อมูลแบบคงที่จำเป็นต้องสร้างฐานข้อมูลสภาพแวดล้อมที่ไม่ใช่การผลิตใหม่สำหรับการแยกออกจากสภาพแวดล้อมการใช้งานจริง ข้อมูลที่ละเอียดอ่อนจะถูกแยกออกจากฐานข้อมูลการใช้งานจริง จากนั้นจัดเก็บไว้ในฐานข้อมูลที่ไม่ใช่การใช้งานจริง ด้วยวิธีนี้ ข้อมูลที่ไม่ละเอียดอ่อนจะถูกแยกออกจากสภาพแวดล้อมการใช้งานจริง ซึ่งตรงตามความต้องการทางธุรกิจ และรับประกันความปลอดภัยของข้อมูลการใช้งานจริง

เอสดีเอ็ม

การมาสก์ข้อมูลแบบไดนามิก (DDM): โดยทั่วไปจะใช้ในสภาพแวดล้อมการผลิตเพื่อลดความไวของข้อมูลที่ละเอียดอ่อนแบบเรียลไทม์ บางครั้งการมาสก์ในระดับที่แตกต่างกันจำเป็นต้องอ่านข้อมูลที่ละเอียดอ่อนเดียวกันในสถานการณ์ที่ต่างกัน ตัวอย่างเช่น บทบาทและการอนุญาตที่แตกต่างกันอาจใช้รูปแบบการมาสก์ที่แตกต่างกัน

ดีดีเอ็ม

การรายงานข้อมูลและแอปพลิเคชันการปิดบังผลิตภัณฑ์ข้อมูล

สถานการณ์ดังกล่าวส่วนใหญ่รวมถึงผลิตภัณฑ์หรือป้ายโฆษณาตรวจสอบข้อมูลภายใน ผลิตภัณฑ์ข้อมูลบริการภายนอก และรายงานที่อยู่บนพื้นฐานของการวิเคราะห์ข้อมูล เช่น รายงานทางธุรกิจและการทบทวนโครงการ

การรายงานข้อมูลการมาสก์ผลิตภัณฑ์

3. โซลูชันการปิดบังข้อมูล

รูปแบบการปกปิดข้อมูลทั่วไปได้แก่: การทำให้เป็นโมฆะ, ค่าสุ่ม, การแทนที่ข้อมูล, การเข้ารหัสแบบสมมาตร, ค่าเฉลี่ย, อ็อฟเซ็ตและการปัดเศษ ฯลฯ

การทำให้เป็นโมฆะ: การทำให้ใช้ไม่ได้หมายถึงการเข้ารหัส การตัดทอน หรือการซ่อนข้อมูลที่ละเอียดอ่อน รูปแบบนี้มักจะแทนที่ข้อมูลจริงด้วยสัญลักษณ์พิเศษ (เช่น *) การดำเนินการนั้นง่ายดาย แต่ผู้ใช้ไม่สามารถทราบรูปแบบของข้อมูลต้นฉบับได้ ซึ่งอาจส่งผลต่อการใช้งานข้อมูลในภายหลัง

ค่าสุ่ม: ค่าสุ่มหมายถึงการสุ่มแทนที่ข้อมูลที่ละเอียดอ่อน (ตัวเลขแทนที่ตัวเลข ตัวอักษรแทนที่ตัวอักษร และอักขระแทนที่อักขระ) วิธีการปกปิดนี้จะรับประกันรูปแบบของข้อมูลที่ละเอียดอ่อนในระดับหนึ่ง และอำนวยความสะดวกในการประยุกต์ใช้ข้อมูลในภายหลัง อาจจำเป็นต้องใช้พจนานุกรมปิดบังคำบางคำที่มีความหมาย เช่น ชื่อบุคคลและสถานที่

การเปลี่ยนข้อมูล: การแทนที่ข้อมูลจะคล้ายกับการมาสก์ค่าว่างและค่าสุ่ม ยกเว้นว่าแทนที่จะใช้อักขระพิเศษหรือค่าสุ่ม ข้อมูลการมาสก์จะถูกแทนที่ด้วยค่าเฉพาะ

การเข้ารหัสแบบสมมาตร: การเข้ารหัสแบบสมมาตรเป็นวิธีการมาสก์แบบย้อนกลับแบบพิเศษ มันเข้ารหัสข้อมูลที่ละเอียดอ่อนผ่านคีย์เข้ารหัสและอัลกอริธึม รูปแบบไซเฟอร์เท็กซ์สอดคล้องกับข้อมูลต้นฉบับในกฎตรรกะ

เฉลี่ย: รูปแบบค่าเฉลี่ยมักใช้ในสถานการณ์ทางสถิติ สำหรับข้อมูลตัวเลข อันดับแรกเราจะคำนวณค่าเฉลี่ย จากนั้นจึงสุ่มกระจายค่า desensitized ไปรอบๆ ค่าเฉลี่ย เพื่อรักษาผลรวมของข้อมูลให้คงที่

การชดเชยและการปัดเศษ: วิธีการนี้จะเปลี่ยนข้อมูลดิจิตอลโดยการสุ่ม การปัดเศษแบบออฟเซ็ตช่วยให้มั่นใจถึงความถูกต้องโดยประมาณของช่วงในขณะที่ยังคงรักษาความปลอดภัยของข้อมูล ซึ่งใกล้เคียงกับข้อมูลจริงมากกว่าแผนงานก่อนหน้านี้ และมีความสำคัญอย่างยิ่งในสถานการณ์ของการวิเคราะห์ข้อมูลขนาดใหญ่

ML-NPB-5660-数据脱敏

รุ่นที่แนะนำ"ML-NPB-5660" สำหรับการมาสก์ข้อมูล

4. เทคนิคการมาสก์ข้อมูลที่ใช้กันทั่วไป

(1) เทคนิคทางสถิติ

การสุ่มตัวอย่างข้อมูลและการรวมข้อมูล

- การสุ่มตัวอย่างข้อมูล: การวิเคราะห์และประเมินผลชุดข้อมูลต้นฉบับโดยการเลือกชุดย่อยที่เป็นตัวแทนของชุดข้อมูลเป็นวิธีการสำคัญในการปรับปรุงประสิทธิผลของเทคนิคการลบการระบุตัวตน

- การรวบรวมข้อมูล: เนื่องจากเป็นการรวบรวมเทคนิคทางสถิติ (เช่น การบวก การนับ การหาค่าเฉลี่ย สูงสุดและต่ำสุด) ที่นำไปใช้กับคุณลักษณะใน Microdata ผลลัพธ์จึงเป็นตัวแทนของบันทึกทั้งหมดในชุดข้อมูลดั้งเดิม

(2) การเข้ารหัส

การเข้ารหัสเป็นวิธีการทั่วไปในการลดความไวหรือเพิ่มประสิทธิภาพของการลดความไว อัลกอริธึมการเข้ารหัสประเภทต่างๆ สามารถบรรลุผลการลดความไวที่แตกต่างกัน

- การเข้ารหัสที่กำหนด: การเข้ารหัสแบบสมมาตรแบบไม่สุ่ม โดยปกติจะประมวลผลข้อมูล ID และสามารถถอดรหัสและกู้คืนข้อความไซเฟอร์เป็น ID ดั้งเดิมได้เมื่อจำเป็น แต่คีย์จำเป็นต้องได้รับการปกป้องอย่างเหมาะสม

- การเข้ารหัสแบบย้อนกลับไม่ได้: ฟังก์ชันแฮชใช้ในการประมวลผลข้อมูล ซึ่งโดยปกติจะใช้สำหรับข้อมูล ID ไม่สามารถถอดรหัสได้โดยตรง และต้องบันทึกความสัมพันธ์ในการแมปไว้ นอกจากนี้ เนื่องจากคุณลักษณะของฟังก์ชันแฮช อาจเกิดการชนกันของข้อมูลได้

- การเข้ารหัสแบบโฮโมมอร์ฟิก: ใช้อัลกอริธึมโฮโมมอร์ฟิกแบบไซเฟอร์เท็กซ์ คุณลักษณะของมันคือผลลัพธ์ของการดำเนินการไซเฟอร์เท็กซ์จะเหมือนกับการดำเนินการข้อความธรรมดาหลังจากการถอดรหัส ดังนั้นจึงมักใช้ในการประมวลผลช่องตัวเลข แต่ไม่ได้ใช้กันอย่างแพร่หลายด้วยเหตุผลด้านประสิทธิภาพ

(3) เทคโนโลยีระบบ

เทคโนโลยีระงับจะลบหรือป้องกันรายการข้อมูลที่ไม่เป็นไปตามการคุ้มครองความเป็นส่วนตัว แต่ไม่ได้เผยแพร่

- การมาสก์: หมายถึงวิธีการลดความรู้สึกที่พบบ่อยที่สุดในการปกปิดค่าแอตทริบิวต์ เช่น หมายเลขของฝ่ายตรงข้าม บัตรประจำตัวที่มีเครื่องหมายดอกจันกำกับ หรือที่อยู่ถูกตัดทอน

- การระงับเฉพาะที่: หมายถึงกระบวนการลบค่าคุณลักษณะเฉพาะ (คอลัมน์) การลบฟิลด์ข้อมูลที่ไม่จำเป็นออก

- การปราบปรามบันทึก: หมายถึงกระบวนการลบบันทึกเฉพาะ (แถว) การลบบันทึกข้อมูลที่ไม่จำเป็น

(4) เทคโนโลยีนามแฝง

การใช้นามแฝงเป็นเทคนิคการลบการระบุตัวตนที่ใช้นามแฝงเพื่อแทนที่ตัวระบุโดยตรง (หรือตัวระบุที่ละเอียดอ่อนอื่นๆ) เทคนิคการใช้นามแฝงสร้างตัวระบุที่ไม่ซ้ำกันสำหรับหัวข้อข้อมูลแต่ละรายการ แทนที่จะเป็นตัวระบุโดยตรงหรือละเอียดอ่อน

- สามารถสร้างค่าสุ่มได้อย่างอิสระเพื่อให้สอดคล้องกับ ID ดั้งเดิม บันทึกตารางการแมป และควบคุมการเข้าถึงตารางการแมปอย่างเคร่งครัด

- คุณยังสามารถใช้การเข้ารหัสเพื่อสร้างนามแฝงได้ แต่ต้องเก็บคีย์ถอดรหัสไว้อย่างเหมาะสม

เทคโนโลยีนี้ใช้กันอย่างแพร่หลายในกรณีที่มีผู้ใช้ข้อมูลอิสระจำนวนมาก เช่น OpenID ในสถานการณ์แพลตฟอร์มแบบเปิด ซึ่งนักพัฒนาที่แตกต่างกันจะได้รับ OpenID ที่แตกต่างกันสำหรับผู้ใช้รายเดียวกัน

(5) เทคนิคทั่วไป

เทคนิคการวางนัยทั่วไปหมายถึงเทคนิคการไม่ระบุตัวตนที่ลดรายละเอียดของคุณลักษณะที่เลือกในชุดข้อมูล และให้คำอธิบายทั่วไปและเป็นนามธรรมของข้อมูลมากขึ้น เทคโนโลยีการวางนัยทั่วไปนั้นง่ายต่อการนำไปใช้และสามารถปกป้องความถูกต้องของข้อมูลระดับบันทึกได้ มักใช้ในผลิตภัณฑ์ข้อมูลหรือรายงานข้อมูล

- การปัดเศษ: เกี่ยวข้องกับการเลือกฐานการปัดเศษสำหรับคุณลักษณะที่เลือก เช่น นิติเวชขึ้นหรือลง ให้ผลลัพธ์ 100, 500, 1K และ 10K

- เทคนิคการเขียนโค้ดบนและล่าง: แทนที่ค่าที่สูงกว่า (หรือต่ำกว่า) เกณฑ์ด้วยเกณฑ์ที่แสดงถึงระดับบน (หรือล่าง) โดยให้ผลลัพธ์เป็น "เหนือ X" หรือ "ต่ำกว่า X"

(6) เทคนิคการสุ่มตัวอย่าง

ในฐานะที่เป็นเทคนิคการไม่ระบุตัวตนชนิดหนึ่ง เทคโนโลยีการสุ่มหมายถึงการแก้ไขค่าของคุณลักษณะผ่านการสุ่ม เพื่อให้ค่าหลังจากการสุ่มแตกต่างจากมูลค่าจริงดั้งเดิม กระบวนการนี้จะลดความสามารถของผู้โจมตีในการรับค่าแอททริบิวต์จากค่าแอททริบิวต์อื่นๆ ในบันทึกข้อมูลเดียวกัน แต่จะส่งผลต่อความถูกต้องของข้อมูลผลลัพธ์ ซึ่งเป็นเรื่องปกติกับข้อมูลการทดสอบการใช้งานจริง


เวลาโพสต์: Sep-27-2022