1. แนวคิดของการมาสก์ข้อมูล
การมาสก์ข้อมูลเรียกอีกอย่างว่าการมาสก์ข้อมูล เป็นวิธีทางเทคนิคในการแปลง แก้ไข หรือครอบคลุมข้อมูลที่ละเอียดอ่อน เช่น หมายเลขโทรศัพท์มือถือ หมายเลขบัตรธนาคาร และข้อมูลอื่น ๆ เมื่อเราให้กฎและนโยบายการปกปิด เทคนิคนี้ใช้เพื่อป้องกันไม่ให้ข้อมูลที่ละเอียดอ่อนถูกใช้โดยตรงในสภาพแวดล้อมที่ไม่น่าเชื่อถือ
หลักการมาสก์ข้อมูล: การมาสก์ข้อมูลควรรักษาลักษณะข้อมูลดั้งเดิม กฎเกณฑ์ทางธุรกิจ และความเกี่ยวข้องของข้อมูล เพื่อให้แน่ใจว่าการพัฒนา การทดสอบ และการวิเคราะห์ข้อมูลในภายหลังจะไม่ได้รับผลกระทบจากการมาสก์ ตรวจสอบความสอดคล้องและความถูกต้องของข้อมูลทั้งก่อนและหลังการมาสก์
2. การจำแนกการมาสก์ข้อมูล
การมาสก์ข้อมูลสามารถแบ่งออกเป็นการมาสก์ข้อมูลแบบคงที่ (SDM) และการมาสก์ข้อมูลแบบไดนามิก (DDM)
การมาสก์ข้อมูลแบบคงที่ (SDM): การมาสก์ข้อมูลแบบคงที่จำเป็นต้องสร้างฐานข้อมูลสภาพแวดล้อมที่ไม่ใช่การผลิตใหม่สำหรับการแยกออกจากสภาพแวดล้อมการใช้งานจริง ข้อมูลที่ละเอียดอ่อนจะถูกแยกออกจากฐานข้อมูลการใช้งานจริง จากนั้นจัดเก็บไว้ในฐานข้อมูลที่ไม่ใช่การใช้งานจริง ด้วยวิธีนี้ ข้อมูลที่ไม่ละเอียดอ่อนจะถูกแยกออกจากสภาพแวดล้อมการใช้งานจริง ซึ่งตรงตามความต้องการทางธุรกิจ และรับประกันความปลอดภัยของข้อมูลการใช้งานจริง
การมาสก์ข้อมูลแบบไดนามิก (DDM): โดยทั่วไปจะใช้ในสภาพแวดล้อมการผลิตเพื่อลดความไวของข้อมูลที่ละเอียดอ่อนแบบเรียลไทม์ บางครั้งการมาสก์ในระดับที่แตกต่างกันจำเป็นต้องอ่านข้อมูลที่ละเอียดอ่อนเดียวกันในสถานการณ์ที่ต่างกัน ตัวอย่างเช่น บทบาทและการอนุญาตที่แตกต่างกันอาจใช้รูปแบบการมาสก์ที่แตกต่างกัน
การรายงานข้อมูลและแอปพลิเคชันการปิดบังผลิตภัณฑ์ข้อมูล
สถานการณ์ดังกล่าวส่วนใหญ่รวมถึงผลิตภัณฑ์หรือป้ายโฆษณาตรวจสอบข้อมูลภายใน ผลิตภัณฑ์ข้อมูลบริการภายนอก และรายงานที่อยู่บนพื้นฐานของการวิเคราะห์ข้อมูล เช่น รายงานทางธุรกิจและการทบทวนโครงการ
3. โซลูชันการปิดบังข้อมูล
รูปแบบการปกปิดข้อมูลทั่วไปได้แก่: การทำให้เป็นโมฆะ, ค่าสุ่ม, การแทนที่ข้อมูล, การเข้ารหัสแบบสมมาตร, ค่าเฉลี่ย, อ็อฟเซ็ตและการปัดเศษ ฯลฯ
การทำให้เป็นโมฆะ: การทำให้ใช้ไม่ได้หมายถึงการเข้ารหัส การตัดทอน หรือการซ่อนข้อมูลที่ละเอียดอ่อน รูปแบบนี้มักจะแทนที่ข้อมูลจริงด้วยสัญลักษณ์พิเศษ (เช่น *) การดำเนินการนั้นง่ายดาย แต่ผู้ใช้ไม่สามารถทราบรูปแบบของข้อมูลต้นฉบับได้ ซึ่งอาจส่งผลต่อการใช้งานข้อมูลในภายหลัง
ค่าสุ่ม: ค่าสุ่มหมายถึงการสุ่มแทนที่ข้อมูลที่ละเอียดอ่อน (ตัวเลขแทนที่ตัวเลข ตัวอักษรแทนที่ตัวอักษร และอักขระแทนที่อักขระ) วิธีการปกปิดนี้จะรับประกันรูปแบบของข้อมูลที่ละเอียดอ่อนในระดับหนึ่ง และอำนวยความสะดวกในการประยุกต์ใช้ข้อมูลในภายหลัง อาจจำเป็นต้องใช้พจนานุกรมปิดบังคำบางคำที่มีความหมาย เช่น ชื่อบุคคลและสถานที่
การเปลี่ยนข้อมูล: การแทนที่ข้อมูลจะคล้ายกับการมาสก์ค่าว่างและค่าสุ่ม ยกเว้นว่าแทนที่จะใช้อักขระพิเศษหรือค่าสุ่ม ข้อมูลการมาสก์จะถูกแทนที่ด้วยค่าเฉพาะ
การเข้ารหัสแบบสมมาตร: การเข้ารหัสแบบสมมาตรเป็นวิธีการมาสก์แบบย้อนกลับแบบพิเศษ มันเข้ารหัสข้อมูลที่ละเอียดอ่อนผ่านคีย์เข้ารหัสและอัลกอริธึม รูปแบบไซเฟอร์เท็กซ์สอดคล้องกับข้อมูลต้นฉบับในกฎตรรกะ
เฉลี่ย: รูปแบบค่าเฉลี่ยมักใช้ในสถานการณ์ทางสถิติ สำหรับข้อมูลตัวเลข อันดับแรกเราจะคำนวณค่าเฉลี่ย จากนั้นจึงสุ่มกระจายค่า desensitized ไปรอบๆ ค่าเฉลี่ย เพื่อรักษาผลรวมของข้อมูลให้คงที่
การชดเชยและการปัดเศษ: วิธีการนี้จะเปลี่ยนข้อมูลดิจิตอลโดยการสุ่ม การปัดเศษแบบออฟเซ็ตช่วยให้มั่นใจถึงความถูกต้องโดยประมาณของช่วงในขณะที่ยังคงรักษาความปลอดภัยของข้อมูล ซึ่งใกล้เคียงกับข้อมูลจริงมากกว่าแผนงานก่อนหน้านี้ และมีความสำคัญอย่างยิ่งในสถานการณ์ของการวิเคราะห์ข้อมูลขนาดใหญ่
รุ่นที่แนะนำ"ML-NPB-5660" สำหรับการมาสก์ข้อมูล
4. เทคนิคการมาสก์ข้อมูลที่ใช้กันทั่วไป
(1) เทคนิคทางสถิติ
การสุ่มตัวอย่างข้อมูลและการรวมข้อมูล
- การสุ่มตัวอย่างข้อมูล: การวิเคราะห์และประเมินผลชุดข้อมูลต้นฉบับโดยการเลือกชุดย่อยที่เป็นตัวแทนของชุดข้อมูลเป็นวิธีการสำคัญในการปรับปรุงประสิทธิผลของเทคนิคการลบการระบุตัวตน
- การรวบรวมข้อมูล: เนื่องจากเป็นการรวบรวมเทคนิคทางสถิติ (เช่น การบวก การนับ การหาค่าเฉลี่ย สูงสุดและต่ำสุด) ที่นำไปใช้กับคุณลักษณะใน Microdata ผลลัพธ์จึงเป็นตัวแทนของบันทึกทั้งหมดในชุดข้อมูลดั้งเดิม
(2) การเข้ารหัส
การเข้ารหัสเป็นวิธีการทั่วไปในการลดความไวหรือเพิ่มประสิทธิภาพของการลดความไว อัลกอริธึมการเข้ารหัสประเภทต่างๆ สามารถบรรลุผลการลดความไวที่แตกต่างกัน
- การเข้ารหัสที่กำหนด: การเข้ารหัสแบบสมมาตรแบบไม่สุ่ม โดยปกติจะประมวลผลข้อมูล ID และสามารถถอดรหัสและกู้คืนข้อความไซเฟอร์เป็น ID ดั้งเดิมได้เมื่อจำเป็น แต่คีย์จำเป็นต้องได้รับการปกป้องอย่างเหมาะสม
- การเข้ารหัสแบบย้อนกลับไม่ได้: ฟังก์ชันแฮชใช้ในการประมวลผลข้อมูล ซึ่งโดยปกติจะใช้สำหรับข้อมูล ID ไม่สามารถถอดรหัสได้โดยตรง และต้องบันทึกความสัมพันธ์ในการแมปไว้ นอกจากนี้ เนื่องจากคุณลักษณะของฟังก์ชันแฮช อาจเกิดการชนกันของข้อมูลได้
- การเข้ารหัสแบบโฮโมมอร์ฟิก: ใช้อัลกอริธึมโฮโมมอร์ฟิกแบบไซเฟอร์เท็กซ์ คุณลักษณะของมันคือผลลัพธ์ของการดำเนินการไซเฟอร์เท็กซ์จะเหมือนกับการดำเนินการข้อความธรรมดาหลังจากการถอดรหัส ดังนั้นจึงมักใช้ในการประมวลผลช่องตัวเลข แต่ไม่ได้ใช้กันอย่างแพร่หลายด้วยเหตุผลด้านประสิทธิภาพ
(3) เทคโนโลยีระบบ
เทคโนโลยีระงับจะลบหรือป้องกันรายการข้อมูลที่ไม่เป็นไปตามการคุ้มครองความเป็นส่วนตัว แต่ไม่ได้เผยแพร่
- การมาสก์: หมายถึงวิธีการลดความรู้สึกที่พบบ่อยที่สุดในการปกปิดค่าแอตทริบิวต์ เช่น หมายเลขของฝ่ายตรงข้าม บัตรประจำตัวที่มีเครื่องหมายดอกจันกำกับ หรือที่อยู่ถูกตัดทอน
- การระงับเฉพาะที่: หมายถึงกระบวนการลบค่าคุณลักษณะเฉพาะ (คอลัมน์) การลบฟิลด์ข้อมูลที่ไม่จำเป็นออก
- การปราบปรามบันทึก: หมายถึงกระบวนการลบบันทึกเฉพาะ (แถว) การลบบันทึกข้อมูลที่ไม่จำเป็น
(4) เทคโนโลยีนามแฝง
การใช้นามแฝงเป็นเทคนิคการลบการระบุตัวตนที่ใช้นามแฝงเพื่อแทนที่ตัวระบุโดยตรง (หรือตัวระบุที่ละเอียดอ่อนอื่นๆ) เทคนิคการใช้นามแฝงสร้างตัวระบุที่ไม่ซ้ำกันสำหรับหัวข้อข้อมูลแต่ละรายการ แทนที่จะเป็นตัวระบุโดยตรงหรือละเอียดอ่อน
- สามารถสร้างค่าสุ่มได้อย่างอิสระเพื่อให้สอดคล้องกับ ID ดั้งเดิม บันทึกตารางการแมป และควบคุมการเข้าถึงตารางการแมปอย่างเคร่งครัด
- คุณยังสามารถใช้การเข้ารหัสเพื่อสร้างนามแฝงได้ แต่ต้องเก็บคีย์ถอดรหัสไว้อย่างเหมาะสม
เทคโนโลยีนี้ใช้กันอย่างแพร่หลายในกรณีที่มีผู้ใช้ข้อมูลอิสระจำนวนมาก เช่น OpenID ในสถานการณ์แพลตฟอร์มแบบเปิด ซึ่งนักพัฒนาที่แตกต่างกันจะได้รับ OpenID ที่แตกต่างกันสำหรับผู้ใช้รายเดียวกัน
(5) เทคนิคทั่วไป
เทคนิคการวางนัยทั่วไปหมายถึงเทคนิคการไม่ระบุตัวตนที่ลดรายละเอียดของคุณลักษณะที่เลือกในชุดข้อมูล และให้คำอธิบายทั่วไปและเป็นนามธรรมของข้อมูลมากขึ้น เทคโนโลยีการวางนัยทั่วไปนั้นง่ายต่อการนำไปใช้และสามารถปกป้องความถูกต้องของข้อมูลระดับบันทึกได้ มักใช้ในผลิตภัณฑ์ข้อมูลหรือรายงานข้อมูล
- การปัดเศษ: เกี่ยวข้องกับการเลือกฐานการปัดเศษสำหรับคุณลักษณะที่เลือก เช่น นิติเวชขึ้นหรือลง ให้ผลลัพธ์ 100, 500, 1K และ 10K
- เทคนิคการเขียนโค้ดบนและล่าง: แทนที่ค่าที่สูงกว่า (หรือต่ำกว่า) เกณฑ์ด้วยเกณฑ์ที่แสดงถึงระดับบน (หรือล่าง) โดยให้ผลลัพธ์เป็น "เหนือ X" หรือ "ต่ำกว่า X"
(6) เทคนิคการสุ่มตัวอย่าง
ในฐานะที่เป็นเทคนิคการไม่ระบุตัวตนชนิดหนึ่ง เทคโนโลยีการสุ่มหมายถึงการแก้ไขค่าของคุณลักษณะผ่านการสุ่ม เพื่อให้ค่าหลังจากการสุ่มแตกต่างจากมูลค่าจริงดั้งเดิม กระบวนการนี้จะลดความสามารถของผู้โจมตีในการรับค่าแอททริบิวต์จากค่าแอททริบิวต์อื่นๆ ในบันทึกข้อมูลเดียวกัน แต่จะส่งผลต่อความถูกต้องของข้อมูลผลลัพธ์ ซึ่งเป็นเรื่องปกติกับข้อมูลการทดสอบการใช้งานจริง
เวลาโพสต์: Sep-27-2022