1. แนวคิดของ Data Masking
การปกปิดข้อมูลเรียกอีกอย่างว่าการปกปิดข้อมูล ซึ่งเป็นวิธีการทางเทคนิคในการแปลง แก้ไข หรือปกปิดข้อมูลที่ละเอียดอ่อน เช่น หมายเลขโทรศัพท์มือถือ หมายเลขบัตรธนาคาร และข้อมูลอื่นๆ เมื่อเรากำหนดกฎและนโยบายการปกปิดข้อมูล เทคนิคนี้ใช้เป็นหลักเพื่อป้องกันไม่ให้ข้อมูลที่ละเอียดอ่อนถูกใช้โดยตรงในสภาพแวดล้อมที่ไม่น่าเชื่อถือ
หลักการปิดบังข้อมูล: การปิดบังข้อมูลควรคงลักษณะข้อมูลเดิม กฎทางธุรกิจ และความเกี่ยวข้องของข้อมูลไว้ เพื่อให้แน่ใจว่าการพัฒนา การทดสอบ และการวิเคราะห์ข้อมูลในภายหลังจะไม่ได้รับผลกระทบจากการปิดบังข้อมูล ตรวจสอบความสอดคล้องและความถูกต้องของข้อมูลก่อนและหลังการปิดบังข้อมูล
2. การจัดประเภทการปิดบังข้อมูล
การปิดบังข้อมูลสามารถแบ่งออกได้เป็นการปกปิดข้อมูลแบบคงที่ (SDM) และการปกปิดข้อมูลแบบไดนามิก (DDM)
การปกปิดข้อมูลแบบคงที่ (SDM):การปกปิดข้อมูลแบบคงที่ต้องใช้การจัดตั้งฐานข้อมูลสภาพแวดล้อมที่ไม่ใช่การผลิตใหม่เพื่อแยกออกจากสภาพแวดล้อมการผลิต ข้อมูลที่ละเอียดอ่อนจะถูกแยกออกจากฐานข้อมูลการผลิตแล้วจัดเก็บในฐานข้อมูลที่ไม่ใช่การผลิต ด้วยวิธีนี้ ข้อมูลที่ไม่ละเอียดอ่อนจะถูกแยกออกจากสภาพแวดล้อมการผลิต ซึ่งตอบสนองความต้องการทางธุรกิจและรับรองความปลอดภัยของข้อมูลการผลิต
การปกปิดข้อมูลแบบไดนามิก (DDM):โดยทั่วไปแล้วจะใช้ในสภาพแวดล้อมการผลิตเพื่อลดความไวต่อข้อมูลที่ละเอียดอ่อนแบบเรียลไทม์ บางครั้งอาจต้องใช้ระดับการปกปิดที่แตกต่างกันเพื่ออ่านข้อมูลที่ละเอียดอ่อนเดียวกันในสถานการณ์ที่แตกต่างกัน ตัวอย่างเช่น บทบาทและสิทธิ์ที่ต่างกันอาจใช้รูปแบบการปกปิดที่แตกต่างกัน
แอปพลิเคชั่นการรายงานข้อมูลและการปิดบังข้อมูลผลิตภัณฑ์
สถานการณ์ดังกล่าวส่วนใหญ่ได้แก่ ผลิตภัณฑ์การตรวจสอบข้อมูลภายในหรือป้ายโฆษณา ผลิตภัณฑ์ข้อมูลบริการภายนอก และรายงานที่อิงตามการวิเคราะห์ข้อมูล เช่น รายงานทางธุรกิจและการตรวจสอบโครงการ
3. โซลูชันการปิดบังข้อมูล
แผนการปกปิดข้อมูลทั่วไปได้แก่ การทำให้เป็นโมฆะ ค่าสุ่ม การแทนที่ข้อมูล การเข้ารหัสแบบสมมาตร ค่าเฉลี่ย การชดเชยและการปัดเศษ เป็นต้น
การทำให้เป็นโมฆะ:การทำให้ไม่ถูกต้องหมายถึงการเข้ารหัส การตัดทอน หรือการซ่อนข้อมูลที่ละเอียดอ่อน โครงร่างนี้มักจะแทนที่ข้อมูลจริงด้วยสัญลักษณ์พิเศษ (เช่น *) การดำเนินการนั้นง่าย แต่ผู้ใช้ไม่สามารถทราบรูปแบบของข้อมูลต้นฉบับได้ ซึ่งอาจส่งผลต่อการใช้งานข้อมูลในภายหลัง
ค่าสุ่ม:ค่าสุ่มหมายถึงการแทนที่ข้อมูลที่ละเอียดอ่อนแบบสุ่ม (ตัวเลขแทนที่ตัวเลข ตัวอักษรแทนที่ตัวอักษร และอักขระแทนที่อักขระ) วิธีการปิดบังนี้จะช่วยให้แน่ใจถึงรูปแบบของข้อมูลที่ละเอียดอ่อนในระดับหนึ่งและอำนวยความสะดวกในการใช้งานข้อมูลในภายหลัง อาจจำเป็นต้องใช้พจนานุกรมปิดบังสำหรับคำที่มีความหมายบางคำ เช่น ชื่อบุคคลและสถานที่
การแทนที่ข้อมูล:การแทนที่ข้อมูลจะคล้ายกับการปิดบังค่าว่างและค่าสุ่ม ยกเว้นว่าแทนที่จะใช้ตัวอักษรพิเศษหรือค่าสุ่ม ข้อมูลการปิดบังจะถูกแทนที่ด้วยค่าเฉพาะ
การเข้ารหัสแบบสมมาตร:การเข้ารหัสแบบสมมาตรเป็นวิธีการปกปิดข้อมูลแบบพิเศษที่สามารถย้อนกลับได้ โดยจะเข้ารหัสข้อมูลที่ละเอียดอ่อนโดยใช้คีย์การเข้ารหัสและอัลกอริทึม รูปแบบข้อความเข้ารหัสจะสอดคล้องกับข้อมูลต้นฉบับในกฎตรรกะ
เฉลี่ย:รูปแบบค่าเฉลี่ยมักใช้ในสถานการณ์ทางสถิติ สำหรับข้อมูลเชิงตัวเลข ก่อนอื่น เราจะคำนวณค่าเฉลี่ย จากนั้นจึงกระจายค่าที่ลดความไวแสงไปรอบๆ ค่าเฉลี่ยแบบสุ่ม ซึ่งจะทำให้ผลรวมของข้อมูลคงที่
การชดเชยและการปัดเศษ:วิธีนี้จะเปลี่ยนข้อมูลดิจิทัลโดยการเลื่อนแบบสุ่ม การปัดเศษแบบออฟเซ็ตช่วยให้แน่ใจได้ว่าช่วงข้อมูลมีความถูกต้องโดยประมาณในขณะที่ยังคงความปลอดภัยของข้อมูลไว้ ซึ่งใกล้เคียงกับข้อมูลจริงมากกว่ารูปแบบก่อนหน้านี้ และมีความสำคัญอย่างยิ่งในสถานการณ์การวิเคราะห์ข้อมูลขนาดใหญ่
รุ่นที่แนะนำ "เอ็มแอล-เอ็นพีบี-5660" สำหรับการปิดบังข้อมูล
4. เทคนิคการปิดบังข้อมูลที่ใช้กันทั่วไป
(1). เทคนิคทางสถิติ
การสุ่มตัวอย่างข้อมูลและการรวบรวมข้อมูล
- การสุ่มตัวอย่างข้อมูล: การวิเคราะห์และการประเมินชุดข้อมูลต้นฉบับโดยการเลือกชุดข้อมูลย่อยที่เป็นตัวแทนของชุดข้อมูลถือเป็นวิธีการสำคัญในการปรับปรุงประสิทธิภาพของเทคนิคการระบุตัวตน
- การรวบรวมข้อมูล: เป็นการรวบรวมเทคนิคทางสถิติ (เช่น การหาผลรวม การนับ การหาค่าเฉลี่ย ค่าสูงสุดและค่าต่ำสุด) ที่ใช้กับแอตทริบิวต์ในไมโครดาต้า โดยผลลัพธ์จะเป็นตัวแทนของเรกคอร์ดทั้งหมดในชุดข้อมูลต้นฉบับ
(2). การเข้ารหัส
การเข้ารหัสเป็นวิธีการทั่วไปในการทำให้การลดความไวต่อสิ่งเร้าหรือเพิ่มประสิทธิภาพของการลดความไวต่อสิ่งเร้า อัลกอริธึมการเข้ารหัสประเภทต่างๆ สามารถให้ผลการลดความไวต่อสิ่งเร้าที่แตกต่างกันได้
- การเข้ารหัสแบบกำหนดแน่นอน: การเข้ารหัสแบบสมมาตรแบบไม่สุ่ม โดยปกติจะประมวลผลข้อมูล ID และสามารถถอดรหัสและกู้คืนข้อความเข้ารหัสเป็น ID ดั้งเดิมได้เมื่อจำเป็น แต่จะต้องปกป้องคีย์อย่างเหมาะสม
- การเข้ารหัสแบบย้อนกลับไม่ได้: ฟังก์ชันแฮชใช้ในการประมวลผลข้อมูล ซึ่งโดยปกติใช้สำหรับข้อมูล ID ไม่สามารถถอดรหัสได้โดยตรง และต้องบันทึกความสัมพันธ์การแมป นอกจากนี้ อาจเกิดการชนกันของข้อมูลได้เนื่องจากคุณสมบัติของฟังก์ชันแฮช
- การเข้ารหัสแบบโฮโมมอร์ฟิก: ใช้อัลกอริทึมโฮโมมอร์ฟิกของข้อความเข้ารหัส ลักษณะเฉพาะคือผลลัพธ์ของการดำเนินการข้อความเข้ารหัสจะเหมือนกับผลลัพธ์ของการดำเนินการข้อความธรรมดาหลังจากการถอดรหัส ดังนั้น จึงมักใช้ในการประมวลผลฟิลด์ตัวเลข แต่ไม่ค่อยได้ใช้เนื่องจากเหตุผลด้านประสิทธิภาพ
(3). เทคโนโลยีระบบ
เทคโนโลยีการระงับจะลบหรือป้องกันข้อมูลที่ไม่เป็นไปตามการปกป้องความเป็นส่วนตัว แต่จะไม่เผยแพร่ข้อมูลเหล่านั้น
- การปิดบัง: หมายถึงวิธีการลดความไวต่อสิ่งเร้าที่พบมากที่สุดเพื่อปกปิดค่าแอตทริบิวต์ เช่น หมายเลขของคู่ต่อสู้ บัตรประจำตัวที่มีเครื่องหมายดอกจัน หรือที่อยู่ถูกตัดทอน
- การระงับในพื้นที่: หมายถึงกระบวนการลบค่าแอตทริบิวต์ที่เฉพาะเจาะจง (คอลัมน์) การลบฟิลด์ข้อมูลที่ไม่จำเป็น
- การระงับการบันทึก: หมายถึงกระบวนการลบบันทึกเฉพาะ (แถว) การลบบันทึกข้อมูลที่ไม่จำเป็น
(4). นามแฝงเทคโนโลยี
การใช้ชื่อปลอมเป็นเทคนิคในการระบุตัวตนโดยใช้ชื่อปลอมเพื่อแทนที่ตัวระบุโดยตรง (หรือตัวระบุที่ละเอียดอ่อนอื่นๆ) เทคนิคการใช้ชื่อปลอมจะสร้างตัวระบุเฉพาะสำหรับบุคคลในข้อมูลแต่ละราย แทนที่จะใช้ตัวระบุโดยตรงหรือละเอียดอ่อน
- สามารถสร้างค่าสุ่มได้อย่างอิสระเพื่อให้สอดคล้องกับ ID ต้นฉบับ บันทึกตารางการแมป และควบคุมการเข้าถึงตารางการแมปอย่างเคร่งครัด
- คุณสามารถใช้การเข้ารหัสเพื่อสร้างนามแฝงได้ แต่ต้องเก็บรักษาคีย์การถอดรหัสอย่างถูกต้อง
เทคโนโลยีนี้ใช้กันอย่างแพร่หลายในกรณีที่มีผู้ใช้ข้อมูลอิสระจำนวนมาก เช่น OpenID ในสถานการณ์แพลตฟอร์มเปิด ซึ่งนักพัฒนาต่าง ๆ จะได้รับ Openid ที่แตกต่างกันสำหรับผู้ใช้คนเดียวกัน
(5) เทคนิคการสรุปทั่วไป
เทคนิคการสรุปข้อมูลทั่วไปหมายถึงเทคนิคการระบุตัวตนที่ลดความละเอียดของแอตทริบิวต์ที่เลือกไว้ในชุดข้อมูล และให้คำอธิบายข้อมูลทั่วไปและนามธรรมมากขึ้น เทคโนโลยีการสรุปข้อมูลทั่วไปนั้นนำไปใช้ได้ง่ายและสามารถปกป้องความถูกต้องของข้อมูลระดับเรกคอร์ดได้ โดยทั่วไปแล้วจะใช้เทคนิคนี้ในผลิตภัณฑ์ข้อมูลหรือรายงานข้อมูล
- การปัดเศษ: เกี่ยวข้องกับการเลือกฐานการปัดเศษสำหรับแอตทริบิวต์ที่เลือก เช่น การปัดเศษขึ้นหรือลง ซึ่งจะทำให้ได้ผลลัพธ์ 100, 500, 1K และ 10K
- เทคนิคการเข้ารหัสด้านบนและด้านล่าง: แทนที่ค่าที่อยู่เหนือ (หรือต่ำกว่า) เกณฑ์ด้วยเกณฑ์ที่แสดงถึงระดับบนสุด (หรือล่างสุด) ให้ผลลัพธ์เป็น "เหนือ X" หรือ "ต่ำกว่า X"
(6) เทคนิคการสุ่ม
เทคโนโลยีการสุ่มเป็นเทคนิคการระบุตัวตนชนิดหนึ่ง โดยจะปรับเปลี่ยนค่าแอตทริบิวต์ผ่านการสุ่ม เพื่อให้ค่าหลังการสุ่มแตกต่างจากค่าจริงเดิม กระบวนการนี้จะลดความสามารถของผู้โจมตีในการดึงค่าแอตทริบิวต์จากค่าแอตทริบิวต์อื่นในระเบียนข้อมูลเดียวกัน แต่จะส่งผลต่อความถูกต้องของข้อมูลที่ได้ ซึ่งเป็นเรื่องปกติสำหรับข้อมูลทดสอบการผลิต
เวลาโพสต์: 27-9-2022