1. แนวคิดเรื่องการปกปิดข้อมูล (Data Masking)
การปกปิดข้อมูล (Data masking) หรือที่รู้จักกันในชื่อการซ่อนข้อมูล เป็นวิธีการทางเทคนิคในการแปลง แก้ไข หรือปกปิดข้อมูลที่ละเอียดอ่อน เช่น หมายเลขโทรศัพท์มือถือ หมายเลขบัตรธนาคาร และข้อมูลอื่นๆ โดยอาศัยกฎและนโยบายการปกปิดที่กำหนดไว้ เทคนิคนี้ใช้เป็นหลักเพื่อป้องกันไม่ให้ข้อมูลที่ละเอียดอ่อนถูกนำไปใช้โดยตรงในสภาพแวดล้อมที่ไม่น่าเชื่อถือ
หลักการปกปิดข้อมูล: การปกปิดข้อมูลควรคงไว้ซึ่งลักษณะเฉพาะของข้อมูล กฎทางธุรกิจ และความเกี่ยวข้องของข้อมูลดั้งเดิม เพื่อให้มั่นใจว่าการพัฒนา การทดสอบ และการวิเคราะห์ข้อมูลในภายหลังจะไม่ได้รับผลกระทบจากการปกปิดข้อมูล ตรวจสอบความสอดคล้องและความถูกต้องของข้อมูลทั้งก่อนและหลังการปกปิด
2. การจำแนกประเภทการปกปิดข้อมูล
การปกปิดข้อมูลสามารถแบ่งออกเป็น การปกปิดข้อมูลแบบคงที่ (Static Data Masking: SDM) และการปกปิดข้อมูลแบบไดนามิก (Dynamic Data Masking: DDM)
การปกปิดข้อมูลคงที่ (SDM)การปกปิดข้อมูลแบบคงที่จำเป็นต้องสร้างฐานข้อมูลสภาพแวดล้อมใหม่ที่ไม่ใช่สภาพแวดล้อมการผลิต เพื่อแยกออกจากสภาพแวดล้อมการผลิต ข้อมูลที่ละเอียดอ่อนจะถูกดึงออกจากฐานข้อมูลการผลิตแล้วจัดเก็บไว้ในฐานข้อมูลที่ไม่ใช่การผลิต ด้วยวิธีนี้ ข้อมูลที่ไม่ละเอียดอ่อนจะถูกแยกออกจากสภาพแวดล้อมการผลิต ซึ่งตรงกับความต้องการทางธุรกิจและรับประกันความปลอดภัยของข้อมูลการผลิต
การปกปิดข้อมูลแบบไดนามิก (DDM)โดยทั่วไปแล้วจะใช้ในสภาพแวดล้อมการผลิตเพื่อลดความอ่อนไหวของข้อมูลที่ละเอียดอ่อนแบบเรียลไทม์ บางครั้ง อาจจำเป็นต้องมีการปกปิดข้อมูลในระดับที่แตกต่างกันเพื่ออ่านข้อมูลที่ละเอียดอ่อนเดียวกันในสถานการณ์ที่แตกต่างกัน ตัวอย่างเช่น บทบาทและสิทธิ์ที่แตกต่างกันอาจใช้รูปแบบการปกปิดข้อมูลที่แตกต่างกัน
การรายงานข้อมูลและแอปพลิเคชันการปกปิดข้อมูลผลิตภัณฑ์ข้อมูล
สถานการณ์ดังกล่าวส่วนใหญ่ได้แก่ ผลิตภัณฑ์ตรวจสอบข้อมูลภายในหรือป้ายโฆษณา ผลิตภัณฑ์ข้อมูลบริการภายนอก และรายงานที่อิงจากการวิเคราะห์ข้อมูล เช่น รายงานธุรกิจและการทบทวนโครงการ
3. โซลูชันการปกปิดข้อมูล
วิธีการปกปิดข้อมูลที่ใช้กันทั่วไป ได้แก่ การทำให้ข้อมูลไม่ถูกต้อง การใช้ค่าสุ่ม การแทนที่ข้อมูล การเข้ารหัสแบบสมมาตร การหาค่าเฉลี่ย การชดเชย และการปัดเศษ เป็นต้น
การทำให้เป็นโมฆะการทำให้ข้อมูลเป็นโมฆะ หมายถึง การเข้ารหัส การตัดทอน หรือการซ่อนข้อมูลที่ละเอียดอ่อน โดยปกติแล้ววิธีการนี้จะแทนที่ข้อมูลจริงด้วยสัญลักษณ์พิเศษ (เช่น *) การดำเนินการนั้นง่าย แต่ผู้ใช้ไม่สามารถทราบรูปแบบของข้อมูลต้นฉบับ ซึ่งอาจส่งผลกระทบต่อการใช้งานข้อมูลในภายหลังได้
ค่าสุ่มค่าสุ่มหมายถึงการแทนที่ข้อมูลที่ละเอียดอ่อนแบบสุ่ม (ตัวเลขแทนที่ตัวเลข ตัวอักษรแทนที่ตัวอักษร และอักขระแทนที่อักขระ) วิธีการปกปิดข้อมูลนี้จะช่วยรักษารูปแบบของข้อมูลที่ละเอียดอ่อนได้ในระดับหนึ่ง และอำนวยความสะดวกในการใช้งานข้อมูลในภายหลัง อาจจำเป็นต้องใช้พจนานุกรมปกปิดข้อมูลสำหรับคำที่มีความหมายบางคำ เช่น ชื่อบุคคลและสถานที่
การแทนที่ข้อมูลการแทนที่ข้อมูลนั้นคล้ายกับการปิดบังค่าว่างและค่าสุ่ม แต่แทนที่จะใช้ตัวอักษรพิเศษหรือค่าสุ่ม จะแทนที่ข้อมูลด้วยค่าเฉพาะที่กำหนดไว้
การเข้ารหัสแบบสมมาตรการเข้ารหัสแบบสมมาตรเป็นวิธีการเข้ารหัสแบบพิเศษที่สามารถย้อนกลับได้ โดยจะเข้ารหัสข้อมูลที่ละเอียดอ่อนผ่านกุญแจและอัลกอริธึมการเข้ารหัส รูปแบบของข้อความที่เข้ารหัสแล้วจะสอดคล้องกับข้อมูลต้นฉบับตามกฎตรรกะ
เฉลี่ย: วิธีการหาค่าเฉลี่ย มักใช้ในสถานการณ์ทางสถิติ สำหรับข้อมูลเชิงตัวเลข เราจะคำนวณค่าเฉลี่ยก่อน จากนั้นจึงสุ่มกระจายค่าที่ปรับลดความไวแล้วไปรอบๆ ค่าเฉลี่ย ซึ่งจะทำให้ผลรวมของข้อมูลคงที่
การชดเชยและการปัดเศษวิธีนี้จะเปลี่ยนแปลงข้อมูลดิจิทัลโดยการเลื่อนแบบสุ่ม การปัดเศษชดเชยช่วยให้มั่นใจได้ถึงความถูกต้องโดยประมาณของช่วงข้อมูลในขณะที่รักษาความปลอดภัยของข้อมูล ซึ่งใกล้เคียงกับข้อมูลจริงมากกว่าวิธีการก่อนหน้านี้ และมีความสำคัญอย่างยิ่งในสถานการณ์การวิเคราะห์ข้อมูลขนาดใหญ่
โมเดลแนะนำ "ML-NPB-5660"สำหรับการปกปิดข้อมูล"
4. เทคนิคการปกปิดข้อมูลที่ใช้กันทั่วไป
(1) เทคนิคทางสถิติ
การสุ่มตัวอย่างข้อมูลและการรวบรวมข้อมูล
- การสุ่มตัวอย่างข้อมูล: การวิเคราะห์และประเมินชุดข้อมูลต้นฉบับโดยการเลือกชุดย่อยที่เป็นตัวแทนของชุดข้อมูลนั้น เป็นวิธีการสำคัญในการปรับปรุงประสิทธิภาพของเทคนิคการปกปิดข้อมูลส่วนบุคคล
- การรวมข้อมูล: เป็นการรวบรวมเทคนิคทางสถิติ (เช่น การหาผลรวม การนับ การหาค่าเฉลี่ย ค่าสูงสุด และค่าต่ำสุด) ที่นำมาใช้กับคุณลักษณะในข้อมูลขนาดเล็ก ผลลัพธ์ที่ได้จึงเป็นตัวแทนของข้อมูลทั้งหมดในชุดข้อมูลดั้งเดิม
(2) การเข้ารหัส
การเข้ารหัสเป็นวิธีการทั่วไปในการลดความไวต่อสิ่งเร้าหรือเพิ่มประสิทธิภาพของการลดความไวต่อสิ่งเร้า อัลกอริทึมการเข้ารหัสประเภทต่างๆ สามารถให้ผลลัพธ์ในการลดความไวต่อสิ่งเร้าที่แตกต่างกันได้
- การเข้ารหัสแบบกำหนดได้ (Deterministic encryption): การเข้ารหัสแบบสมมาตรที่ไม่สุ่ม โดยปกติจะประมวลผลข้อมูลประจำตัว และสามารถถอดรหัสและกู้คืนข้อความที่เข้ารหัสแล้วกลับไปเป็นข้อมูลประจำตัวเดิมได้เมื่อจำเป็น แต่ต้องมีการปกป้องกุญแจอย่างเหมาะสม
- การเข้ารหัสแบบไม่สามารถย้อนกลับได้: ฟังก์ชันแฮชถูกใช้ในการประมวลผลข้อมูล ซึ่งโดยทั่วไปจะใช้กับข้อมูลประจำตัว ไม่สามารถถอดรหัสได้โดยตรง และต้องบันทึกความสัมพันธ์ของการจับคู่ไว้ นอกจากนี้ เนื่องจากคุณสมบัติของฟังก์ชันแฮช อาจเกิดการชนกันของข้อมูลได้
- การเข้ารหัสแบบโฮโมมอร์ฟิก: ใช้อัลกอริทึมโฮโมมอร์ฟิกสำหรับการเข้ารหัส ลักษณะเด่นคือ ผลลัพธ์ของการเข้ารหัสจะเหมือนกับผลลัพธ์ของการถอดรหัสข้อความต้นฉบับ ดังนั้นจึงนิยมใช้ในการประมวลผลข้อมูลตัวเลข แต่ไม่แพร่หลายนักเนื่องจากข้อจำกัดด้านประสิทธิภาพ
(3) เทคโนโลยีระบบ
เทคโนโลยีการระงับข้อมูลจะลบหรือปกปิดข้อมูลที่ไม่เป็นไปตามข้อกำหนดด้านการคุ้มครองความเป็นส่วนตัว แต่จะไม่เผยแพร่ข้อมูลเหล่านั้น
- การปกปิดข้อมูล: หมายถึงวิธีการลดความไวต่อข้อมูลที่พบได้บ่อยที่สุด เพื่อปกปิดค่าคุณลักษณะ เช่น หมายเลขคู่ต่อสู้ การทำเครื่องหมายดอกจันบนบัตรประจำตัวประชาชน หรือการตัดทอนที่อยู่
- การระงับข้อมูลเฉพาะส่วน: หมายถึงกระบวนการลบค่าคุณลักษณะ (คอลัมน์) เฉพาะเจาะจง หรือการลบฟิลด์ข้อมูลที่ไม่จำเป็นออกไป
- การระงับข้อมูล: หมายถึงกระบวนการลบข้อมูลเฉพาะ (แถว) ที่ไม่จำเป็นออกไป
(4) เทคโนโลยีนามแฝง
การใช้นามแฝงเป็นเทคนิคการปกปิดข้อมูลส่วนบุคคลที่ใช้นามแฝงแทนตัวระบุตัวตนโดยตรง (หรือตัวระบุตัวตนที่ละเอียดอ่อนอื่นๆ) เทคนิคการใช้นามแฝงจะสร้างตัวระบุเฉพาะสำหรับแต่ละบุคคล แทนที่จะใช้ตัวระบุตัวตนโดยตรงหรือตัวระบุตัวตนที่ละเอียดอ่อน
- สามารถสร้างค่าสุ่มอย่างอิสระเพื่อให้สอดคล้องกับ ID เดิม บันทึกตารางการแมป และควบคุมการเข้าถึงตารางการแมปอย่างเข้มงวด
- คุณสามารถใช้การเข้ารหัสเพื่อสร้างนามแฝงได้เช่นกัน แต่ต้องเก็บรักษาคีย์ถอดรหัสไว้ให้ดี
เทคโนโลยีนี้ถูกนำมาใช้กันอย่างแพร่หลายในกรณีที่มีผู้ใช้ข้อมูลอิสระจำนวนมาก เช่น OpenID ในสถานการณ์แพลตฟอร์มแบบเปิด ซึ่งนักพัฒนาซอฟต์แวร์หลายรายจะได้รับ OpenID ที่แตกต่างกันสำหรับผู้ใช้รายเดียวกัน
(5) เทคนิคการสรุปทั่วไป
เทคนิคการสรุปข้อมูล (Generalization technique) หมายถึงเทคนิคการลดความละเอียดของข้อมูลเฉพาะเจาะจงในชุดข้อมูล เพื่อให้ได้คำอธิบายข้อมูลที่ทั่วไปและเป็นนามธรรมมากขึ้น เทคโนโลยีการสรุปข้อมูลนี้ง่ายต่อการใช้งานและสามารถปกป้องความถูกต้องของข้อมูลระดับระเบียนได้ โดยทั่วไปจะใช้ในผลิตภัณฑ์ข้อมูลหรือรายงานข้อมูล
- การปัดเศษ: เกี่ยวข้องกับการเลือกฐานการปัดเศษสำหรับคุณลักษณะที่เลือก เช่น การปัดขึ้นหรือปัดลง ซึ่งจะให้ผลลัพธ์เป็น 100, 500, 1,000 และ 10,000
- เทคนิคการเข้ารหัสแบบบนและล่าง: แทนที่ค่าที่สูงกว่า (หรือต่ำกว่า) เกณฑ์ด้วยเกณฑ์ที่แสดงถึงระดับบนสุด (หรือล่างสุด) ซึ่งจะให้ผลลัพธ์เป็น "สูงกว่า X" หรือ "ต่ำกว่า X"
(6) เทคนิคการสุ่ม
เทคโนโลยีการสุ่มค่าเป็นเทคนิคการปกปิดตัวตนประเภทหนึ่ง โดยหมายถึงการปรับเปลี่ยนค่าของแอตทริบิวต์ผ่านการสุ่ม เพื่อให้ค่าหลังการสุ่มแตกต่างจากค่าจริงเดิม กระบวนการนี้ช่วยลดความสามารถของผู้โจมตีในการหาค่าแอตทริบิวต์จากค่าแอตทริบิวต์อื่นๆ ในระเบียนข้อมูลเดียวกัน แต่ส่งผลกระทบต่อความถูกต้องของข้อมูลที่ได้ ซึ่งมักพบได้ในข้อมูลทดสอบที่ใช้งานจริง
วันที่โพสต์: 27 กันยายน 2022



