လုံခြုံစိတ်ချရတဲ့ AI ကို တီထွင်ခြင်း

Sai Htaung Kham
3 min readAug 10, 2019

--

အပိုင်း (၂) − Differencing Attack အကြောင်းတစ်စေ့တစ်စောင်း

အပိုင်း(၁) ကိုတော့ အောက်က Link မှာ ဝင်ရောက်ဖတ်ရှုနိုင်ပါတယ်။

Took from <https://www.cpomagazine.com/cyber-security/armour-up-top-3-security-trends-watch/>

ကဲ အခုဆိုရင် တတ်သိတဲ့ ပညာရှင်တွေ အနေနဲ့ Bo Bo ဟာ ကင်ဆာဖြစ်လား မဖြစ်ဘူးလားဆိုတဲ့ အချက်ကို အရင်က ဖော်ပြခဲ့တဲ့ Dataset ကို လေ့လာပြီး သိရှိကြပြီလို့ ထင်ပါတယ်။

ကျွန်တော်တို့ အရင်က Post ရဲ့ Dataset ကို ပြန်ပြီးကြည့်ကြရအောင်လားဗျာ...

Public Health Care Dataset for Cancer Population

သေချာလေ့လာကြည့်ပါဗျာ... Cancer Positive Column နေရာမှာ အနည်းဆုံး တန်ဖိုးသည် “0” ဖြစ်ပြီး အများဆုံးတန်ဖိုးသည် “1” ဖြစ်နေတာကို တွေ့မြင်ရပါလိမ့်မယ်။ ဒါကြောင့်ပျောက်နေတဲ့ Bo Bo ရဲ့ တန်ဖိုးသည် “0” သို့မဟုတ် “1” ဖြစ်ပါလိမ့်မယ်။ ကျွန်တော် အတည်​ြေပာတာပါ မနှောက်ပါဘူးဗျာ။ 😅😅

ဒါဆိုပျောက်နေတဲ့ Bo Bo တန်ဖိုးကို ဘယ်လို ပြန်ဖော်မှာလဲပေါ့။ ကျွန်တော်တို့သိတာက Dataset ၂ မှာ Bo Bo တန်ဖိုးပါဝင်ခြင်းမရှိတာကို သိပြီးသားပါ။ အဲ့ဒါကို အခွင့်ကောင်းယူပြီး Dataset ၁ ရဲ့စုစုပေါင်းတန်ဖိုးကို ယူပြီး Dataset ၂ ရဲ့ စုစုပေါင်းတန်ဖိုးထဲကနေ နှုတ်ယူလိုက်ရင် Bo Bo ရဲ့ပျောက်နေတဲ့ တန်ဖိုးရပြီ မဟုတ်ဘူးလားဗျ။ တကယ်လို့ ရလဒ်သည် “0” ဖြစ်မယ်ဆိုရင် Bo Bo သည် ကင်ဆာမဟုတ်ဘူးပေါ့။ “1” ဖြစ်နေရင်တော့ Bo Bo သည် စိတ်မကောင်းစွာ ကင်ဆာဖြစ်နေပြီပေါ့ဗျာ။

Demonstration of Differencing Attack

ကဲ ကျွန်တာ့်ကို မယုံရင် Origina Dataset ကို ဆေးရုံကနေ Hacking လုပ်ပြီး ယူကြည့်ရအောင်ဗျာ။

Original Public Health Care Dataset for Cancer Population

ဟောတွေ့လားဗျ… Bo Bo သည် တကယ့်ကို ကင်ဆာဖြစ်နေတာပါ။ ကျွန်တော်တို့ ဘယ်သူသည် ကင်ဆာဖြစ်တယ် မဖြစ်တယ်ဆိုတဲ့ အချက် Public Dataset ထဲမှာ မသိသလို Bo Bo သည် ကင်ဆာဖြစ်တယ် မဖြစ်တယ်ဆိုတာကို အရင်ကမသိခဲ့ပါဘူး။

သို့သော်ငြားလည်း Statistical Analysis လုပ်ပြီးတဲ့နောက်မှာ Bo Bo သည် ကင်ဆာဖြစ်ကြောင်း ကျွန်တော်တို့ စုံစမ်းနိုင်ခဲ့ပါတယ်။ ဒီလို စုံစမ်းဖော်ထုတ်ခြင်းကို Differential Privacy ဘာသာစကားအရ Differencing Attack လုပ်တယ်လို့ခေါ်ပါတယ်။ တတ်သိပညာရှင်များ နည်းနည်းမူးနေပြီလားဗျ... သေချာပြန်လေ့လာကြည့်ပါဦးဗျာ။

အခုကျွန်တော် ဖော်ပြခဲ့တဲ့ Technique ဟာ Summation ကို အသုံးပြုပြီး Differencing Attack လုပ်သွားတာပါ။ ထိုနည်းတူပဲ Netflix Dataset ကိုလည်း Advanced Mathematic နည်းတွေကို အသုံးပြုပြီး ဖော်ထုတ်သွားခဲ့ပါတယ်။ ကျွန်တော် Differential Privacy ကိုလေ့လာနေတုန်း Paper တစ်ခုကိုတွေ့မိခဲ့ပါတယ်။ အဲ့ဒီ Paper ဟာ Netflix ရဲ့ Public Dataset ကို De-anonymized လုပ်သွားတယ်ဆိုတာကို အသေးစိတ် ဖော်ပြပေးထားပါတယ်။ ကျွန်တော်ကတော့ ပြန်မရှာပေးတော့ပါဘူး။ စိတ်ဝင်စားရင်တော့ အင်တာနက်မှာရှာ ကြည့်ကြပါဗျာ။

ဒါနဲ့ Dataset ရဲ့ Column တန်ဖိုး ကိုကြည့်ပြီး “1” သည် အများဆုံးတန်ဖိုးဖြစ်နေတာကို တွေ့ရပါလိမ့်မယ်။ Differential Privacy ဘာသာစကားမှာတော့ အဲ့ဒီတန်ဖိုးဟာ Sensitivity လို့ခေါ်ပါတယ်။

တစ်နည်းအားဖြင့် လူတစ်ယောက် (သို့) Row တစ်ခုကို ဖျက်လိုက်တဲ့အချိန်မှာ Dataset တစ်ခုမှာ အများဆုံးပြောင်းလဲနိုင်တဲ့ တန်ဖိုးကို ဆိုလိုတာပါ။

ကျွန်တော်တို့ Differential Privacy ဘာသာရပ်မှာ Dataset တစ်ခုကို Query (ရယူပြီး) လုပ်ပြီး အဲ့ဒီ Query ကနေ Information Leakage (လျှို့ဝှက်ထားသော အချက်အလက်ကို ပြန်လည် ဖော်ထုတ်နိုင်မှု) ဘယ်လောက်ဖြစ်နိုင်တာလဲဆိုတာကို Sensitivity တန်ဖိုးနဲ့ တိုင်းတာကြပါတယ်။ Sensitivity တန်ဖိုးမြင့်လေလေ Information Leakage ဖြစ်နိုင်ခြေများလေဖြစ်ပြီး Sensitivity တန်ဖိုးနည်းရင်တော့ Information Leakage ဖြစ်နိုင်​ြေခနည်းတယ်လို့ ယူဆလို့ရပါတယ်။

နောက်တစ်ခု Technical Term အနေနဲ့ဖော်ပြရင် ကျွန်တော်တို့ ဥပမာမှာ အသုံးပြုခဲ့တဲ့ Public Dataset 1 ကို Full Dataset (သို့) Full Database လို့ခေါ်ပါတယ်။ ဘာဖြစ်လို့လဲ ဆိုတော့ သူ့မှာ User ၇ ယောက် အပြည့်အစုံပါရှိနေလို့ပါပဲ။ Public Dataset 2 ကိုတော့ Parallel Dataset (သို့) Parallel Database လို့ခေါ်ပါတယ်။ Full Database ကနေ ကြိုက်နှစ်သက်ရာ User တစ်ယောက် (သို့) Row တစ်ကြောင်းဖျောက်ထားရင် Differential Privacy ဘာသာစကားအရ Parallel Database လို့ခေါ်ကြပါတယ်။ အသေးစိတ်ကိုတော့ ကျွန်တော် မသွားတော့ပါဘူး။ အသေးစိတ်သိချင်ရင် Udacity ရဲ့ Secure and Private AI Course မှာ အခမဲ့ ဝင်ရောက်လေ့လာနိုင်ပါတယ်ဗျာ။ ဒီ Post ရဲ့ ရည်ရွယ်ချက်ကတော့ တတ်သိပညာရှင်များ Differential Privacy အကြောင်း အကြမ်းဖျင်း နားလည်အောင် ရှင်းပြဖို့ပဲ ဖြစ်ပါတယ်။

ဟုတ်ပါပြီဗျာ Differential Privacy ရဲ့အဓိပ္ပါယ်ကို ဖွင့်ဆိုကြည့်ရအောင်လားဗျာ...

Differential Privacy : You will not be affected, adversely or otherwise, by allowing your data to be used in any study or analysis, no matter what other studies, datasets, or information sources, are available.

အပေါ်က စာပိုဒ်လေးကို အဆင်ပြေသလို ဘာသာပြန်ရမယ်ဆိုရင်

သင်သည် မည်သည့်အကြောင်းကြောင်းကြောင့် သင့် အချက်အလက်ကို စာရင်းအင်းပညာ၊ အချက်အလက်ကို လေ့လာစမ်းစစ်ခြင်း၊ တခြားနည်းပညာတွင် လေ့လာရန် အသုံးပြုခွင့်ပေးခြင်းဖြင့် တိုက်ရိုက်၍သော်လည်းကောင်း၊ သွယ်ဝိုက်၍သော်လည်းကောင်း ထိခိုက်နှစ်နာမှု မရှိစေရ။

လူပိန်း နားလည်အောင်ရှင်းပြပါဆိုရင်တော့ သင့်အချက်အလက်တွေကို မည်သည့်နေရာတွင် ဖြစ်စေ ပေးသုံးခြင်းအားဖြင့် အချက်အလက်ကို လေ့လာစမ်းစစ်တဲ့လူသည် အချက်အလက်ကို မည်သည့် အဆင့်မြင့်နည်းပညာကို မဆို အသုံးပြုပြီး စမ်းစစ်နေပါစေ စမ်းစစ်မှု ပြီးတဲ့အချိန်မှာ အဲ့ဒီလေ့လာစမ်စစ်တဲ့သူဟာ သင့်အချက်အလက်ကို လုံးဝမသိနိုင်ဘူး ပြန်ဖော်လို့မရဘူးဆိုရင် သင့်အချက်အလက်ဟာ လုံခြုံတယ် လို့ဆိုလိုတာပါ။

ကျွန်တော်တို့ ဆေးရုံရဲ့ အချက်အလက်ဟာ မလုံခြုံဘူးပေါ့။ လျှို့ဝှက်ထားတာတောင် ပြန်ဖော်နိုင်သေးတယ်လေ။ အဲ့ဒါဆို Public Dataset တွေအနေနဲ့ Public လည်းလုပ်ချင်တယ် Privacy လည်းထိန်းထားချင်တယ်။ ဘယ်လို လုပ်ရမှာလဲ။ ဒီမေးခွန်းဟာ Differential Privacy ဆိုတဲ့ ဘာသာရပ်တစ်ခုကို ထွန်းကားစေခဲ့တယ်။

Differential Privacy ဟာ လူတစ်ဦးတစ်ယောက်ရဲ့ Data ကို ဘယ်လို ကာကွယ်မှာလဲ၊ Private Dataset ကို Public လုပ်ရင်တောင် လုံခြုံအောင် ဘယ်လို Public လုပ်မှာလဲ စတဲ့နည်းပညာကို လေ့လာတဲ့ ဘာသာရပ်ပဲ ဖြစ်ပါတယ်။ ဒီနည်းပညာဟာ ၂၀၀၃ ခုနှစ်ကစပြီး တွင်တွင်ကျယ်ကျယ် အသုံးပြုလာ ကြတယ်လို့ သိရပါတယ်။

ဟုတ်ပါပြီ Dataset တွေကို Public မလုပ်ခင် Privacy အပြည့်နဲ့ ဘယ်လိုကာကွယ်မှာလဲ ဆိုတဲ့ နည်းပညာနဲ့ပတ်သက်ပြီး လာမယ့် Post တွေမှာ အကြမ်းဖျင်းဖေါ်ပြသွားပါမယ်။👋👋

Reference

Some parts of the knowledge expressed on this blog is referenced from Secure and Private AI Course of Udacity.

--

--

Sai Htaung Kham

Research Engineer working on AI. Make things work beyond its limitation.