လုံခြုံစိတ်ချရတဲ့ AI ကို တီထွင်ခြင်း

Sai Htaung Kham
7 min readAug 11, 2019

--

အပိုင်း(၃) − Local Differential Privacy

အပိုင်း(၂) ကိုတော့ အောက်ဖော်ပြပါ Link ကနေ ဝင်ရောက်ဖတ်ရှုနိုင်ပါတယ်ခင်ဗျာ

ပြီးခဲ့တဲ့ အပိုင်းမှာတော့ ကျွန်တော် Public Dataset ကို Differencing Attack နည်းကို အသုံးပြုပြီး Public Dataset ကို De-anonymization လုပ်ပြခဲ့ပါတယ်။ Public Dataset မှာ ဘယ်လောက်ပဲ ပုဂ္ဂိုလ်ဆိုင်ရာ အသေးစိတ် အချက်အလက်တွေကို ဖျက်ထားနေပါစေ အဆင့်မြင့် သင်္ချာနည်းပညာကို အသုံးပြုပြီး ပြန်ဖော်နိုင်တယ်ဆိုတာကို တတ်သိပညာရှင်များ မျက်ဝါးထင်ထင် မြင်တွေ့ပြီးသားဖြစ်မှာပါ။ ဒီတော့ ကျွန်တော့်ကို မေးကောင်းမေးကြပါလိမ့်မယ်။ Private Dataset တွေကို Privacy မပေါက်ကြားအောင် Public Dataset အဖြစ် အင်တာနက်ပေါ်မှာ လုံခြုံစိတ်ချရစွာ တင်နိုင်မယ့် နည်းလမ်းများမရှိဘူးလားပေါ့။ ရှိတာပေါ့ဗျာ။

အဲ့ဒီလို လုပ်နိုင်မယ့် နည်းလမ်းနှစ်သွယ်ရှိပါတယ်။

(၁) Local Differential Privacy

(၂) Global Differential Privacy တို့ပဲဖြစ်ပါတယ်။

ဒီ Post မှာတော့ ကျွန်တော်တို့ Local Differential Privacy နဲ့ပတ်သက်ပြီး ဆွေးနွေးသွားမှာပဲဖြစ်ပါတယ်။

ဒါဆိုရင် ကျွန်တော်တို့ အရင် Dataset ကို ခဏလောက်ပြန်ကြည့်ရအောင်ဗျာ...

Original Public Health Care Dataset for Cancer Population

အဲ့ဒီ Dataset ကို ကျွန်တော်တို့ လူနာမည်နေရာမှာ တခြား Random နံပါတ်ပဲဖြစ်ဖြစ်၊ Character A, B, C စတဲ့ နှစ်သက်ရာ Random အက္ခရာနဲ့ပဲ ဖြစ်ဖြစ် အစားထိုးလိုက်ပြီး Public Dataset အဖြစ် အင်တာနက်ပေါ်မှာ တင်ရင်တောင် လျှို့ဝှက်ထားတဲ့ အချက်အလက်တွေကို ပြန်လည် ဖော်ပေးနိုင်တယ်ဆိုတာ အပိုင်း(၂) မှာကတည်းက တွေ့မြင်ပြီးသားပါ။ ဒါဆိုရင် ကျွန်တော်တို့ Dataset ကို အနည်းငယ် အပြောင်းအလဲလုပ်ပြီး Public Dataset အဖြစ်အင်တာနက်ပေါ်တင်ရင် Differencing Attack ကို ကာကွယ်နိုင်ပါတယ်။ ဒါပေမယ့် Data Accuracy (Data ရဲ့တိကျမှု ဂုဏ်သတ္တိ) ကိုတော့ လျော့ကျစေနိုင်ပါတယ်။

ဥပမာ အဲ့ဒီ Private Dataset တွေရဲ့ Random Row တွေမှာ Noise ထပ်ပေါင်းပေးတာ။ တစ်နည်းအားဖြင့် နှစ်သက်ရာ Row တချို့ တွေမှာ 0 ဖြစ်နေတာကို 1 ပြောင်းတာ၊ 1 ဖြစ်နေတာကို 0 ပြောင်းတာကို ဆိုလိုတာပါ။ ဒါပေမယ့် သတိထားရမှာကတော့ Private Dataset တွေမှာ Noise ပေါင်းတာများလေလေ Dataset ရဲ့မှန်ကန်တိကျမှု လျော့နည်းလေပါပဲ။ အဲဒီလို Private Dataset ရဲ့ Data Entry (Row) တစ်ခုချင်းဆီကို Noise ထပ်ပေါင်းထည့်တဲ့နည်းကတော့ Randomized Response လုပ်တယ် လို့ခေါ်ကြပါတယ်။

Adding Noise to the Private Dataset

ဒါပေမယ့် တတ်သိပညာရှင်တွေ အနေနဲ့ ကျွန်တော့်ကိုမေးကြပါလိမ့်မယ်။ Private Dataset တွေမှာ Noise ကို ပေါင်းထည့်လိုက်ရင် ရလဒ်အမှားကြီးရလာမှာပေါ့။ အဲ့ဒါဆိုရင် Public လုပ်လိုက်တဲ့ Dataset ဟာ ဘယ်လိုလုပ်ပြီး မှန်ကန်မှုတွေရှိနိုင်တော့မှာလဲ စတဲ့မေးခွန်းတွေ မေးနိုင်ပါတယ်။ အဲ့ဒါကတော့ De-Noising လုပ်တဲ့ နည်းတွေရှိပါတယ်။ အဲ့ဒီ De-Noising လုပ်တဲ့နည်းကိုတော့ တခြား Example အနေနဲ့ဖော်ပြပေးမှာပါ။

Noise တွေကို ဖယ်ရှားတဲ့နည်းတွေ မရှင်းပြခင် ကျွန်တော်တို့ အရေးပါတဲ့ Concept လေးတစ်ခုကို လေ့လာဖို့ အရေးကြီးပါတယ်။ အဲ့ဒါတွေက ဘာတွေလဲဆိုလို့ရှိရင် Plausible Deniability ပဲဖြစ်ပါတယ်။ မြန်မာလိုဘာသာပြန်ရမှာတော့ အရမ်းကိုခက်ပါတယ် ကျွန်တော့်အတွက်။ ဖြစ်ရပ်တစ်ခုကို ကန့်ကွက်နိုင်မှုရှိခြင်း ငြင်းဆိုနိုင်မှုရှိခြင်း လို့ပဲ ဘာသာပြန်ရမှာဖြစ်ပါတယ်။

ဥပမာ တစ်ခု အနေနဲ့ရှင်းပြပါမယ်။ ကျွန်တော်တို့ Survey (စစ်တမ်းကောက်) လုပ်တဲ့အချိန်မှာ ​ြေဖဆိုတဲ့လူထံမှ အဖြစ်နိုင်ဆုံးအဖြေမှန်ကို ရချင်ကြပါတယ်။ ဘာလို့လဲဆိုတော့ စာရင်းဇယားအတွက် အရေးပါလို့ပါပဲ။ အ​ြေဖမှန်တွေ မရနိုင်ဘဲ Survey လုပ်လို့လဲ ဘာမှ မထူးဘူးလေ။ အချိန်ကုန် လူပင်ပန်းသက်သက်သာ အဖတ်တင်ပါတယ်။ ဒါဆို ကျွန်တော်က တတ်တိပညာရှင်တွေကို Survey တစ်ခုမေးပါမယ်ဆိုပါဆို့။ Survey ရဲ့ခေါင်းစဥ်ကတော့ "မိဘ တွေရဲ့ ပိုက်ဆံကို ခိုးဖူးလား" ဆိုတဲ့ Survey ဆိုပါဆို့။ အဲ့ဒီ Survey ကို တတ်သိပညာရှင်ဆီမှာ စာရွက်အနေနဲ့ ကျွန်တော် ကမ်းလှမ်းပြီး ကျွန်တော့ကို ဒီ Survey လေး ရိုးသားစွာ မှန်မှန်ကန်ကန် ဖြည့်ပေးပါဗျာ လို့တောင်းလာတဲ့အချိန်မှာ တတ်သိပညာရှင်တွေအနေနဲ့ ခိုးဖူးပါတယ် (မခိုးဖူးပါဘူး) စတဲ့ အဖြေထက် မခိုးဖူးပါဘူး ဆိုတဲ့ ဖြစ်စဥ်ကို ဖြေပေးဖို့ အခွင့်အရေးက များမယ်ထင်ပါတယ်။ ကျွန်တော် ကိုယ်တိုင်ကငယ်ငယ်တုန်းကတော့ မိဘတွေရဲ့ ပိုက်ဆံကို မိဘမသိဘဲ ယူပြီး မုန့်တွေ ဝယ်စားဖူးပါတယ်။ ဒါလည်း ခိုးတာပါပဲလေ။ ဒါပေမယ့် အဲ့လို လူတကာ ကတိကအောင့် ဖြစ်စေတဲ့ မေးခွန်းတွေ ပြစ်မှုမြောက်တဲ့ မေးခွန်းတွေကို မေးတဲ့အချိန်မှာ ရလာနိုင်တဲ့ အ​ြေဖဟာ မှန်ကန်မှု သိပ်ရှိမှာ မဟုတ်ပါဘူး။ ဘာလို့လဲဆိုတော့ ရှက်တာလည်း ဖြစ်နိုင်သလို တချို့မေးခွန်းတွေဟာ ပြစ်မှုမြောက်တဲ့ မေးခွန်းတွေ ဖြစ်နိုင်ပြီး ကိုယ်က လုပ်ဖူးတယ်လို့ ​ဖြေရင် ပြစ်မှုတွေကျူးလွန်မိပြီး တစ်စုံတစ်ရာများ ဖြစ်လေမလား စတဲ့ စိုးရိမ်းပူပန်မှုတွေကြောင့် Survey တွေကို ဖြေဆိုချိန်မှာ လူတော်တော်များများ ဟာ မှန်မှန်ကန်ကန် ​ြေဖဆိုပေးကြမှာ မဟုတ်ပါဘူး။

အဲ့ဒီတော့ ဘယ်လို Survey မျိုးတွေမဆို လူတွေဆီက အ​ြေဖကို မှန်မှန်ကန်ကန် ရယူဖို့ နည်းလမ်းတွေကို ပညာရှင်တွေက တီထွက်ကြံဆလာပါတော့တယ်။ အဲ့ဒီထဲက နည်းတစ်ခုကတော့ အောက်ပါအတိုင်း Survey ဖြေတဲ့လူတွေကိုရှင်းပြပြီး Survey ကို ဖြေဆိုခိုင်းပါတယ်။

(၁) Survey ​ြေဖခိုင်းမယ့်လူကတော့ ​ြေဖဆိုမယ့်လူကို Coin (အကြွေစေ့) (၁) စေ့ပေးပါတယ်။

(၂) Survey မ​ြေဖခင် ​ြေဖဆိုမယ့်သူဟာ အကြွေစေ့ကို တစ်ခါ သို့မဟုတ် နှစ်ခါ လှိမ့်ပါမယ်။ ဒါပေမယ့် အကြွေစေ့ လှိမ့်တဲ့အချိန်မှာ Survey ဖြေခိုင်းတဲ့လူက အဲ့ဒီ အကြွေစေ့ လှိမ့်နေတာကို မကြည့်ရပါဘူး။ ​ြေဖဆိုသူကလွဲလို့ အကြွေစေ့ကို လှိမ့်ပြီး ခေါင်း (သို့) ပန်း ရလဒ်ဟာ ​ြေဖဆိုသူကလွဲပြီး ဘယ်သူမှ မသိရပါဘူး။

(၃) တကယ်လို့ ပထမအကြိမ် အကြွေစေ့ လှိမ့်ပြီးထွက်လာတဲ့ ရလဒ်ဟာ ခေါင်း ဖြစ်နေမယ်ဆိုရင် Survey ဖြေဆိုမယ့်သူဟာ ရိုးသားမှန်ကန်စွာ Survey ရဲ့မေးခွန်းတွေကို ဖြေပေးရပါမယ်။ တကယ်လို့ ပထမ အကြွေစေ့ရဲ့ ရလဒ်ဟာ ပန်း ဖြစ်နေမယ်ဆိုရင် အကြွေစေ့ကို နောက်တစ်ခါ ထပ်လှိမ့်ရပါမယ်။

(၄) ဒုတိယအကြိမ်မြောက်အကြွေစေ့ရဲ့ရလဒ်ဟာ တကယ်လို့ ခေါင်းဖြစ်နေမယ်ဆိုရင် ဖြေဆိုသူအနေနဲ့ လုပ်ဖူးတယ် (သို့) မှန်ကန်တယ်လို့ ​ြေဖရပါမယ်။ တကယ်လို့ ပန်း ဖြစ်နေရင် မလုပ်ဖူးဘူး (သို့) မမှန်ကန်ဘူးလို့ဖြေရပါမယ်။

အထက်ဖော်ပြပါ ဖြစ်စဥ်ကို ကြည့်ခြင်း၊ လုပ်ဆောင်ခြင်း အားဖြင့် စာရင်းအင်း သင်္ချာအရ ကျွန်တော်တို့ရဲ့ Survey သည် တိကျမှန်ကန်တဲ့ ရလဒ်ရလာဖို့ အခွင့်အရေးပိုများ နေပါလိမ့်မယ်။ ဘာလို့လဲဆိုတော့ ခဏနေရင် ကျွန်တော် သင်္ချာတွက်နည်းနဲ့ သက်သေပြပေးပါမယ်။

ဒါပေမယ့် လူပိန်းနားလည်အောင် ရှင်းရရင်တော့ ​ြေဖဆိုတဲ့လူသည် လုပ်ဖူးတယ်၊ ပြစ်မှုကျူးလွန်ဖူးတာကို ဝံ့ဝံ့ရဲရဲ ​ြေဖဆိုနိုင်သလို၊ တကယ်လို့ ဖြေဆိုတဲ့လူဟာ ပြစ်မှုကျူးလွန်ထားတယ်ထားဦး ဘယ်လိုမှ ပြန်လည် အပြစ်ယူလို့မရပါဘူး။ ဘာကြောင့်လို့ထင်ပါသလဲ။ စာဖတ်နေတဲ့ တတ်သိပညာရှင်တွေ ကျွန်တော် ဖြေရှင်းချက်မပေးခင် အရင်ဆုံးစဥ်းစားကြည့်ပါဦးဗျာ။

အဖြေ ။ ။

ဘာလို့လဲဆိုတော့ တကယ်လို့ ကျွန်တော်သည် ပြစ်မှု ကျူးလွန်ဖူးတယ်ဆိုပါတော့။ Survey မှာ မေးထားတာလည်း ကျွန်တော် ကျူးလွန်ထားတဲ့ ပြစ်မှုနဲ့ ကွက်တိဖြစ်နေတယ် ထားပါတော့။ အဲ့ဒီ အချိန်မှာ ကျွန်တော်ဟာ ဝန်မလေးပဲ ကျွန်တော် ပြစ်မှုကျူးလွန်ထားတာကို ဖြေဆိုနိုင်ပါတယ်။ Survey မေးတဲ့သူကလည်း မင်းအဲ့ဒီ ပြစ်မှု ကျူးလွန်ထားတဲ့ အတွက်ကြောင့် မင်းကို ဖမ်းမယ် လုပ်လို့မရပါဘူး။ ကျွန်တော် တစ်ခုပြန်ပြောနိုင်တာကတော့ ကျွန်တော်သည် အကြွေစေ့ရဲ့ ရလဒ်ပေါ်မူတည်ပြီး ဖြေထားတာပါ။ Survey ကောက်တဲ့ လူအနေနဲ့ အဲ့ဒီအ​ြေဖဟာ မှန်ကန်တယ်လို့ ဘယ်လိုသက်သေပြနိုင်မှာလဲ။ ဟုတ်တယ်မဟုတ်လားဗျာ။ အဲ့ဒီလို ​ြေဖဆိုတဲ့လူဘက်ကို အကာအကွယ်ပေးတဲ့ စနစ်ကို Plausible Deniability လို့ခေါ်ပါတယ်။ Survey ကောက်တဲ့လူရော ဖြေဆိုတဲ့ လူပါ Win Win ဖြစ်နေတဲ့အ​ြေခအနေပါ။ Survey ရဲ့ရလဒ်ဟာ မှန်ကန်မှု ပိုရှိသလို ​ြေဖဆိုတဲ့လူဘက်ကလည်း စိတ်အေးအေးနဲ့ ဖြေဆိုနိုင်ပါတယ်။

ဒါပေမယ့် တတ်သိပညာရှင်တွေအနေနဲ့ သိပ်ပြီး ပျော်မနေပါနဲ့ဦး။ ကျွန်တော်တို့ Survey ရဲ့ ရလဒ်ဟာ ၁၀၀ % နှုန်း မှန်ကန်မှု မရှိသေးပါဘူး။ ဘာလို့လဲဗျ။ ထပ်ပြီးစဥ်းစားကြည့်ပါဦး။

Explanation of Noise added due to Plausible Deniability

အပေါ်က ဘယ်ကထောင့်ကပုံကို ကြည့်မယ်ဆိုရင် ကျွန်တော်ဟာ အကြွေစေ့ကို အများဆုံး ၂ ခါ လှိမ့်ပါတယ်။ အကြွေစေ့ (၁) ခါပဲ လှိမ့်စရာလိုရင်တော့ မှန်ကန်တဲ့ အ​ြေဖကိုရမှာပါ။ ဒါပေမယ့် ကံမကောင်းစွာပဲ ပထမ အကြွေစေ့ရဲ့ ရလဒ်ဟာ ပန်း ဖြစ်နေမယ်ဆိုရင် ကျွန်တော်တို့ ရမယ့် အဖြေဟာ သေချာမှု မရှိတော့ပါဘူး။ ဘာလို့လဲဆိုတော့ ​ြေဖဆိုတဲ့ရလဒ်ဟာ ဒုတိရ​ြေမာက်အကြွေစေ့ရဲ့ ရလဒ်ပေါ်မူတည်ပြီး ဖြေဆိုရမှာ ဖြစ်တဲ့အတွက်ကြောင့်ပါ။ ဒါကြောင့် ကျွန်တော်တို့ Survey ရဲ့ရလဒ်ဟာ Noise တွေပါနေတယ်လို့ ပြောလို့ရပါတယ်။

အခုကစပြီး ကျွန်တော် သင်္ချာ အပိုင်းကို နည်းနည်း သွားပါမယ်။ ဘယ်ဘက် ကော်လံမှာ ဖော်ပြထားတဲ့ သင်္ချာ Equation ကိုကြည့်ပါ။ ကျွန်တော်တို့ လုပ်ဆောင်လိုက်တဲ့ (အကြွေစေ့ လှိမ့်ပြီး​ြေဖခိုင်းတဲ့) ဖြစ်စဥ်ကို သင်္ချာနည်းအရ (Probability) ကိုကြည့်မယ်ဆိုရင်၊ ပထမအကြွေစေ့လှိမ့်တဲ့အချိန်မှာ ခေါင်း ၅၀% (ဟုတ်တယ်)၊ ပန်း ၅၀% (မဟုတ်ဘူး) ဆိုတဲ့ ဖြစ်နိုင်ခြေ ၁၀၀ % ရှိပါတယ်။ နောက် ဒုတိယ အကြွေစေ့ လှိမ့်တဲ့အချိန်မှာလည်း ထိုနည်းတူပဲ ခေါင်း (၅၀%)၊ ပန်း(၅၀%) ဖြစ်နိုင်ချေ စုစုပေါင်း (၁၀၀%) ရှိပါတယ်။ ကျွန်တော်တို့ ဆယ်တန်းရောက်ပြီဆိုကတည်းက Probaility နဲ့ပတ်သက်ပြီး သင်ဖူးမှာပါ။ အကြွေစေ့တစ်ခုကို လှိမ့်ရင် ခေါင်းဖြစ်နိုင်​ြေခ ၅၀% ရှိပြီး ပန်းဖြစ်နိုင်​ြေခ ၅၀% ရှိတယ်ဆိုတာ သိပြီးသားပါ။ 💡

ဒါပေမယ့် Survey ရဲ့ရလဒ်မှာတော့ အကြွေစေ့ (၂) ခုလုံးရဲ့ Probability Distribution (ဖြစ်နိုင်​ြေခ) ကိုပေါင်းထားတဲ့ရလဒ်ပါ။ ဒါပေမယ့် ကျွန်တော်တို့သည် Probability နိယာမအရ မည်သို့ပင်ဖြစ်စေကာမူ ဖြစ်စဥ်တစ်ခုရဲ့ Probability သည် အားလုံးပေါင်းလိုက်လျှင် ၁၀၀% (ကိန်းပြည့် ၁) သာရှိရပါမည်။ အခုကျွန်တော်တို့ ပေါင်းလိုက်တော့ ၂၀၀ % ဖြစ်နေပါတယ်။🤔🤔

ဒါဆိုရင် ဘယ်လို​ြေဖရှင်းမှာလဲပေါ့။ ဒါကတော့ လွယ်ပါတယ်။ ပျမ်းမျှရှာလိုက်ရင် ပြီးသွားတာပဲလေ။😅😅

ဒီအဆင့်ထိ အဆင်ပြေကြလားဗျ။ နောက်ထပ်နည်းနည်းရှုပ်တဲ့ Formula ကို ဆက်သွားရမှာမို့ မရှင်းသေးရင် ခဏရပ်ပြီး စဥ်းစားကြည့်ကြပါဗျာ။

ဒါဆိုရင် Actual Survey Result မှာ ကျွန်တော်တို့ Noise ရှိနေတဲ့အချိန်မှန်သမျှ စစ်မှန်တဲ့ Survey Result ကို ရရှိမှာ မဟုတ်ပါဘူး။ ဒါဆို Noise ကို ဘယ်လိုဖယ်ရှားမှာလဲပေါ့။ ကံကောင်းစွာပဲ ကျွန်တော်တို့ အရင်ခေတ်က သင်္ချာ ပညာရှင်တွေဟာ Law of Large Numbers ကို တီထွင်ခဲ့တဲ့ အတွက်ကြောင့် ကျွန်တော်တို့ ပြသနာကို ဖြေရှင်းဖို့အတွက် အထောက်အကူ အများကြီးပြုသွားတာကို မြင်တွေ့ရမှာဖြစ်ပါတယ်။

Law of Large Numbers

Law of Large Numbers အကြောင်းအကြမ်းဖျင်းရှင်းပြရမယ်ဆိုရင် ကျွန်တော်တို့ Event တစ်ခု (ဖြစ်စဥ်တစ်ခု) ကို Probability Distribution အတွင်းထဲမှာ အကြိမ် အကန့်အသတ်မရှိ လုပ်ဆောင်ရင် ၎င်းဖြစ်စဥ် (Probability Distribution) ရဲ့ Expected Value သည် ယင်း Event (ဖြစ်စဥ်ရဲ့) ပျမ်းမျှတန်ဖိုးနဲ့ ညီမျှသည်။

ရှုပ်သွားပြီမဟုတ်လား ဆောရီးပါ ကျွန်တော်လည်း ရှင်းအောင် မရှင်းတတ်လို့ပါ။ အဲ့ဒီ နည်းပညာစကားလုံးတွေကတော့ မြန်မာမှာ ရှိမယ်လို့မထင်ပါဘူး။ ရှိမယ်ဆိုရင်တောင် ကျွန်တော်မသိတာပါ။ ဟုတ်ပါပြီ ဥပမာ အနေနဲ့ ရှင်းပြပါမယ်။

အံစာတုံး တစ်တုံးကို လှိမ့်တဲ့ ဖြစ်စဥ်တစ်ခုလုပ်မယ် ဆိုပါဆို့။ အံစာတုံးတစ်ကြိမ်လှိမ့်တဲ့အချိန်မှာ ရလာနိုင်တဲ့ ရလဒ်ဟာ ၁ ကနေ ၆ အထိဖြစ်နိုင်ပါတယ်။ တကယ်လို့သာ အဲ့ဒီ အံစာတုံးကို ၆ ကြိမ်လှိမ့်ပြီး ပျမ်းမျှရလဒ် တန်ဖိုးကို ရှာပါဆိုရင်တော့ လွယ်ပါတယ်။ ရလဒ် ၆ ခုလုံးကို ယူပြီး ၆ နဲ့စားလိုက်ရင် အဲ့ဒီ ဖြစ်စဥ် ၆ ခုရဲ့ ပျမ်းမျှရလဒ် ရပြီပေါ့ဗျာ။ ဒီနေရာမှာ ပျမ်းမျှရလဒ်ဟာ ကျွန်တော်တို့အတွက် အံစာတုံး ကစားရာမှာ စိတ်ဝင်စားဖို့ မကောင်းပါဘူး။ သာမန် ဖြစ်စဥ်မှာလည်း မရှာကြပါဘူး။ ဒါပေမယ့် Law of Large Numbers အတွက်တော့ အဲ့ဒီ ပျမ်းမျှတန်ဖိုးဟာ အရေးကြီးပါတယ်။ Law of Large Numbers ဟာ ဘာပြောလဲဆိုတော့ သင်သည် အံစာတုံးကို ကြိုက်သလောက်လှိမ့် အကြိမ်အရေများလာရင် အံစာတုံးရဲ့ ပျမ်းမျှရလဒ်သည် Expected Value ထက်ကျော်နိုင်စရာအကြောင်းမရှိဘူးလို့ ဆိုထားပါတယ်။ Expected Value သည် အံစာတုံးကို လှိမ့်ပြီး ဖြစ်နိုင်သော ရလဒ် အားလုံးပေါင်းခြင်းရဲ့ ရလဒ်ကို ဆိုလိုတာပါ။ အံစာတုံးမှာ 1 ဖြစ်နိုင်​ြေခ 1/6 ရှိပါတယ်။ ထိုနည်းတူပဲ ကျန်တဲ့ 2, 3, 4, 5, 6 သည်လည်း ဖြစ်နိုင်​ြေခ 1/6 ရှိပါတယ်။ ဒါကြောင့် အံစာတုန်း ၁ တုံးရဲ့ Expected Value သည် 1*1/6 + 2*1/6 + 3*1/6+ 4*1/6+ 5*1/6+6*1/6.

(1+2+3+4+5+6)/6 = 3.5 ဖြစ်တယ်။

အံစာတုံးဖြစ်စဥ်အတွက် Law of Large Numbers ကဘာပြောလဲဆိုတော့ သင်သည် အံစာတုံးကို အကြိမ်အရေအတွက် ကြိုက်သလောက်လှိမ့်ပါစေ တကယ်လို့ လှိမ့်တဲ့ အကြိမ်အရေအတွက် များလာလေ၊ Infinity နားရောက်လာလေ အံစာတုန်းဖြစ်စဥ်က ရလာတဲ့ ရလဒ်သည် Expected Value နားရောက်နေပါမည်။

တတ်သိပညာရှင်တွေအနေနဲ့ Law of Large Numbers သည် Machine Learning, Deep Learning Field အတွက် အတော်အရေးပါတဲ့ Law တစ်ခုဖြစ်တယ်ဆိုတာကို မှတ်ထားရပါမယ်။ ဥပမာပြောရရင် Cross-Entropy တွက်တဲ့နေရာမှာ အသုံးပြုထားသလို၊ Encoder Model တွေ အထူးသဖြင့် (GAN Model) တွေမှာ အသုံးပြုထားတဲ့ (KL Divergence)တွက်တဲ့နေရာမှာ မရှိမဖြစ်လိုအပ်တဲ့ Law တစ်ခုပဲဖြစ်ပါတယ်။ အဲ့ဒီ Topic တွေတော့ အချိန်ရရင် ရသလို ပြန်လည် Share ပေးသွားပါမယ်။

ဒါဆို ကျွန်တော်တို့ Coin အကြွေစေ့ရောဗျာ။ တကယ်လို့ အကြွေစေ့ကို အကြိမ်များများ လှိမ့်မယ်ဆိုရင် ရမယ့် Expected Value သည် ဘယ်လောက်လဲပေါ့။

(head * 1/2 + tail * 1/2) = (1 * 1/2 + 0 * 1/2) = (0.5 + 0) = 0.5

LLN and its influences on survey result

ကျွန်တော်တို့ အရင်က Equation လေးကိုပြန်ကြည့်ရအောင်ဗျာ။ Survey Result = (Noise + Actual Result)/2 ဖြစ်ပါတယ်။ ဒီတော့ Noise ဟာ ဒုတိယ အကြိမ် အကြွေစေ့ကို လှိမ့်ထားတဲ့ ရလဒ်ဖြစ်ပါတယ်။ Law of Large Numbers အရ တကယ်လို့ အကြွေစေ့ကို အကြိမ်အရေအတွက်အများကြီး လှိမ့်မယ်ဆိုရင် Noise ရဲ့ရလဒ်ကို ခန့်မှန်းနိုင်ပါတယ်။ တန်ဖိုးကတော့ 0.5 ပါ။ တကယ်လို့ အကြိမ်အရေအတွက် နည်းနည်းပဲ လှိမ့်မယ်ဆိုရင် Noise တန်ဖိုးသည် 0.5 အထက်နဲ့အောက် ခုန်နေမှာ ဖြစ်ပါတယ်။ အပေါ်ကပုံကို ကြည့်ပါ။

ဒီတော့ ဆိုလိုတာက Noise တန်ဖိုးကို 0.5လို့ ကျိန်းသေပြောနိုင်ပြီဆိုရင် Algebra နည်းအရ Noise ကို Equation ကနေ ဖယ်ရှားလို့ရပြီ မဟုတ်ပါလားဗျ။

Equation ကို ပြန်ကြည့်ရအောင်ဗျာ။

Refiguring out the actual result

အပေါ်က Equation မှာ ကျွန်တော်တို့ သိချင်တာက အမှန်တကယ် Real World မှာ လုပ်ဆောင်နေတဲ့ ဖြစ်ရပ် (ဥပမာ အမှန်တကယ် မူးယစ်ဆေးဝါး သုံးစွဲ တဲ့လူဦးရေ ရာခိုင်နှုန်း)။ ဒါပေမယ့် တည့်သွားမေးရင် ကျွန်တော် သုံးစွဲပါတယ်ဆိုတာကို ဖြေကြမှာမဟုတ်ဘူးလေ။ အရင်ကဆွေးနွေးပြီးသားပါ။ အဲ့ဒါကြောင့် Plausible Deniability ရှိအောင် Coin (အကြွေစေ့) နည်းနဲ့ Survey လုပ်ခဲ့တာပါ။ အဲ့လိုနဲ့ Survey ရဲ့ရလဒ်က ၆၀% မူးယစ်ဆေးဝါးသုံးတယ်ဆိုပါတော့။ ဒါပေမယ့် အဲ့ဒီ ၆၀% ဟာ Noise တွေပါရှိနေတဲ့အတွက်ကြောင့် Equation ကို Algebra အရ ဖြေရှင်းလိုက်ရင် အပေါ်က ဖော်ပြတဲ့အတိုင်း အမှန်တကယ်မှန်ကန်တဲ့ ရာခိုင်နှုန်းရလာမှာဖြစ်ပါတယ်။

ဒီလိုဖြေရှင်းနည်းသည် Survey လုပ်တဲ့ လူဦးရေများလေလေ မှန်ကန်တဲ့ ရာခိုင်နှုန်း ရလဒ်မှန်ကန်လေဖြစ်ပါတယ်။ ဘာကြောင့်လဲဆိုတော့ ကျွန်တော်တို့သည် Noise ကို 0.5 လို့ယူဆထားတဲ့အတွက်ကြောင့်ပါ။ Noise သည် 0.5 ရဖို့အတွက် Coin ကိုလှိမ့်တဲ့ အရေအတွက်များဖို့ လိုအပ်ပြီး၊ Coin လှိမ့်တဲ့ အရေအတွက်များဖို့အတွက် လူဦးရေများဖို့လိုပါတယ် Survey ကောက်တဲ့နေရာမှာ။ ကဲ ဒီနည်းနဲ့ဆိုရင် ကျွန်တော်တို့ Dataset မှာ ပါဝင်နေတဲ့ Noise ကို ဖြေရှင်းနိုင်ပါပြီ။

အရင်ကဖော်ပြခဲ့တဲ့ ကင်ဆာ ပြသနာ ပုစ္ဆာဟာလည်း ထိုနည်းတူပါပဲ။ Dataset entry များလေလေ ကျွန်တော်တို့ Noise ကို ဖယ်ရှားနိုင်ခွင့်များလေဖြစ်ပြီး မူလ Original Data ကို တိကျမှန်ကန်စွာ ပြန်လည် ရှာဖွေရယူနိုင်ဖို့ အခွင့် အရေးများနေပြီဖြစ်ပါတယ်။

ကျွန်တော်တို့ ဒီ Post ကို နိဂုန်း မချုပ်ခင်မှာ တတ်သိပညာရှင်များသတိထားရမှာကတော့ ကျွန်တော်တို့ Survey လုပ်တဲ့နေရာမှာ လူတစ်ဦးတစ်ယောက်က Survey ကို မ​ြေဖခင် အကြွေစေ့ကို လှိမ့်ရပါတယ်။ တကယ်လို့ အကြွေစေ့လှိမ့်တဲ့နေရာမှာ ကံမကောင်းစွာပဲ ပထမ အကြွေစေ့မှာ ပန်း ကျခဲ့ရင် အကြွေစေ့ကို ဒုတိယအကြိမ်အနေနဲ့ လှိမ့်ရမှာပါ။ ဆိုလိုချင်တာကတော့ Survey မှာ တစ်ဦးတစ်ယောက်ချင်းရဲ့ အဖြေမှာ Noise ပါဝင်နေတာကို ဆိုလိုချင်တာပါ။ အဲ့ဒီဖြစ်စဥ်ကို ကျွန်တော်တို့ Local (တစ်ဦးတစ်ယောက်ဆီ)မှာ Noise ထည့်တာဖြစ်တဲ့အတွက်ကြောင့် Local Differential Privacy လို့ခေါ်ပါတယ်။ ဒီနည်းဟာ Information Leakage ဖြစ်နိုင်​ြေခ အနည်းဆုံးဖြစ်ပြီး Dataset ရဲ့ Accuracy ဟာလည်း Noise များရင်များသလို Accuracy လျော့နည်းနိုင်ပါတယ်။ နောက် Post တစ်ခုမှာတော့ ကျွန်တော်တို့ Dataset ရဲ့ Accuracy ကို ပိုမိုထိန်းနိုင်ပြီး Information Leakage နည်းအောင် လုပ်နိုင်မယ့် Global Differential Privacy အကြောင်းဆက်ဆွေးနွေးသွားပါမယ်။

အခုကျွန်တော်ဖော်ပြခဲ့တဲ့ ဆောင်းပါးဟာလည်း သင်္ချာ သဘောတရားတွေပါရှိတဲ့ အတွက် မသိတာများရှိရင် အင်တာနက်ကနေရှာယူနိုင်သလို Comment မှာလည်း မေးမြန်းနိုင်ပါတယ် ခင်ဗျာ။

သင်္ချာရဲ့ ဂုဏ်သတ္တိတွေဟာ တော်တော် ထူးဆန်းဖို့ကောင်းပြီး တော်တော်လည်း အသုံးဝင်ကြပါတယ်။ ဒါကြောင့် လူသားတွေဟာ လကမ္ဘာထိ ပို့ဆောင်နိုင်တာ သင်္ချာ နဲ့ သိပ္ပံပညာရပ်တွေပဲ မဟုတ်ပါလားဗျာ။

ကျွန်တော်လည်း တော်တော် ပင်ပန်းသွားပါပြီ။ လာမယ့် အပိုင်းကိုတော့ Global Differential Privacy အကြောင်းဆွေးနွေးချင်ပါတယ်။ အမှန်ကတော့ Federated Deep Learning အကြောင်းကို တန်းသွားချင်တာပါ။ ခက်တာက အ​ြေခခံဖြစ်တဲ့ Differential Privacy အကြောင်းမသိဘဲ သွားရင် ကျွန်တော့်အနေနဲ့ နားလည်အောင် မရှင်းပြတတ်သလို စာဖတ်တဲ့သူမှာလည်း အကျိုးမရှိလောက်ဘူးထင်လို့ Differential Privacy အကြောင်းကို အကျယ်တဝန့် ဆွေးနွေနေတာပါ။

👋👋

Reference

Some parts of the knowledge expressed on this blog is referenced from Secure and Private AI Course of Udacity.

--

--

Sai Htaung Kham

Research Engineer working on AI. Make things work beyond its limitation.