လုံခြုံစိတ်ချရတဲ့ AI ကို တီထွင်ခြင်း
အပိုင်း(၃) − Local Differential Privacy
အပိုင်း(၂) ကိုတော့ အောက်ဖော်ပြပါ Link ကနေ ဝင်ရောက်ဖတ်ရှုနိုင်ပါတယ်ခင်ဗျာ
ပြီးခဲ့တဲ့ အပိုင်းမှာတော့ ကျွန်တော် Public Dataset ကို Differencing Attack နည်းကို အသုံးပြုပြီး Public Dataset ကို De-anonymization လုပ်ပြခဲ့ပါတယ်။ Public Dataset မှာ ဘယ်လောက်ပဲ ပုဂ္ဂိုလ်ဆိုင်ရာ အသေးစိတ် အချက်အလက်တွေကို ဖျက်ထားနေပါစေ အဆင့်မြင့် သင်္ချာနည်းပညာကို အသုံးပြုပြီး ပြန်ဖော်နိုင်တယ်ဆိုတာကို တတ်သိပညာရှင်များ မျက်ဝါးထင်ထင် မြင်တွေ့ပြီးသားဖြစ်မှာပါ။ ဒီတော့ ကျွန်တော့်ကို မေးကောင်းမေးကြပါလိမ့်မယ်။ Private Dataset တွေကို Privacy မပေါက်ကြားအောင် Public Dataset အဖြစ် အင်တာနက်ပေါ်မှာ လုံခြုံစိတ်ချရစွာ တင်နိုင်မယ့် နည်းလမ်းများမရှိဘူးလားပေါ့။ ရှိတာပေါ့ဗျာ။
အဲ့ဒီလို လုပ်နိုင်မယ့် နည်းလမ်းနှစ်သွယ်ရှိပါတယ်။
(၁) Local Differential Privacy
(၂) Global Differential Privacy တို့ပဲဖြစ်ပါတယ်။
ဒီ Post မှာတော့ ကျွန်တော်တို့ Local Differential Privacy နဲ့ပတ်သက်ပြီး ဆွေးနွေးသွားမှာပဲဖြစ်ပါတယ်။
ဒါဆိုရင် ကျွန်တော်တို့ အရင် Dataset ကို ခဏလောက်ပြန်ကြည့်ရအောင်ဗျာ...
အဲ့ဒီ Dataset ကို ကျွန်တော်တို့ လူနာမည်နေရာမှာ တခြား Random နံပါတ်ပဲဖြစ်ဖြစ်၊ Character A, B, C စတဲ့ နှစ်သက်ရာ Random အက္ခရာနဲ့ပဲ ဖြစ်ဖြစ် အစားထိုးလိုက်ပြီး Public Dataset အဖြစ် အင်တာနက်ပေါ်မှာ တင်ရင်တောင် လျှို့ဝှက်ထားတဲ့ အချက်အလက်တွေကို ပြန်လည် ဖော်ပေးနိုင်တယ်ဆိုတာ အပိုင်း(၂) မှာကတည်းက တွေ့မြင်ပြီးသားပါ။ ဒါဆိုရင် ကျွန်တော်တို့ Dataset ကို အနည်းငယ် အပြောင်းအလဲလုပ်ပြီး Public Dataset အဖြစ်အင်တာနက်ပေါ်တင်ရင် Differencing Attack ကို ကာကွယ်နိုင်ပါတယ်။ ဒါပေမယ့် Data Accuracy (Data ရဲ့တိကျမှု ဂုဏ်သတ္တိ) ကိုတော့ လျော့ကျစေနိုင်ပါတယ်။
ဥပမာ အဲ့ဒီ Private Dataset တွေရဲ့ Random Row တွေမှာ Noise ထပ်ပေါင်းပေးတာ။ တစ်နည်းအားဖြင့် နှစ်သက်ရာ Row တချို့ တွေမှာ 0 ဖြစ်နေတာကို 1 ပြောင်းတာ၊ 1 ဖြစ်နေတာကို 0 ပြောင်းတာကို ဆိုလိုတာပါ။ ဒါပေမယ့် သတိထားရမှာကတော့ Private Dataset တွေမှာ Noise ပေါင်းတာများလေလေ Dataset ရဲ့မှန်ကန်တိကျမှု လျော့နည်းလေပါပဲ။ အဲဒီလို Private Dataset ရဲ့ Data Entry (Row) တစ်ခုချင်းဆီကို Noise ထပ်ပေါင်းထည့်တဲ့နည်းကတော့ Randomized Response လုပ်တယ် လို့ခေါ်ကြပါတယ်။
ဒါပေမယ့် တတ်သိပညာရှင်တွေ အနေနဲ့ ကျွန်တော့်ကိုမေးကြပါလိမ့်မယ်။ Private Dataset တွေမှာ Noise ကို ပေါင်းထည့်လိုက်ရင် ရလဒ်အမှားကြီးရလာမှာပေါ့။ အဲ့ဒါဆိုရင် Public လုပ်လိုက်တဲ့ Dataset ဟာ ဘယ်လိုလုပ်ပြီး မှန်ကန်မှုတွေရှိနိုင်တော့မှာလဲ စတဲ့မေးခွန်းတွေ မေးနိုင်ပါတယ်။ အဲ့ဒါကတော့ De-Noising လုပ်တဲ့ နည်းတွေရှိပါတယ်။ အဲ့ဒီ De-Noising လုပ်တဲ့နည်းကိုတော့ တခြား Example အနေနဲ့ဖော်ပြပေးမှာပါ။
Noise တွေကို ဖယ်ရှားတဲ့နည်းတွေ မရှင်းပြခင် ကျွန်တော်တို့ အရေးပါတဲ့ Concept လေးတစ်ခုကို လေ့လာဖို့ အရေးကြီးပါတယ်။ အဲ့ဒါတွေက ဘာတွေလဲဆိုလို့ရှိရင် Plausible Deniability ပဲဖြစ်ပါတယ်။ မြန်မာလိုဘာသာပြန်ရမှာတော့ အရမ်းကိုခက်ပါတယ် ကျွန်တော့်အတွက်။ ဖြစ်ရပ်တစ်ခုကို ကန့်ကွက်နိုင်မှုရှိခြင်း ငြင်းဆိုနိုင်မှုရှိခြင်း လို့ပဲ ဘာသာပြန်ရမှာဖြစ်ပါတယ်။
ဥပမာ တစ်ခု အနေနဲ့ရှင်းပြပါမယ်။ ကျွန်တော်တို့ Survey (စစ်တမ်းကောက်) လုပ်တဲ့အချိန်မှာ ြေဖဆိုတဲ့လူထံမှ အဖြစ်နိုင်ဆုံးအဖြေမှန်ကို ရချင်ကြပါတယ်။ ဘာလို့လဲဆိုတော့ စာရင်းဇယားအတွက် အရေးပါလို့ပါပဲ။ အြေဖမှန်တွေ မရနိုင်ဘဲ Survey လုပ်လို့လဲ ဘာမှ မထူးဘူးလေ။ အချိန်ကုန် လူပင်ပန်းသက်သက်သာ အဖတ်တင်ပါတယ်။ ဒါဆို ကျွန်တော်က တတ်တိပညာရှင်တွေကို Survey တစ်ခုမေးပါမယ်ဆိုပါဆို့။ Survey ရဲ့ခေါင်းစဥ်ကတော့ "မိဘ တွေရဲ့ ပိုက်ဆံကို ခိုးဖူးလား" ဆိုတဲ့ Survey ဆိုပါဆို့။ အဲ့ဒီ Survey ကို တတ်သိပညာရှင်ဆီမှာ စာရွက်အနေနဲ့ ကျွန်တော် ကမ်းလှမ်းပြီး ကျွန်တော့ကို ဒီ Survey လေး ရိုးသားစွာ မှန်မှန်ကန်ကန် ဖြည့်ပေးပါဗျာ လို့တောင်းလာတဲ့အချိန်မှာ တတ်သိပညာရှင်တွေအနေနဲ့ ခိုးဖူးပါတယ် (မခိုးဖူးပါဘူး) စတဲ့ အဖြေထက် မခိုးဖူးပါဘူး ဆိုတဲ့ ဖြစ်စဥ်ကို ဖြေပေးဖို့ အခွင့်အရေးက များမယ်ထင်ပါတယ်။ ကျွန်တော် ကိုယ်တိုင်ကငယ်ငယ်တုန်းကတော့ မိဘတွေရဲ့ ပိုက်ဆံကို မိဘမသိဘဲ ယူပြီး မုန့်တွေ ဝယ်စားဖူးပါတယ်။ ဒါလည်း ခိုးတာပါပဲလေ။ ဒါပေမယ့် အဲ့လို လူတကာ ကတိကအောင့် ဖြစ်စေတဲ့ မေးခွန်းတွေ ပြစ်မှုမြောက်တဲ့ မေးခွန်းတွေကို မေးတဲ့အချိန်မှာ ရလာနိုင်တဲ့ အြေဖဟာ မှန်ကန်မှု သိပ်ရှိမှာ မဟုတ်ပါဘူး။ ဘာလို့လဲဆိုတော့ ရှက်တာလည်း ဖြစ်နိုင်သလို တချို့မေးခွန်းတွေဟာ ပြစ်မှုမြောက်တဲ့ မေးခွန်းတွေ ဖြစ်နိုင်ပြီး ကိုယ်က လုပ်ဖူးတယ်လို့ ဖြေရင် ပြစ်မှုတွေကျူးလွန်မိပြီး တစ်စုံတစ်ရာများ ဖြစ်လေမလား စတဲ့ စိုးရိမ်းပူပန်မှုတွေကြောင့် Survey တွေကို ဖြေဆိုချိန်မှာ လူတော်တော်များများ ဟာ မှန်မှန်ကန်ကန် ြေဖဆိုပေးကြမှာ မဟုတ်ပါဘူး။
အဲ့ဒီတော့ ဘယ်လို Survey မျိုးတွေမဆို လူတွေဆီက အြေဖကို မှန်မှန်ကန်ကန် ရယူဖို့ နည်းလမ်းတွေကို ပညာရှင်တွေက တီထွက်ကြံဆလာပါတော့တယ်။ အဲ့ဒီထဲက နည်းတစ်ခုကတော့ အောက်ပါအတိုင်း Survey ဖြေတဲ့လူတွေကိုရှင်းပြပြီး Survey ကို ဖြေဆိုခိုင်းပါတယ်။
(၁) Survey ြေဖခိုင်းမယ့်လူကတော့ ြေဖဆိုမယ့်လူကို Coin (အကြွေစေ့) (၁) စေ့ပေးပါတယ်။
(၂) Survey မြေဖခင် ြေဖဆိုမယ့်သူဟာ အကြွေစေ့ကို တစ်ခါ သို့မဟုတ် နှစ်ခါ လှိမ့်ပါမယ်။ ဒါပေမယ့် အကြွေစေ့ လှိမ့်တဲ့အချိန်မှာ Survey ဖြေခိုင်းတဲ့လူက အဲ့ဒီ အကြွေစေ့ လှိမ့်နေတာကို မကြည့်ရပါဘူး။ ြေဖဆိုသူကလွဲလို့ အကြွေစေ့ကို လှိမ့်ပြီး ခေါင်း (သို့) ပန်း ရလဒ်ဟာ ြေဖဆိုသူကလွဲပြီး ဘယ်သူမှ မသိရပါဘူး။
(၃) တကယ်လို့ ပထမအကြိမ် အကြွေစေ့ လှိမ့်ပြီးထွက်လာတဲ့ ရလဒ်ဟာ ခေါင်း ဖြစ်နေမယ်ဆိုရင် Survey ဖြေဆိုမယ့်သူဟာ ရိုးသားမှန်ကန်စွာ Survey ရဲ့မေးခွန်းတွေကို ဖြေပေးရပါမယ်။ တကယ်လို့ ပထမ အကြွေစေ့ရဲ့ ရလဒ်ဟာ ပန်း ဖြစ်နေမယ်ဆိုရင် အကြွေစေ့ကို နောက်တစ်ခါ ထပ်လှိမ့်ရပါမယ်။
(၄) ဒုတိယအကြိမ်မြောက်အကြွေစေ့ရဲ့ရလဒ်ဟာ တကယ်လို့ ခေါင်းဖြစ်နေမယ်ဆိုရင် ဖြေဆိုသူအနေနဲ့ လုပ်ဖူးတယ် (သို့) မှန်ကန်တယ်လို့ ြေဖရပါမယ်။ တကယ်လို့ ပန်း ဖြစ်နေရင် မလုပ်ဖူးဘူး (သို့) မမှန်ကန်ဘူးလို့ဖြေရပါမယ်။
အထက်ဖော်ပြပါ ဖြစ်စဥ်ကို ကြည့်ခြင်း၊ လုပ်ဆောင်ခြင်း အားဖြင့် စာရင်းအင်း သင်္ချာအရ ကျွန်တော်တို့ရဲ့ Survey သည် တိကျမှန်ကန်တဲ့ ရလဒ်ရလာဖို့ အခွင့်အရေးပိုများ နေပါလိမ့်မယ်။ ဘာလို့လဲဆိုတော့ ခဏနေရင် ကျွန်တော် သင်္ချာတွက်နည်းနဲ့ သက်သေပြပေးပါမယ်။
ဒါပေမယ့် လူပိန်းနားလည်အောင် ရှင်းရရင်တော့ ြေဖဆိုတဲ့လူသည် လုပ်ဖူးတယ်၊ ပြစ်မှုကျူးလွန်ဖူးတာကို ဝံ့ဝံ့ရဲရဲ ြေဖဆိုနိုင်သလို၊ တကယ်လို့ ဖြေဆိုတဲ့လူဟာ ပြစ်မှုကျူးလွန်ထားတယ်ထားဦး ဘယ်လိုမှ ပြန်လည် အပြစ်ယူလို့မရပါဘူး။ ဘာကြောင့်လို့ထင်ပါသလဲ။ စာဖတ်နေတဲ့ တတ်သိပညာရှင်တွေ ကျွန်တော် ဖြေရှင်းချက်မပေးခင် အရင်ဆုံးစဥ်းစားကြည့်ပါဦးဗျာ။
အဖြေ ။ ။
ဘာလို့လဲဆိုတော့ တကယ်လို့ ကျွန်တော်သည် ပြစ်မှု ကျူးလွန်ဖူးတယ်ဆိုပါတော့။ Survey မှာ မေးထားတာလည်း ကျွန်တော် ကျူးလွန်ထားတဲ့ ပြစ်မှုနဲ့ ကွက်တိဖြစ်နေတယ် ထားပါတော့။ အဲ့ဒီ အချိန်မှာ ကျွန်တော်ဟာ ဝန်မလေးပဲ ကျွန်တော် ပြစ်မှုကျူးလွန်ထားတာကို ဖြေဆိုနိုင်ပါတယ်။ Survey မေးတဲ့သူကလည်း မင်းအဲ့ဒီ ပြစ်မှု ကျူးလွန်ထားတဲ့ အတွက်ကြောင့် မင်းကို ဖမ်းမယ် လုပ်လို့မရပါဘူး။ ကျွန်တော် တစ်ခုပြန်ပြောနိုင်တာကတော့ ကျွန်တော်သည် အကြွေစေ့ရဲ့ ရလဒ်ပေါ်မူတည်ပြီး ဖြေထားတာပါ။ Survey ကောက်တဲ့ လူအနေနဲ့ အဲ့ဒီအြေဖဟာ မှန်ကန်တယ်လို့ ဘယ်လိုသက်သေပြနိုင်မှာလဲ။ ဟုတ်တယ်မဟုတ်လားဗျာ။ အဲ့ဒီလို ြေဖဆိုတဲ့လူဘက်ကို အကာအကွယ်ပေးတဲ့ စနစ်ကို Plausible Deniability လို့ခေါ်ပါတယ်။ Survey ကောက်တဲ့လူရော ဖြေဆိုတဲ့ လူပါ Win Win ဖြစ်နေတဲ့အြေခအနေပါ။ Survey ရဲ့ရလဒ်ဟာ မှန်ကန်မှု ပိုရှိသလို ြေဖဆိုတဲ့လူဘက်ကလည်း စိတ်အေးအေးနဲ့ ဖြေဆိုနိုင်ပါတယ်။
ဒါပေမယ့် တတ်သိပညာရှင်တွေအနေနဲ့ သိပ်ပြီး ပျော်မနေပါနဲ့ဦး။ ကျွန်တော်တို့ Survey ရဲ့ ရလဒ်ဟာ ၁၀၀ % နှုန်း မှန်ကန်မှု မရှိသေးပါဘူး။ ဘာလို့လဲဗျ။ ထပ်ပြီးစဥ်းစားကြည့်ပါဦး။
အပေါ်က ဘယ်ကထောင့်ကပုံကို ကြည့်မယ်ဆိုရင် ကျွန်တော်ဟာ အကြွေစေ့ကို အများဆုံး ၂ ခါ လှိမ့်ပါတယ်။ အကြွေစေ့ (၁) ခါပဲ လှိမ့်စရာလိုရင်တော့ မှန်ကန်တဲ့ အြေဖကိုရမှာပါ။ ဒါပေမယ့် ကံမကောင်းစွာပဲ ပထမ အကြွေစေ့ရဲ့ ရလဒ်ဟာ ပန်း ဖြစ်နေမယ်ဆိုရင် ကျွန်တော်တို့ ရမယ့် အဖြေဟာ သေချာမှု မရှိတော့ပါဘူး။ ဘာလို့လဲဆိုတော့ ြေဖဆိုတဲ့ရလဒ်ဟာ ဒုတိရြေမာက်အကြွေစေ့ရဲ့ ရလဒ်ပေါ်မူတည်ပြီး ဖြေဆိုရမှာ ဖြစ်တဲ့အတွက်ကြောင့်ပါ။ ဒါကြောင့် ကျွန်တော်တို့ Survey ရဲ့ရလဒ်ဟာ Noise တွေပါနေတယ်လို့ ပြောလို့ရပါတယ်။
အခုကစပြီး ကျွန်တော် သင်္ချာ အပိုင်းကို နည်းနည်း သွားပါမယ်။ ဘယ်ဘက် ကော်လံမှာ ဖော်ပြထားတဲ့ သင်္ချာ Equation ကိုကြည့်ပါ။ ကျွန်တော်တို့ လုပ်ဆောင်လိုက်တဲ့ (အကြွေစေ့ လှိမ့်ပြီးြေဖခိုင်းတဲ့) ဖြစ်စဥ်ကို သင်္ချာနည်းအရ (Probability) ကိုကြည့်မယ်ဆိုရင်၊ ပထမအကြွေစေ့လှိမ့်တဲ့အချိန်မှာ ခေါင်း ၅၀% (ဟုတ်တယ်)၊ ပန်း ၅၀% (မဟုတ်ဘူး) ဆိုတဲ့ ဖြစ်နိုင်ခြေ ၁၀၀ % ရှိပါတယ်။ နောက် ဒုတိယ အကြွေစေ့ လှိမ့်တဲ့အချိန်မှာလည်း ထိုနည်းတူပဲ ခေါင်း (၅၀%)၊ ပန်း(၅၀%) ဖြစ်နိုင်ချေ စုစုပေါင်း (၁၀၀%) ရှိပါတယ်။ ကျွန်တော်တို့ ဆယ်တန်းရောက်ပြီဆိုကတည်းက Probaility နဲ့ပတ်သက်ပြီး သင်ဖူးမှာပါ။ အကြွေစေ့တစ်ခုကို လှိမ့်ရင် ခေါင်းဖြစ်နိုင်ြေခ ၅၀% ရှိပြီး ပန်းဖြစ်နိုင်ြေခ ၅၀% ရှိတယ်ဆိုတာ သိပြီးသားပါ။ 💡
ဒါပေမယ့် Survey ရဲ့ရလဒ်မှာတော့ အကြွေစေ့ (၂) ခုလုံးရဲ့ Probability Distribution (ဖြစ်နိုင်ြေခ) ကိုပေါင်းထားတဲ့ရလဒ်ပါ။ ဒါပေမယ့် ကျွန်တော်တို့သည် Probability နိယာမအရ မည်သို့ပင်ဖြစ်စေကာမူ ဖြစ်စဥ်တစ်ခုရဲ့ Probability သည် အားလုံးပေါင်းလိုက်လျှင် ၁၀၀% (ကိန်းပြည့် ၁) သာရှိရပါမည်။ အခုကျွန်တော်တို့ ပေါင်းလိုက်တော့ ၂၀၀ % ဖြစ်နေပါတယ်။🤔🤔
ဒါဆိုရင် ဘယ်လိုြေဖရှင်းမှာလဲပေါ့။ ဒါကတော့ လွယ်ပါတယ်။ ပျမ်းမျှရှာလိုက်ရင် ပြီးသွားတာပဲလေ။😅😅
ဒီအဆင့်ထိ အဆင်ပြေကြလားဗျ။ နောက်ထပ်နည်းနည်းရှုပ်တဲ့ Formula ကို ဆက်သွားရမှာမို့ မရှင်းသေးရင် ခဏရပ်ပြီး စဥ်းစားကြည့်ကြပါဗျာ။
ဒါဆိုရင် Actual Survey Result မှာ ကျွန်တော်တို့ Noise ရှိနေတဲ့အချိန်မှန်သမျှ စစ်မှန်တဲ့ Survey Result ကို ရရှိမှာ မဟုတ်ပါဘူး။ ဒါဆို Noise ကို ဘယ်လိုဖယ်ရှားမှာလဲပေါ့။ ကံကောင်းစွာပဲ ကျွန်တော်တို့ အရင်ခေတ်က သင်္ချာ ပညာရှင်တွေဟာ Law of Large Numbers ကို တီထွင်ခဲ့တဲ့ အတွက်ကြောင့် ကျွန်တော်တို့ ပြသနာကို ဖြေရှင်းဖို့အတွက် အထောက်အကူ အများကြီးပြုသွားတာကို မြင်တွေ့ရမှာဖြစ်ပါတယ်။
Law of Large Numbers
Law of Large Numbers အကြောင်းအကြမ်းဖျင်းရှင်းပြရမယ်ဆိုရင် ကျွန်တော်တို့ Event တစ်ခု (ဖြစ်စဥ်တစ်ခု) ကို Probability Distribution အတွင်းထဲမှာ အကြိမ် အကန့်အသတ်မရှိ လုပ်ဆောင်ရင် ၎င်းဖြစ်စဥ် (Probability Distribution) ရဲ့ Expected Value သည် ယင်း Event (ဖြစ်စဥ်ရဲ့) ပျမ်းမျှတန်ဖိုးနဲ့ ညီမျှသည်။
ရှုပ်သွားပြီမဟုတ်လား ဆောရီးပါ ကျွန်တော်လည်း ရှင်းအောင် မရှင်းတတ်လို့ပါ။ အဲ့ဒီ နည်းပညာစကားလုံးတွေကတော့ မြန်မာမှာ ရှိမယ်လို့မထင်ပါဘူး။ ရှိမယ်ဆိုရင်တောင် ကျွန်တော်မသိတာပါ။ ဟုတ်ပါပြီ ဥပမာ အနေနဲ့ ရှင်းပြပါမယ်။
အံစာတုံး တစ်တုံးကို လှိမ့်တဲ့ ဖြစ်စဥ်တစ်ခုလုပ်မယ် ဆိုပါဆို့။ အံစာတုံးတစ်ကြိမ်လှိမ့်တဲ့အချိန်မှာ ရလာနိုင်တဲ့ ရလဒ်ဟာ ၁ ကနေ ၆ အထိဖြစ်နိုင်ပါတယ်။ တကယ်လို့သာ အဲ့ဒီ အံစာတုံးကို ၆ ကြိမ်လှိမ့်ပြီး ပျမ်းမျှရလဒ် တန်ဖိုးကို ရှာပါဆိုရင်တော့ လွယ်ပါတယ်။ ရလဒ် ၆ ခုလုံးကို ယူပြီး ၆ နဲ့စားလိုက်ရင် အဲ့ဒီ ဖြစ်စဥ် ၆ ခုရဲ့ ပျမ်းမျှရလဒ် ရပြီပေါ့ဗျာ။ ဒီနေရာမှာ ပျမ်းမျှရလဒ်ဟာ ကျွန်တော်တို့အတွက် အံစာတုံး ကစားရာမှာ စိတ်ဝင်စားဖို့ မကောင်းပါဘူး။ သာမန် ဖြစ်စဥ်မှာလည်း မရှာကြပါဘူး။ ဒါပေမယ့် Law of Large Numbers အတွက်တော့ အဲ့ဒီ ပျမ်းမျှတန်ဖိုးဟာ အရေးကြီးပါတယ်။ Law of Large Numbers ဟာ ဘာပြောလဲဆိုတော့ သင်သည် အံစာတုံးကို ကြိုက်သလောက်လှိမ့် အကြိမ်အရေများလာရင် အံစာတုံးရဲ့ ပျမ်းမျှရလဒ်သည် Expected Value ထက်ကျော်နိုင်စရာအကြောင်းမရှိဘူးလို့ ဆိုထားပါတယ်။ Expected Value သည် အံစာတုံးကို လှိမ့်ပြီး ဖြစ်နိုင်သော ရလဒ် အားလုံးပေါင်းခြင်းရဲ့ ရလဒ်ကို ဆိုလိုတာပါ။ အံစာတုံးမှာ 1 ဖြစ်နိုင်ြေခ 1/6 ရှိပါတယ်။ ထိုနည်းတူပဲ ကျန်တဲ့ 2, 3, 4, 5, 6 သည်လည်း ဖြစ်နိုင်ြေခ 1/6 ရှိပါတယ်။ ဒါကြောင့် အံစာတုန်း ၁ တုံးရဲ့ Expected Value သည် 1*1/6 + 2*1/6 + 3*1/6+ 4*1/6+ 5*1/6+6*1/6.
(1+2+3+4+5+6)/6 = 3.5 ဖြစ်တယ်။
အံစာတုံးဖြစ်စဥ်အတွက် Law of Large Numbers ကဘာပြောလဲဆိုတော့ သင်သည် အံစာတုံးကို အကြိမ်အရေအတွက် ကြိုက်သလောက်လှိမ့်ပါစေ တကယ်လို့ လှိမ့်တဲ့ အကြိမ်အရေအတွက် များလာလေ၊ Infinity နားရောက်လာလေ အံစာတုန်းဖြစ်စဥ်က ရလာတဲ့ ရလဒ်သည် Expected Value နားရောက်နေပါမည်။
တတ်သိပညာရှင်တွေအနေနဲ့ Law of Large Numbers သည် Machine Learning, Deep Learning Field အတွက် အတော်အရေးပါတဲ့ Law တစ်ခုဖြစ်တယ်ဆိုတာကို မှတ်ထားရပါမယ်။ ဥပမာပြောရရင် Cross-Entropy တွက်တဲ့နေရာမှာ အသုံးပြုထားသလို၊ Encoder Model တွေ အထူးသဖြင့် (GAN Model) တွေမှာ အသုံးပြုထားတဲ့ (KL Divergence)တွက်တဲ့နေရာမှာ မရှိမဖြစ်လိုအပ်တဲ့ Law တစ်ခုပဲဖြစ်ပါတယ်။ အဲ့ဒီ Topic တွေတော့ အချိန်ရရင် ရသလို ပြန်လည် Share ပေးသွားပါမယ်။
ဒါဆို ကျွန်တော်တို့ Coin အကြွေစေ့ရောဗျာ။ တကယ်လို့ အကြွေစေ့ကို အကြိမ်များများ လှိမ့်မယ်ဆိုရင် ရမယ့် Expected Value သည် ဘယ်လောက်လဲပေါ့။
(head * 1/2 + tail * 1/2) = (1 * 1/2 + 0 * 1/2) = (0.5 + 0) = 0.5
ကျွန်တော်တို့ အရင်က Equation လေးကိုပြန်ကြည့်ရအောင်ဗျာ။ Survey Result = (Noise + Actual Result)/2 ဖြစ်ပါတယ်။ ဒီတော့ Noise ဟာ ဒုတိယ အကြိမ် အကြွေစေ့ကို လှိမ့်ထားတဲ့ ရလဒ်ဖြစ်ပါတယ်။ Law of Large Numbers အရ တကယ်လို့ အကြွေစေ့ကို အကြိမ်အရေအတွက်အများကြီး လှိမ့်မယ်ဆိုရင် Noise ရဲ့ရလဒ်ကို ခန့်မှန်းနိုင်ပါတယ်။ တန်ဖိုးကတော့ 0.5 ပါ။ တကယ်လို့ အကြိမ်အရေအတွက် နည်းနည်းပဲ လှိမ့်မယ်ဆိုရင် Noise တန်ဖိုးသည် 0.5 အထက်နဲ့အောက် ခုန်နေမှာ ဖြစ်ပါတယ်။ အပေါ်ကပုံကို ကြည့်ပါ။
ဒီတော့ ဆိုလိုတာက Noise တန်ဖိုးကို 0.5လို့ ကျိန်းသေပြောနိုင်ပြီဆိုရင် Algebra နည်းအရ Noise ကို Equation ကနေ ဖယ်ရှားလို့ရပြီ မဟုတ်ပါလားဗျ။
Equation ကို ပြန်ကြည့်ရအောင်ဗျာ။
အပေါ်က Equation မှာ ကျွန်တော်တို့ သိချင်တာက အမှန်တကယ် Real World မှာ လုပ်ဆောင်နေတဲ့ ဖြစ်ရပ် (ဥပမာ အမှန်တကယ် မူးယစ်ဆေးဝါး သုံးစွဲ တဲ့လူဦးရေ ရာခိုင်နှုန်း)။ ဒါပေမယ့် တည့်သွားမေးရင် ကျွန်တော် သုံးစွဲပါတယ်ဆိုတာကို ဖြေကြမှာမဟုတ်ဘူးလေ။ အရင်ကဆွေးနွေးပြီးသားပါ။ အဲ့ဒါကြောင့် Plausible Deniability ရှိအောင် Coin (အကြွေစေ့) နည်းနဲ့ Survey လုပ်ခဲ့တာပါ။ အဲ့လိုနဲ့ Survey ရဲ့ရလဒ်က ၆၀% မူးယစ်ဆေးဝါးသုံးတယ်ဆိုပါတော့။ ဒါပေမယ့် အဲ့ဒီ ၆၀% ဟာ Noise တွေပါရှိနေတဲ့အတွက်ကြောင့် Equation ကို Algebra အရ ဖြေရှင်းလိုက်ရင် အပေါ်က ဖော်ပြတဲ့အတိုင်း အမှန်တကယ်မှန်ကန်တဲ့ ရာခိုင်နှုန်းရလာမှာဖြစ်ပါတယ်။
ဒီလိုဖြေရှင်းနည်းသည် Survey လုပ်တဲ့ လူဦးရေများလေလေ မှန်ကန်တဲ့ ရာခိုင်နှုန်း ရလဒ်မှန်ကန်လေဖြစ်ပါတယ်။ ဘာကြောင့်လဲဆိုတော့ ကျွန်တော်တို့သည် Noise ကို 0.5 လို့ယူဆထားတဲ့အတွက်ကြောင့်ပါ။ Noise သည် 0.5 ရဖို့အတွက် Coin ကိုလှိမ့်တဲ့ အရေအတွက်များဖို့ လိုအပ်ပြီး၊ Coin လှိမ့်တဲ့ အရေအတွက်များဖို့အတွက် လူဦးရေများဖို့လိုပါတယ် Survey ကောက်တဲ့နေရာမှာ။ ကဲ ဒီနည်းနဲ့ဆိုရင် ကျွန်တော်တို့ Dataset မှာ ပါဝင်နေတဲ့ Noise ကို ဖြေရှင်းနိုင်ပါပြီ။
အရင်ကဖော်ပြခဲ့တဲ့ ကင်ဆာ ပြသနာ ပုစ္ဆာဟာလည်း ထိုနည်းတူပါပဲ။ Dataset entry များလေလေ ကျွန်တော်တို့ Noise ကို ဖယ်ရှားနိုင်ခွင့်များလေဖြစ်ပြီး မူလ Original Data ကို တိကျမှန်ကန်စွာ ပြန်လည် ရှာဖွေရယူနိုင်ဖို့ အခွင့် အရေးများနေပြီဖြစ်ပါတယ်။
ကျွန်တော်တို့ ဒီ Post ကို နိဂုန်း မချုပ်ခင်မှာ တတ်သိပညာရှင်များသတိထားရမှာကတော့ ကျွန်တော်တို့ Survey လုပ်တဲ့နေရာမှာ လူတစ်ဦးတစ်ယောက်က Survey ကို မြေဖခင် အကြွေစေ့ကို လှိမ့်ရပါတယ်။ တကယ်လို့ အကြွေစေ့လှိမ့်တဲ့နေရာမှာ ကံမကောင်းစွာပဲ ပထမ အကြွေစေ့မှာ ပန်း ကျခဲ့ရင် အကြွေစေ့ကို ဒုတိယအကြိမ်အနေနဲ့ လှိမ့်ရမှာပါ။ ဆိုလိုချင်တာကတော့ Survey မှာ တစ်ဦးတစ်ယောက်ချင်းရဲ့ အဖြေမှာ Noise ပါဝင်နေတာကို ဆိုလိုချင်တာပါ။ အဲ့ဒီဖြစ်စဥ်ကို ကျွန်တော်တို့ Local (တစ်ဦးတစ်ယောက်ဆီ)မှာ Noise ထည့်တာဖြစ်တဲ့အတွက်ကြောင့် Local Differential Privacy လို့ခေါ်ပါတယ်။ ဒီနည်းဟာ Information Leakage ဖြစ်နိုင်ြေခ အနည်းဆုံးဖြစ်ပြီး Dataset ရဲ့ Accuracy ဟာလည်း Noise များရင်များသလို Accuracy လျော့နည်းနိုင်ပါတယ်။ နောက် Post တစ်ခုမှာတော့ ကျွန်တော်တို့ Dataset ရဲ့ Accuracy ကို ပိုမိုထိန်းနိုင်ပြီး Information Leakage နည်းအောင် လုပ်နိုင်မယ့် Global Differential Privacy အကြောင်းဆက်ဆွေးနွေးသွားပါမယ်။
အခုကျွန်တော်ဖော်ပြခဲ့တဲ့ ဆောင်းပါးဟာလည်း သင်္ချာ သဘောတရားတွေပါရှိတဲ့ အတွက် မသိတာများရှိရင် အင်တာနက်ကနေရှာယူနိုင်သလို Comment မှာလည်း မေးမြန်းနိုင်ပါတယ် ခင်ဗျာ။
သင်္ချာရဲ့ ဂုဏ်သတ္တိတွေဟာ တော်တော် ထူးဆန်းဖို့ကောင်းပြီး တော်တော်လည်း အသုံးဝင်ကြပါတယ်။ ဒါကြောင့် လူသားတွေဟာ လကမ္ဘာထိ ပို့ဆောင်နိုင်တာ သင်္ချာ နဲ့ သိပ္ပံပညာရပ်တွေပဲ မဟုတ်ပါလားဗျာ။
ကျွန်တော်လည်း တော်တော် ပင်ပန်းသွားပါပြီ။ လာမယ့် အပိုင်းကိုတော့ Global Differential Privacy အကြောင်းဆွေးနွေးချင်ပါတယ်။ အမှန်ကတော့ Federated Deep Learning အကြောင်းကို တန်းသွားချင်တာပါ။ ခက်တာက အြေခခံဖြစ်တဲ့ Differential Privacy အကြောင်းမသိဘဲ သွားရင် ကျွန်တော့်အနေနဲ့ နားလည်အောင် မရှင်းပြတတ်သလို စာဖတ်တဲ့သူမှာလည်း အကျိုးမရှိလောက်ဘူးထင်လို့ Differential Privacy အကြောင်းကို အကျယ်တဝန့် ဆွေးနွေနေတာပါ။
👋👋
Reference
Some parts of the knowledge expressed on this blog is referenced from Secure and Private AI Course of Udacity.