差分隐私中的组合性质-串行,并行,推论

时间:2024-03-26 14:08:25

Laplace噪声的概率累积函数

Laplace噪声概率函数

f(xμ,b)=12bexμb f(x|\mu,b)=\frac{1}{2b}e^\frac{-|x-\mu|}{b}

Laplace噪声的概率累积函数

F(xμ,b)={12eμxb,x<μ112exμb,xμ F(x|\mu,b)=\begin{cases} \frac{1}{2}e^{-\frac{\mu-x}{b}},x<\mu \\1-\frac{1}{2}e^{-\frac{x-\mu}{b}},x\geqslant \mu\end{cases}

做出其图像为:

差分隐私中的组合性质-串行,并行,推论

​ 这个函数莫名像sigmod函数,有木有!

​ 由于概率累计分布的值域区间为[0,1][0,1],因此在生成Laplace噪声之前应该先生成区间在[0,1][0,1]之间的满足均匀分布的随机值。

​ 通过求解概率累积函数的反函数即可求得累积函数的反函数即可求得满足Laplace分布的噪声。

​ 计算的方法见MathThinker,这里的计算还是很简单的,自己可以搞定。

​ 他的求解方法,看懂了。求反函数的基本套路,反解法。反函数的图像和原图像关于直线y=xy=x对称。

若,ξUni(0,1)\xi-Uni(0,1)满足均匀分布,则

​ 逆累积分布函数为:
x={bln(2ξ)+μ,ξ<12μbln(2(1μ)),ξ12 x=\begin{cases}b\ln(2\xi)+\mu,\xi<\frac{1}{2} \\\mu-b\ln(2(1-\mu)),\xi\geqslant\frac{1}{2}\end{cases}
若,ξUni(0.5,0.5)\xi-Uni(-0.5,0.5)满足的均匀分布。假定ξUni(0.5,0.5)\xi'-Uni(-0.5,0.5),则ξ+0.5Uni(0,1)\xi'+0.5-Uni(0,1)的均匀分布,令ξ=ξ+0.5\xi=\xi'+0.5,采用上述的结论得:
x={μ+bln(1+2ξ),ξ<0μbln(12ξ),ξ0 x=\begin{cases}\mu+b\ln(1+2\xi'),\xi'<0 \\\mu-b\ln(1-2\xi'),\xi' \geqslant0\end{cases}
这样说的好处是,可以是将分段函数统一。
x=μbsign(ξ)ln(12sign(ξ)ξ) x=\mu-b*sign(\xi')*ln(1-2*sign(\xi')*\xi)

兄弟数据集解释

对称差集\bigoplus

对称差集\bigoplus:集合运算式,T=RS=(RS)(RS)T=R\bigoplus S=(R\cup S)-(R \cap S)

Δ=RS\Delta=|R\bigoplus S|表示对称差集中的元素个数。

而集合RR和集合SS为兄弟数据集当且仅当RS=1|R\bigoplus S|=1

差分隐私定义概念延展(完整版)

对于D,D\forall D,D'满足DD=1,ORange(A)|D\bigoplus D'|=1,O \in Range(A),如果算法AA满足Pr[A(D)=O]eεDDPr[A(D)=O]Pr[A(D)=O] \leqslant e^{\varepsilon * |D \bigoplus D'|}*Pr[A(D')=O],则算法AA满足εDD\varepsilon * |D \bigoplus D'|-差分隐私。

由于定义的前提是满足DD=1|D \bigoplus D|=1,所以就变成了ε\varepsilon-差分隐私。

注:接下来的原理解释,需要用到DD|D \bigoplus D|的性质

差分隐私的组合原理

差分隐私的串行组合原理

差分隐私中的组合性质-串行,并行,推论

  • 条件:
    1. 算法Ai(D)A_i(D)分别满足εi\varepsilon_i-差分隐私
    2. 任意两个算法的随机过程相互独立
  • 结论:
    • 算法满足i=1mεi\displaystyle \sum_{i=1}^m \varepsilon_i-差分隐私

差分隐私的并行组合原理

差分隐私中的组合性质-串行,并行,推论

  • 条件
  1. 这里说的并行指的是,输入数据集的并行。

  2. 定义差分隐私算法所保护数据库集合DD的元素xx定义在集合RR上,即R=domain(x)R=domain(x),因此有DRD \subseteq R

{R1,R2,,Rt}\{R_1,R_2,\dots,R_t \}RR的一种划分,满足R=i=1tRi,RiRj=,ijR=\displaystyle \bigcap_{i=1}^tR_i,R_i \cap R_j=\emptyset,i \neq j

​ 例如:差分隐私所保护的数据库中存储关于人的信息数据。其中DD表示一个具体的数据集作为算法的输入,而RR表示所有可用来表示一个人的信息集合。假定一种可能的划分是按照性别对数据库中的人进行划分,从而将人分为,男性,女性和未知,分别用R1,R2,R3R_1,R_2,R_3表示每种可能出现的所有人的集合。这些不同性别的人直接没有交集,同时合在一起组成所有的人。根据该划分规则可以将数据集划分为不同的自己,将满足划分子类RiR_i的数据自己为DiD_i,则Di=DRiD_i=D \cap R_i。(这种数据集划分规则有种,完备集的赶脚,只是这种划分规则的指定,就很有说法了。)

  • 结论

    算法满足ε\varepsilon-差分隐私。

重要说明(证明)

ij,DiDj=,DiDj=\forall i \neq j,D_i \cap D_j = \emptyset,D'_i \cap D'_j = \emptyset,因此对于i=1mDiDi\displaystyle \sum_{i=1}^m |D_i \bigoplus D'_i|推论如下:
i=1mDidi=i=1m(Didi)=i=1m((DRi)(DRi))=i=1m((DD)Ri)=((DD)i=1mRi=(DD)R \displaystyle \sum_{i=1}^m |D_i \bigoplus d'_i|=|\displaystyle \bigcup_{i=1}^m (D_i \bigoplus d'_i)|=|\displaystyle \bigcup_{i=1}^m((D \cap R_i)\bigoplus(D' \cap R_i))|\\=|\displaystyle \bigcup_{i=1}^m((D \bigoplus D') \bigoplus R_i)|=|((D \bigoplus D') \cap \displaystyle \bigcup_{i=1}^m R_i|=|(D \bigoplus D') \cap R|
因为RR为元素的定于有DR,DRD \subseteq R, D' \subseteq R。因此,上述的推导最终结果为:
i=1mDiDi=DD=1 \displaystyle \sum_{i=1}^m|D_i \bigoplus D'_i|=|D \bigoplus D'|=1

因此,在并行组合下的差分隐私算法满足ε\varepsilon-差分隐私。

推论

差分隐私中的组合性质-串行,并行,推论

  • 理解,可以从上面的图上进行类比。至于怎么证明,没看懂。可参考MathThinker

参考自MathThinker