CIKM2021FKGE:差分隐私的联邦知识图谱嵌⼊
本⽂介绍我们最近的⼀项被CIKM 2021录⽤的⼯作《Differentially Private Federated Knowledge Graphs Embedding》:
摘要
知识图谱嵌⼊在知识表⽰、推理和数据挖掘等应⽤中起着⼗分重要的作⽤。然⽽,对于多个跨领域的知识图谱来说,⽬前最先进的嵌⼊模型⽆法在保护数据交换过程中产⽣的隐私的同时,充分利⽤来⾃不同知识领域的数据和信息。并且集中式的嵌⼊模型⽆法拓展到⼴泛的现实世界的知识图谱中。因此,我们提出了⼀种新颖的去中⼼化的可拓展学习框架——Federated Knowledge Graphs Embedding(FKGE),实现了在保护隐私的同时以异步和对等的⽅式学习不同知识图谱的嵌⼊。FKGE 利⽤成对的知识图谱间的对抗⽣成将不同领域的相同实体和关系转换到临近嵌⼊空间。为了保护训练数据的隐私,
FKGE进⼀步实现了隐私保护对抗模型(PPAT),来保证原始数据不被泄露。我们进⾏了⼤量的实验来评估11个知识图谱上的FKGE模型,三重分类和链路预测任务的性能提⾼了近17.85%和7.9%,这证明了我们模型的质量取得了显著且⼀致的改进。
研究背景
海上钢琴师 下载
知识图谱(KGs)的构建推动了很多应⽤的发展,如语义搜索、推荐系统等。⽬前已有⼏个⼤型通⽤的KGs,如Wikidata、Yago等。还有很多各种规模的专业领域的KGs,如地理学中的GeoNames 和语⾔学中的Lexvo。然⽽⼤多数公司建⽴⾃⼰的商业KGs往往需要耗费很⼤的⼈⼒和计算成本。除了保护隐私外还有很多其他原因使得他们不愿分享⾃⼰的KGs。但很多时候,公司⼜必须通过交换信息来改善⾃⼰的数据质量和服务。⽬前的知识图谱嵌⼊模型在对实体和关系进⾏向量表⽰时,当不同的KGs的嵌⼊空间对齐,则他们可以共享信息。但是向其他参与者透露向量表⽰会泄露隐私信息。即⽆法满⾜既想共享信息⼜想保护隐私的愿望。因此,我们希望设计⼀种更松散耦合的合理的⽅式来共享KGs。
知道我对你不仅仅喜欢我们引⼊允许多个数据所有者在不影响数据隐私的情况下协作构建模型的联邦学习,经过联合训练后,每个KG仍然不知道其他KGs的嵌⼊空间,但每个KG的嵌⼊却得到了改善。另外,在PPAT⽹络中引⼊的差分隐私(DP)机制可以保证:在训练每对对齐实体的嵌⼊时,任⼀单个的嵌⼊不会被泄露。这也允许我们针对不同的KGs使⽤不同的基础KG嵌⼊模型。
模型框架介绍
我们将来⾃分别独⽴的拥有者的知识图谱的集合表⽰为,其中N表⽰KGs的总数量。内每个元素都来⾃于不同的数据库,并且不能互相访问。⽤表⽰内的第k个知识图谱,其中,、、分别表⽰中实体、关系和三元组的集合。每个三元组由⼀个头实体、⼀个尾实体和⼀个两者之间的关系组成。对于内的任何⼀对知识图谱,我们假设通过秘密哈希函数可以得到对齐实体集和关系集。我们的⽬标是利⽤得到的对齐实体集和关系集进⼀步改进任⼀单个知识图谱的所有嵌⼊。
下图是FKGE的整体框架。每个知识图谱的拥有者在本地训练⾃⼰的实体和关系的嵌⼊,基于训练后的嵌⼊,FKGE从成对的KGs聚合对齐实体和关系的嵌⼊,然后以联邦学习的⽅式更新嵌⼊。对于来⾃任何⼀对知识图谱(如:)的对齐实体和嵌⼊,FKGE存在⼀个秘密通道来优化和的嵌⼊,并进⼀步分别改进每个知识图谱内和的嵌⼊。另外,FKGE提出了⼀种联合训练机制:通过⼴播来促进各⽅的共同进步。更具体地说,如果或得到了改进,那么它将向其他KGs⼴播信号来进⼀步提⾼整体结果。否则,它将会变回联合前的原始嵌⼊。
通过下⾯的例⼦并配合上图,来更清晰地介绍FKGE框架。起初,, , 分别在本地训练⾃⼰的嵌⼊,第⼀次联合得到了, 和三对KGs,联合后和得到了改进,⽽训练所需的时间更久且没有得到改进,所以回到了最初的嵌⼊。在第⼆次联合中,和 配对得到了,,并且只有得到了改进,则会回溯到先前的嵌⼊。由于仍然在训练过程中,它将不参与第⼆次联合并在没有可以配对的KG存在时进⼊睡眠状态。第三次联合中完成了训练并唤醒了,形成了, 和三对知识图谱。整个训练将在所有KGs都没有改进时结束。
模型设计详述
PPAT——隐私保护对抗模型
对于具有对齐实体和关系的,FKGE利⽤GAN结构统⼀对齐实体和关系的嵌⼊。但是由于神经模型可能会记得输⼊并且能够从对应的输出中重建输⼊,隐私忧患仍然存在。为进⼀步解决隐私问题,我们引⼊差分隐私将⽣成的嵌⼊私有化。由于包含和排除某个特定的嵌⼊不会对结果分布产⽣很⼤的影响,所以差分隐私能够为保护⽣成器输出的任何单个的嵌⼊提供强有⼒的保证。差分隐私的定义如下:
定义1(相邻数据集):如果,那么我们称为相邻数据集。
定义2(差分隐私):对于任意两个相邻数据集以及输出的任何⼀个⼦集(),如果存在⼀个域为、范围为的随机算法满⾜下式,则称可以提供-差分隐私:
其中,表⽰隐私预算。由于相邻数据集的算法输出相近,所以越⼩,隐私保护效果越好,模型效⽤也越低。表⽰信息意外泄露的概率。基于上⾯的定义,PATE-GAN提出了⼀种修订的GAN结构,通过将PATE机制和教师、学⽣鉴别器⼀起应⽤来⽣成差异私有的⽣成器输出。基于上⾯的说明,我们实现了PPAT⽹络。
PPAT⽹络的结构如上图。PPAT⽹络将原来GAN结构中的鉴别器替换为多个教师鉴别器和⼀个学⽣鉴唱腔另类>中国好声音第四季歌曲
别器,以实现⽣成嵌⼊的差分私有。具有参数(也就是平移映射矩阵)的⽣成器位于的数据库内,具有参数的学⽣鉴别器和具有参数的多个教师鉴别器位于的数据库内。代表客户端,代表主机。主机负责⽣成器和所有鉴别器的反向传播计算,⽽客户端仅传输其⽣成的嵌⼊并接收梯度以更新其⽣成器参数。我们⽤表⽰中和的嵌⼊,⽤表⽰中和的嵌⼊。⽣成器的⽬标是通过让尽可能相似于⽣成对抗样本,使学⽣鉴别器⽆法区分出它们。⽣成器损失的⽬标函数为:
其中,,S表⽰学⽣鉴别器。
教师鉴别器的学习⽬标和原始鉴别器相同——区分假样本和真实样本。唯⼀的区别是,教师鉴别器是在不相交的⼦集上训练的。教师鉴别器的损失为:
其中,表⽰由的数据集和组成的满⾜的⼀个⼦集,不同⼦集间没有交集。
学⽣鉴别器S的学习⽬标是对给定了聚合噪声标签的⽣成样本进⾏分类。更确切地说,教师鉴别器的预测结果和随机注⼊的拉普拉斯噪声将决定S的标签。PATE机制如下:
其中,, 是两个独⽴同分布的引⼊到教师鉴别器预测结果中的噪声,并且都呈参数为的拉普拉斯分布。表⽰将输⼊预测为类别的教师的数量:
然后学⽣鉴别器利⽤带有噪声标签的⽣成样本在主机数据库上进⾏训练,学⽣鉴别器损失函数为:
其中,,即教师鉴别器选出的聚合噪声标签。
PPAT模型的流程⼤致如下:X中对齐实体和关系的原始嵌⼊被提供给⽣成器来⽣成对抗样本,之后会被传输到主机的所有教师鉴别器。通过在教师鉴别器的选择结果中添加拉普拉斯噪声满⾜差分隐私的要求。然后学⽣鉴别器由带有聚合标签的合成嵌⼊训练,其中包含教师鉴别器选出的0/1。The Post-Processing Theorem说明数据独⽴映射f与差分私有的算法M的组合也是差分私有的。根据该定理,学⽣鉴别器S也是差分私有的,这是因为它被差分私有的标签训练。另外,⽣成器G也是差分私有的,是因为G由学⽣鉴别器S训练。因此传输的嵌⼊是合成且差分私有的,是因为它们是⽣成器G的输出。在训练过程中,主机在本地计算⽣成器和所有鉴别器的损失函数:使⽤学⽣鉴别器损失和教师鉴别器损失的梯度在本地更新鉴别器的参数,同时⽣成器损失的梯度返回给⽣成器以更新其参数。因此,和都⽆法访问对⽅的嵌⼊或是原始数据。因此,对于知识图谱所有者的任何参与者,原始数据的隐私都受到保护。
联合训练
对于多个知识图谱,我们在中的任⼀对间构造PPAT⽹络,其中,或,所以最多可以同时得到个PPAT⽹络。对于任⼀对知识图谱,⾄少分别存在⼀个客户端和⼀个主机。另外,异步和去中⼼化的设置允许单个知识图谱拥有者选择是否与其他拥有者合作。合作过程可以被描述为握⼿协议。存在ready、b
甜蜜蜜鹿晗usy、sleep三种状态。Ready表明拥有可⽤的计算资源并且积极与其他KGs合作。Busy表明没有⾜够的资源,此时不会响应任何的合作请求。并且,合作者将会被放进队列,直⾄完成⼯作准备好进⾏合作。Sleep表⽰尽管具有计算资源,但是不会接受任何合作请求。也就是说,如果ready时不能到⼀个合作者,那么就会转换为sleep,并会在特定时间段或是收到合作请求后唤醒到ready 状态。和之间成功的握⼿协议需要,并且⾄少⼆者之⼀为ready状态。
实验与论证
我们选取11个不同规模的知识图谱,使⽤相同类型的具有相同配置的GPU设备在11个独⽴进程上进⾏所有的对⽐实验。FKGE 框架与不同的 KGE ⽅法兼容。我们选择OpenKE中流⾏且简单的基于翻译的模型:TransE、TransH、TransR 和 TransD,来评估三重分类和链路预测任务下不同⽅法的性能。两个任务的实验结果均表明了FKGE模型的有效性和适应性。
另外,我们还进⾏了消融研究,在对齐实体和关系的有效性、对齐实体的规模、嵌⼊维度和噪声规模四个⽅⾯验证了FKGE的有效性。最后还在实验的时间成本上论证了FKGE的可拓展性。
综述宋承宪最新电视剧
本篇论⽂提出了⼀种新型的知识图谱嵌⼊模型(FKGE),它具有以下特征:
1. 异步和去中⼼化:与基于客户端的集中模型不同,FKGE 将来⾃不同域的 KG 与对抗性⽹络配对。
2. 可拓展并可与很多基础嵌⼊模型兼容:异步和去中⼼化的设置使得配对的知识图谱之间可以并⾏计算。此外,FKGE 可以通过握⼿协
议作为现有 KG 嵌⼊⽅法的元算法。
3. 保护隐私,保证原始数据不被泄露:FKGE 的设计不需要合作者之间的原始数据传输,并且传输的⽣成嵌⼊是差分私有。