这三年多,我1/3强甚至1/2的工作,都是在这个基金支持下完成的。下面是结题报告的主体,是我给物理二处的答卷!
---- 报告主体 ----
在基金委的支持下,通过被资助人及其合作者的努力,本项目得以顺利完成,形成了30余篇标注了基金号的已发表、接收或投稿论文(其中24篇已经发表在PNAS、NatureCommunication等权威学术期刊的论文以及其他有代表性的论文共计30篇)。下面,我首先总结本项目取得的几个主要方向的进展,然后选择篇代表性成果进行详细阐述。在参考文献中,个别论文未标注本基金号,在认定成果的时候,请以成果列表为准。这些结果受到了国际学术媒体的广泛关注,被PhysOrg和MIT Technology Review等专题报导。
(1)网络链路预测。我们通过对网络邻接矩阵谱性的分析,找到了刻画一个网络缺失链路“可被预测的程度”的特征量,走出了计算网络可预测性的第一步,并基于此设计了网络链路预测的新算法[1]。通过引入网络的哈密顿量,我们还给出了基于似然分析的网络链路预测新算法,该算法的精确性在目前已知的结构算法中是最高的[2]。我们还将链路预测问题推广到了有向网络[3]和含权网络[4]等不同类型网络上。
(2)网络节点排序。我们分析了当前节点排序主流算法各自的表现和优缺点[5][6],发现了一些重要排序指标之间的数学关系[6],提出了一系列新的节点排序算法,包括引进了H-指数作为节点排序的新指标[6],通过考虑节点簇系数提高排序的准确度[7],通过考虑链路的冗余性提高k-shell指数的准确度[8],以及考虑含权情况[9]、包含恶意节点情况[10]和已知动力学过程情况[11]下的节点排序算法。
(3)网络结构和动力学分析。我们利用似然分析的办法,提出了一种评价网络模型和真实网络演化行为之间一致程度的方法,该方法不依赖于某些特定的拓扑特征,并且可以量化揭示网络中各种生长机制的强度[12]。我们还讨论了网络中某些动力学过程的一般化特征,包括含权网络中强边和弱边对于传播各自不同的价值[13],以及靴襻渗流过程在空间网络中出现的新型相变[14]等。特别地,我们指出针对异质复杂系统(例如幂律分布的时间序列和度分布为幂律的复杂网络),以Pearson关联为代表的参数,包括刻画时间序列记忆性的自关联函数和刻画网络度度相关性的相关系数,都具有理论上的缺陷。我们通过严格的解析分析,分别得到了上述两个参数的理论界[15][16]。
(4)人类行为分析。我们以瑞士数百名志愿者的出行记录为基础,分析了人类空间移动轨迹的标度规律,并建立了统计物理模型,给出了机制解释[17]。我们以街旁数百万签到记录为基础,分析了本地人和异地游客在出行轨迹上的异同,基于此提出了更精确的轨迹预测算法[18]。我们还分析了用户在线行为的时间标度规律,包括用户访问电子商务网站(例如淘宝)的行为[19]和用户在线协同工作(例如维基百科)的行为[20]。我们不仅发现了新的统计规律,还建立了统计物理模型并对实证结果进行了理论揭示。我们进一步深入到用户的“心理-行为”层面,揭示了用户在进行互联网评价和接种疫苗的时候可能出现的行为偏差,包括锚定效应[21]和布雷斯悖论[22]。特别地,我们撰写了长达60页的人类动力学的综述文章[23],系统性地总结了这方面国际国内的研究成果。
另外,我们还在一些和本项目研究内容相关的方向上作出了一些贡献,包括与网络博弈动力学紧密相关的零行列式博弈问题[24][25][26],与人类动力学紧密相关的复杂多智能体群集运动的自组织原则[27][28][29],个性化推荐这一典型的信息过滤问题[30][31],以及网络分析手段,特别是节点排序算法在真实企业雇员关系网络分析以及升离职预测中的应用[32][33]。
下面按照发表时间顺序,遴选一些有代表的研究成果进行较详细的介绍。在选择代表性工作的介绍中,我倾向于选择一些已经正式发表的工作,而非正在投稿的工作,但这不说明前者质量一定好于后者。
一、人类行为轨迹分析中的个体多样性和标度律[17]。
最近几年很多文献都指出,人类移动中空间位移的分布可以用幂函数律(带一个指数尾巴或漂移)来刻画(请参考综述[22]以及其中相关文献)。但是这些研究所采用的数据,例如钞票的旅行记录数据、手机激活的数据和出租车GPS数据,都存在一定的问题:(1)钞票和出租车数据并不能表示单个个体持续的活动;(2)手机虽然是个人的,但是两次激活之间个体可能没有出行,或者只是一段有目的出行的一小部分,又或者是几次出行的叠加。另外一个危险,就是一些研究暗示根据在群体水平上统计得到的人类出行距离服从幂律分布,可以推断出群体中的每个个体的出行距离也同样服从幂律分布[34]。但Hidalgo[35]已从理论上证明了把一群具有不同一阶矩的泊松个体聚集在一起可以产生群体水平上的幂律分布,也就是说仅根据群体水平上的统计结果并不能推断出个体的行为,这一点在动物的空间运动实证研究中已经获得证实[36]。
图1:a-c:3个典型个体的出行距离分布,分别是学生、职员和退休者;d-f:对应的三个典型个体的移动网络。移动网络是根据个体移动轨迹构建的加权无向网络,网络中节点是个体的停留地点,如果在两个地点间有出行,则在对应的两个节点之间连边,网络的边权为出行次数,点权为停留次数。
为了在更坚实可信(虽然规模很小)的数据集上探索这个问题,我们分析了瑞士弗劳恩菲尔德市230名志愿者填写的日常出行日志[17]。这个数据集记录了6周的时间内志愿者们每次出行的起点、终点、距离等信息,同时还提供了志愿者的年龄、性别、职业等个人信息。我们对数据集中每个个体的出行距离分布进行了统计,发现绝大多数个体的出行距离并不符合幂律分布。特别是我们发现学生、职员、退休者等不同个体有着完全不同的日常出行模式(见图1):相对于退休者,学生和职员更容易在固定的地点(比如家、学校或工作地)之间频繁的移动,我们将每个个体最频繁的出行称为“支配性出行”(对于学生而言,一般是连接家和学校的行程;对于职员而言,一般是连接家和工作地点的行程)。支配性出行的存在使得个体出行距离呈现有峰值的分布,除非个体的支配性出行距离很短,否则出行距离分布很难具有幂律特性。
图2:群体的出行距离分布。
有趣的是,我们在群体水平上对数据集的出行距离分布进行统计后发现,群体的出行距离近似服从一个带有指数截断的幂律分布(见图2),与对手机用户所进行的实证研究结果[37]非常接近。我们注意到,城市人群的移动与气体分子的运动有很多相似之处:在个体层面上的移动没有任何规则,但在群体层面上却涌现出了规则的模式。受此启发,我们用统计力学中经典的麦克斯韦-玻尔兹曼(Maxwell-Boltzmann)模型来解释城市人群出行距离幂律分布的现象,这个模型在本问题中等价于给定所有旅行的总成本之后符合最大熵原理的分布。通过理论分析可以得到(分析的细节请参考文献链接),在混合交通情况下,货币费用通常与出行距离具有线性关系而出行时间与距离则具有“对数+线性”关系,得到的最大熵原理下的出行距离分布近似为带有指数截断的幂函数律,和我们的实际数据非常符合;而在单一交通工具下,由于出行时间和距离是线性关系,得到的最大熵原理下的出行距离分布为指数,这个分布得到了来自北京出租车、底特律汽车、石家庄公交、美国航空等多组实证数据的支持[17]。
该文发表后受到广泛关注,迄今被引用40余次,包括Barabasi小组在顶级期刊Nature Communication上的他引[38]等等。
二、传染病流行中的布雷斯悖论[22]。
在一个交通网络上增加一条路段反而使网络上的旅行时间增加了,而且是所有出行者的旅行时间都增加了,这一附加路段不但没有减少交通延滞,反而降低了整个交通网络的服务水准,这种出力不讨好且与人们直观感受相背的交通网络现象就是人们所说的布雷斯悖论现象。出现布雷斯悖论的原因是,当新的通路形成后,一些出行者为了“抄近路”(减少自己的旅行时间),实际上形成了拥塞,使得很多其他原本可以很快达到的旅行者旅行的时间变长了,从而降低了整个系统的收益[39][40]。更理论一点,如果每个人从个体利益出发,可以达到某种“纳什均衡”(个体无论做什么改变都不会提高自己的收益了),但是这个整个社会收益最大的帕累托最优之间还有很大的距离。从纳什均衡到帕累托最优之间的距离,赋予了我们各种各样悖论的想象空间。
我们考虑了布雷斯悖论在传染病流行中的一种可能变体[22]。面对传染病的流行,人群可能有不同反应,我们简单将他们分作三类:接种疫苗(需要花钱,可能有副作用,但是是最有效避免传染病的手段),自我保护(勤洗手来勤换衣,足不出户宅一年,一般来说会有一些效果,但是不能完全避免感染),放任不管(没有任何成本,但是风险也最大)。可以用一个典型的演化博弈模型在刻画人群的行为,因为不同选择收益和付出个不一样,他们也可以根据历史的收益去学习自己邻居的策略。
图3:(a)一条典型的布雷斯悖论曲线,即当个体保护策略效果更好(随着δ的增大),有可能会出现系统中感染者比例反而上升的情况。(b-e)是曲线不同区段对应的系统斑图,具体细节请参考文献[22]。
如图3所示,我们发现,当提高自我保护的成功率之后——条件变得更好了,传染病的流行范围和系统的总收益都会下降——结果变得更差了!这是因为,个人免疫本身会带来所谓的“经济外部性”,也就是他自己的免疫可以使得周围人感染的概率下降,从而总体来说有助于提高整个人群的收益。这种“经济外部性”从个人的收益矩阵中体现不出来,因此被很多演化博弈,特别是涉及到种群动力学的演化博弈所忽略,本文指出,需要特别重视对于经济外部性的影响。
进一步地,文章讨论了不同网络结构对于传染病流行中的布雷斯悖论发生范围和发生强度的影响,指出网络结构的局部性对观察到的布雷斯悖论起到了推波助澜的作用,这和我们的分析吻合,因为局部性越强的网络免疫的经济外部性越明显。最后,我们通过平均场假设,进行了解析分析,得到了和模拟实验一致的结果。
本文除了指出演化博弈模型中“经济外部性”的重要性之外,还以一个简单的例子说明有人参与的经济社会动力学,由于“人受环境影响,反过来又影响环境”这种复杂性,会形成意想不到的反馈关系,政府在考虑一些政策和引导的时候,不能走“线性思维”的笨路。本文发表后受到了广泛关注,仅在重要权威期刊Physicsof Life Reviews(近两次影像因子为7.5和9.5)上就有三篇评述论文对本文进行了正面的介绍。
三、从官僚主义到平等主义:鸽子群集运动的复杂策略[28]。
从慌乱的人群,到椋鸟、海洋鱼类,再到蝗虫乃至细菌,不同尺度的生命体都被观察到出现群集运动的现象[41]。20年前,TamasVicsek等人就提出了著名的Vicsek模型[42],认为个体下一时刻运动由周围的邻居影响(例如选择周围邻居的平均方向),这种简单规则可以再现复杂的群集运动模式。20年来,这篇文章被引用了3600多次,其间有很多变体和分析被提出,但是这种思想深入人心。
几年前,Vicsek小组自己的一篇实验论文对自己的模型提出了质疑!他们通过对十几只鸽子的精密飞行轨迹(通过在鸽子脚上捆绑GPS设备)进行跟踪,发现鸽子在飞行的时候存在一种“领导-被领导”的层次网络结构——这种有点官僚特色的鲜明的层次性结构,可能是高效形成集群的原因[43]。
我们和Vicsek小组一起,对他们的数据进行了进一步地分析[28]。我们发现,鸽子在飞行中实际上混合了“听领导的”和“听周围朋友的”这两种策略。就运行方向而言,当飞行轨迹平滑的时候,鸽子尽力与周围邻居的平均方向保持一致;而当出现突然的急转弯变向的时候,鸽子迅速和领导保持一致。在决定飞行速度的时候,周围邻居对鸽子的影响一直都比领导大。
这些研究结果不仅帮助我们更好地理解自然界中生物是如何自组织形成群集运动的,而且可以帮助我们设计更好的无人阵列编队策略。
四、网络链路的可预测性分析[1]。
链路预测(LinkPrediction)是网络科学中一个重要而有趣的基本问题[44],其最简单的数学形式是给定了已经观察到了网络结构,来预测可能被我们观察漏掉的,或者未来会出现的一些链路(Links)。精准的预测结果既可以指导生物学的实验——因为大部分我们观察到的生物网络,只是真实网络中很小的一部分,需要通过大量实验来确定其他的部分,还可以用来进行社交网络的好友预测——如果我们能够猜到你未来交友的趋势,这种“猜你要关注”的推荐就会变得非常精准。好的预测算法本身,还给出了很多网络演化可能机制的暗示[12]。
遗憾的是,我们并不知道一个算法是否“足够精确”。针对一个完全随机的网络,“什么都预测不到”可能已经是最好的结果了,但是针对一个非常规则的网络,聪明的方法可能能够100%进行预测。知道了一个网络的链路在多大程度上“能够被预测出来”,就能够提供给我们很强大的工具,使得我们可以去判断算法是否已经接近甚至达到预测的上界,是否还有提升的空间。事实上,这个“可被预测的程度”,本身也可以看做是网络重要的一种性质。
困难的是,链路可预测性的上界,并不像移动轨迹可预测性的上界[45],可以通过柯尔莫洛夫熵与Fano不等式的结合来进行刻画。从自同构群的角度来看,待预测的链路(真实存在但是不在观测集合中)与实际不存在的链路总是可以区分的,所以一个真实网络的链路可预测性,原则上应该都是1——这种上界是没有价值的。
为了衡量网络可被预测的难易程度,我们提出了一个假设:网络越是具有某些规律性(regularities),越是容易被预测[1]。进一步地,我们认为,如果随机从网络中抽取出一小部分链路,网络的特征向量空间受到的影响很小,就说明网络是具有规律性的。在这种思路的基础上,我们应用类似于量子力学中对哈密顿量做一阶微扰的方法,假定减少或者加入少量链接所产生的微扰,只对特征值有影响,而对特征向量没有影响,这样可以观察微扰后通过这种办法重构的邻接矩阵和真实邻接矩阵的差异。我们提出了一种度量这个差异的参数,叫做结构一致性(structuralconsistence),这个指标是网络的一个特征指标,被认为可以直接用来刻画网络的“可被预测的程度”。图4给出了这种方法的一个示意图,更详细的介绍请参考文献[1]。
图4:结构一致性指标和结构微扰法的示意图,更详细的介绍请见文献[1]。
大量的模拟网络和真实网络实验都支持了我们的结论:结构一致性越强的网络越容易被准确预测丢失的链路。我们利用结构一致性,提出了一种新的名为“结构微扰法”(structuralperturbation method)的新的链路预测方法。这个方法在预测丢失的链路,以及甄别网络中添加的噪音边两方面都明显超过了当前主流的方法,包括知名的层次结构法[46]和随机分块法[47],等等。
这个工作不仅提供了一种链路预测的方法,还提供了我们刻画网络的新的参数,对于理解网络有很大的帮助。举个例子来说,如果我们一直测量网络的结构一致性,当网络背后的演化机制发生变化的时候,我们就能够立刻观察到结构一致性的变化(参考文献[1]的补充材料)。
五、网络节点度、H指数与核数之间的优美关系[6]。
网络是由节点和链路组成的系统,刻画网络节点重要性对于理解网络结构、演化和其上的动力学过程非常重要。刻画网络节点重要性的指标很多很多。先考虑一个无向简单图。最简单的就是节点的度,等于节点直接邻居的个数。一般而言,我们认为度越大的节点越重要,例如在疾病流行过程和信息传播过程中,如果初始患病者/传播者在网络中度很大,那么疾病或者信息有更大可能在网络中扩散开来。
但是,衡量一个节点的重要性,远远不止那么简单。例如,Kitsak等人认为,节点度只能刻画节点周围很局部的特征,远远不能描述一个节点在传播动力学中的重要性[48]。Kitsak等人提出可以用节点的核数(coreness)来更好度量节点的重要性。一个节点的核数,就是网络在进行k核分解(k-core decomposition)是的k-shell指数。对于一个网络,0核是原图;1核就是去掉所有孤立点的图;2核就是先去掉所有度小于2的点,然后再剩下的图中再去掉度小于2的点,依次类推,直到不能去掉为止;3核就是先去掉所有度小于3的点,然后再剩下的图中再去掉度小于3的点,依次类推,直到不能去掉为止……一个节点的核数定义为这个节点所在的最大核的阶数——比如一个节点最多在5核而不在6核中,就说这个节点的核数=5。
图5:全球路由器网络不同阶H指数的分布情况。
另外一个学者耳熟能详但是在网络科学中应用较少的指标,就是H指数[49],它度量一个科学家有最多有多少篇论文每篇被引用的次数都不少于这个篇数。我们把H指数引进网络中[6],认为一个节点的H指数如果是h,就说明这个节点有h个邻居,它们的度都不小于h。我们注意到,H指数也是一个很好的度量网络节点重要性的指标(而且很简单直观),综合表现比度和核数似乎都好。
我们可以自然地定义一个算子H,它作用在一组实数上,返回一个非负整数,就是这组实数的H指数(有多少数不小于多少)。这个算子H作用在一个节点所有邻居的度上,就得到了这个节点的H指数。让人惊讶的是,我们发现了一个网络中非常基本的定律,就是把这个H算子继续作用在节点邻居的H指数上,得到H2指数;再作用在H2 指数上,得到H3指数,依次类推。最后,这个值会收敛到核数。换句话说,原来非常非常重要(可能最重要将来也最常用),但是看起来各自独立的三个节点度量指标:度、H指数和核数,可以通过一个简单的算子H连接起来,而度、H指数和核数只是一连串作用的初态、中间态和稳态。我们进一步证明,在异步更新的条件下,H算子也会驱动导致这个值唯一收敛到核数,这就使得分布式地计算动态增长网络的核数变得可能。
通过对大量真实网络上各种动力学(SIR传播、SIS传播、Percolation等等)的实验表明,H指数,包括H2、H3指数、……、核数(H-familyindices)等等,都能够很好地刻画网络的重要性,其中H指数综合表现最佳,应该可以说性价比最好(因为阶数越大的H指数,计算所需要的时空复杂性越大)。这个工作的意义不仅在于找到了刻画节点重要性的新指标,更重要的是发现并证明了网络结构的基础性的重要定理,这也是综合类期刊中比较少见的发表完整定理证明的工作[6]。
参考文献:略
以上就是小编为大家整理的[统计物理+信息科学]优秀青年基金结题报告,想要了解更多优质的相关资讯,请大家多多关注"大世界日记"。