Arxiv网络科学论文摘要11篇(2018-03-15)

  • PageRank的闭操作子和垃圾信息阻力;

  • 商业周期的内生机制;

  • 警告计算社会科学买者:广泛发布的Reddit语料库中的大规模缺失数据;

  • AURORA:在大图上审计PageRank;

  • 富信息图中的局部分区;

  • 算法社会干预;

  • 在传染病建模中使用概率生成函数的入门教程;

  • 如何评估Twitter时间排序数据的情感分类器?;

  • 建立认知模型的复杂网络框架:揭示连接的相关结构;

  • ;

  • 当莱顿排名中的两所大学进行比较时,可以预期哪些差异?一些制度研究评估的基准;

PageRank的闭操作子和垃圾信息阻力

原文标题: Closure Operators and Spam Resistance for PageRank

地址: http://arxiv.org/abs/1803.05001

作者: Lucas Farach-Colton, Martin Farach-Colton, Reut Levi, Moti Medina, Miguel Mosterio

摘要: 我们研究网络上的排名功能的可靠性。尽管存在图论的排序函数,例如Hubs和Authorities和PageRank,但没有关于这些函数的垃圾信息的图论概念。我们引入一个非常普遍的成本模型,它仅取决于观察到改变您拥有的页面的链接是免费的,而改变其他人拥有的页面上的链接则需要付出努力或金钱。我们将可定义性定义为用户发送垃圾信息的好处数量与用于垃圾信息的工作量/金钱数量之间的比率。获得高度评价所需的努力/资金越多,该功能的垃圾信息越少。我们的模型有助于解释为什么Hubs和Authorities以及标准PageRank非常容易发送垃圾信息。虽然标准PageRank很容易被垃圾信息,但我们表明,存在垃圾信息抵抗的PageRanks。具体而言,我们提出了一种排序方法Min-k-PPR,它是以k个可信站点为中心的一组个人化的PageRanks的组成部分。我们的主要结果是,Min-k-PPR本身就是一种PageRank,而且垃圾信息的成本很高。我们为PageRank阐明了一个令人惊讶的优雅的代数。我们定义了所有可能的PageRanks的空间,并显示这个空间在某些操作下封闭。最值得注意的是,我们显示PageRanks在(规范化的)组件最小下封闭,这确立了(归一化的)Min-k-PPR是一个PageRank。这种代数结构对于证明Min-k-PPR的垃圾信息阻力也很关键。

商业周期的内生机制

原文标题: An Endogenous Mechanism of Business Cycles

地址: http://arxiv.org/abs/1803.05002

作者: Dimitri Kroujiline, Maxim Gusev, Dmitry Ushanov, Sergey V. Sharov, Boris Govorkov

摘要: 本文认为,商业周期可能是经济市场动态耦合的表现,并描述了一种机制,可以产生与观察到的商业周期一致的经济波动。为此,我们试图在宏观经济框架中融入基于意见互动的动态股票市场模型(Gusev et al。,2015)。我们从微观基础推导出这个模型,提供包括市场回报预测(回溯测试和实时跟踪)在内的经验证据,证明它包含了作为特定制度的有效市场,并建立了经济模型可以用于研究经济的一个环节市场互动。为了检验关键效应,我们将这个模型与一个简单的经济模型联系起来(Blanchard,1981)。耦合系统产生非平凡的内生动态,表现出确定性和随机特征,产生准周期波动(商业周期)。我们还检查这个系统在阶段空间的行为。经济和市场被证明是沿着由带有两个稳定均衡的随机强制动力系统(一个经济扩张和另一个收缩的地方)动态协调的路径,导致商业周期被确定为相干共振现象。因此,如此处所述,将市场动态纳入宏观经济框架,可以在一个易处理的环境中推导出现实的行为,从而可以加强应用于政策分析的模型。

警告计算社会科学买者:广泛发布的Reddit语料库中的大规模缺失数据

原文标题: Caveat Emptor, Computational Social Science: Large-Scale Missing Data in a Widely-Published Reddit Corpus

地址: http://arxiv.org/abs/1803.05046

作者: Devin Gaffney, J. Nathan Matias

摘要: 由于研究人员使用计算方法来研究大规模的复杂社会行为,这种计算社会科学的有效性取决于数据的完整性。 2015年7月2日,Jason Baumgartner发布了一个广告数据集,其中包含“每条公开可用的Reddit评论”,该评论很快在Bittorrent和Internet Archive上共享。这些数据迅速成为许多学术论文的基础,包括机器学习,社交行为,,突发新闻和仇恨言论。我们在这个数据集中发现了很大的差距和局限性,这可能会导致对该研究结果的偏见。在本文中,我们记录了数据集,数据集中实质性缺失的观察结果以及从这些差距研究有效性的风险。总而言之,我们发现考虑用户历史或网络分析的研究存在较大的风险,对参与计数进行比较的研究风险较小,机器学习研究的风险较小,这避免了在Reddit上提出行为和参与的代表性声明。

AURORA:在大图上审计PageRank

原文标题: AURORA: Auditing PageRank on Large Graphs

地址: http://arxiv.org/abs/1803.05068

作者: Jian Kang, Hanghang Tong, Yinglong Xia, Wei Fan

摘要: 大型图表的排名在许多高影响力应用领域发挥着重要作用,从信息检索,推荐系统,运动团队管理,生物学到神经科学等等。 PageRank与许多基于随机游走的变体一起,已经成为众所周知并且广泛使用的算法之一,这是由于其数学优雅和跨越各种应用领域的卓越性能。最重要的是,现有技术缺乏直观的方式来解释PageRank(或其变体)的排名结果,例如,为什么它认为返回的top-k网页是整个图表中最重要的网页;为什么它给予演员约翰的地位高于演员史密斯的关联性w.r.t.一部特别的电影?为了回答这些问题,本文提出了PageRank的范式转换,从识别哪些节点最重要,到理解排名算法为什么给出特定排名结果。我们正式定义PageRank审计问题,其核心思想是确定对排名结果影响最大的一组关键图元(例如,边,节点,子图)。我们将其制定为一个优化问题,并提出一系列有效且可扩展的算法(AURORA)来解决此问题。我们的算法测量图元素的影响,并逐步选择影响因素w.r.t.他们在排名结果上的渐变。我们对真实世界的数据集进行了广泛的经验性评估,证明了所提出的方法(AURORA)提供了线性可扩展性的直观解释。

富信息图中的局部分区

原文标题: Local Partition in Rich Graphs

地址: http://arxiv.org/abs/1803.05084

作者: Scott Freitas, Hanghang Tong, Nan Cao, Yinglong Xia

摘要: 局部图分区是一个关键图挖掘工具,可以让研究人员识别小群相关节点(例如人)及其连接边(例如交互)。因为局部图分区主要关注图的网络结构(顶点和边),所以它往往不考虑属性中包含的附加信息。在本文中,我们提出---(i)通过考虑图的网络结构和属性数据以及(ii)所提出的本地图分割算法(AttriPart)的应用来提高局部图划分的可伸缩算法,预测当地社区的演变(LocalForecasting)。实验结果表明,我们提出的AttriPart算法比传统的本地分区技术(PageRank-Nibble)快速地运行约43美元/次。此外,我们的LocalForecasting算法显示,在基线方法中正确预测的节点和边的数量显著提高。

算法社会干预

原文标题: Algorithmic Social Intervention

地址: http://arxiv.org/abs/1803.05098

作者: Bryan Wilder

摘要: 社会和行为干预是政府和社区解决无家可归,疾病和贫困等根深蒂固的社会挑战的重要工具。然而,现实世界的干预几乎总是受到有限资源和有限数据的困扰,这带来了一个计算挑战:我们如何使用算法技术来增强社交和行为干预的目标定位和交付?我的论文的目标是提供对这些问题的统一研究,统称为“算法社会干预”。该提案将算法社会干预引入具有特征性技术挑战的独特领域,在这些挑战的背景下介绍我发表的研究成果,并概述未来工作的未解决问题。一个共同的技术主题是在不确定的情况下做出决策:在知识和资源的限制下,我们如何找到以理想的方式影响社会系统的行动?到目前为止,我的工作的主要应用领域是公共健康,例如,。例如,。其中两种算法已经与洛杉矶地区服务提供商合作为无家可归的青年进行了试点测试,初步结果显示相对于现状的方法有了重大改进。我的工作还涉及传染病预防和潜在算法问题的其他主题,以提高鲁棒性和风险意识的子模块优化。

在传染病建模中使用概率生成函数的入门教程

原文标题: A primer on the use of probability generating functions in infectious disease modeling

地址: http://arxiv.org/abs/1803.05136

作者: Joel C. Miller

摘要: 我们探讨了概率生成函数(PGF)在侵入性过程中的应用,重点介绍了引入大量人群的传染病。我们的目标是让读者熟悉PGF的应用,而不是获得新的结果。 PGF有助于预测一些关于早期暴发行为的特性,而人口仍然是无限的,包括流行病的概率,几代后的大小分布以及非的累积大小分布。我们展示了如何在离散时间和连续时间设置中使用PGF。在SIR流行病的大量人口限制中,PGF导致基于生存函数的模型,其等同于通常的SIR模型,但具有较少的ODE。我们使用这些来探索性质,例如流行病的最终大小,甚至一旦随机影响可以忽略不计,甚至动态。我们将本教程的目标对象是希望了解如何将PGF应用于侵入性疾病的生物学家和公共卫生研究人员,但也可将其用于PGF的入门数学课程。我们包含许多练习来帮助演示概念,并且我们提供了一个执行许多相关计算的小型Python包。

如何评估Twitter时间排序数据的情感分类器?

原文标题: How to evaluate sentiment classifiers for Twitter time-ordered data?

地址: http://arxiv.org/abs/1803.05160

作者: Igor Mozetič, Luis Torgo, Vitor Cerqueira, Jasmina Smailović

摘要: 社交媒体正在成为越来越多关于公众情绪的信息来源,例如选举,英国脱欧,股市等。本文主要关注Twitter数据的情感分类。情感分类器的构建是一项标准的文本挖掘任务,但我们在这里讨论如何正确评估它们的问题,因为没有确定的方式来实现。情绪类是有序的和不平衡的,Twitter产生一系列时间排序的数据。我们解决的问题涉及用于获得绩效度量的可靠估计的程序,以及训练和测试数据的时间顺序是否重要。我们以13种欧洲语言收集了大量150万条推文。我们创建了138个情感模型和样本外数据集,这些数据集被用作评估的黄金标准。相应的138个样本内数据集用于根据经验对六种不同的估计程序进行比较:交叉验证的三种变体和连续验证的三种变体(其中测试集总是遵循训练集)。我们发现最好的交叉验证和顺序验证没有显著差异。然而,我们观察到,所有交叉验证变体倾向于高估性能,而顺序方法倾向于低估它。随机选择示例的标准交叉验证比阻塞交叉验证要差得多,并且不应该用于在时间排序的数据场景中评估分类器。

建立认知模型的复杂网络框架:揭示连接的相关结构

原文标题: A complex network framework to model cognition: unveiling correlation structures from connectivity

地址: http://arxiv.org/abs/1803.05239

作者: Gemma Rosell-Tarragó, Emanuele Cozzo, Albert Díaz-Guilera

摘要: 认知和智能研究的几种方法依赖于基于统计的模型测试,即因子分析。在目前的工作中,我们利用新兴的动力系统观点,把重点放在认知过程之间关系的网络拓扑的作用上。我们经历了几种不同的认知现象模型,但却发现它们在数学上是等价的。我们发现该系统的非平凡吸引子对应于众所周知的网络中心性的确切定义,因此强调了动态和底层网络连接之间的相互作用,表明这两者是相关的。认知过程之间的连接结构尚不清楚,但它不是。不管网络如何考虑,始终有可能恢复相关性的积极多方面。然而,我们表明,不同的网络拓扑导致关于相关结构的不同合理的统计模型,范围从一个到多个因子模型和更丰富的相关结构。

原文标题: Capturing the influence of geopolitical ties from Wikipedia with reduced Google matrix

地址: http://arxiv.org/abs/1803.05336

作者: Samer El Zant, Katia Jaffrès-Runser, Dima Shepelyansky

摘要: 国家之间的相互作用来源于不同的方面,如地理相近,贸易,社会文化习惯,语言,宗教等。。。实际上,,历史,,为各国提供了可靠的知识和强大的相关性。本文的主要研究结果表明,。我们利用一种称为简化的Google矩阵理论的复杂有向网络的马尔可夫链的随机矩阵表示。对于选定的小尺寸节点集,,以保持全球Wikipedia网络的PageRank概率。我们进行了一项新的灵敏度分析,利用这个缩减的Google矩阵来表征来自全球网络的国家之间关系的影响。我们将这种分析应用于两组选定的国家(即一组27个欧盟国家和一组40个世界顶级国家)。我们表明,通过我们的敏感性分析,,阿拉伯语,俄语,。

当莱顿排名中的两所大学进行比较时,可以预期哪些差异?一些制度研究评估的基准

原文标题: Which differences can be expected when two universities in the Leiden Ranking are compared? Some benchmarks for institutional research evaluations

地址: http://arxiv.org/abs/1803.05399

作者: Lutz Bornmann, Wolfgang Glänzel

摘要: 两个大学在文献计量指标方面的比较往往面临着评估差异是否有意义的问题。这封给编辑的信提出了一些基准,可以用来支持对制度差异的解释。

声明:Arxiv文章摘要版权归论文原作者所有,由本人进行翻译整理,未经同意请勿随意转载。本系列在微信公众号“网络科学研究速递”(微信号netsci)和个人博客 https://www.complexly.me (提供RSS订阅)进行同步更新。