直播预告 | 北航ACT实验室专场一-白红宇

直播预告 | 北航ACT实验室专场一

阅读量：2242 次

发布时间：2019-05-09

本文共 3646 字，大约阅读时间需要 12 分钟。

点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入！

4月16日晚7:30-9:00

AI TIME特别邀请了三位优秀的讲者跟大家共同开启北航ACT实验室专场一！

北京航空航天大学

ACT实验室

北京航空航天大学计算机新技术研究所(简称ACT) 成立于1999年。ACT实验室秉承“进取（Active）、创新（Creative）、合作(Teamwork)”的治学理念，依托北航计算机学院与北航大数据与脑机智能高精尖创新中心，围绕复杂大数据可计算、群体智能可学习、多态跨域知识可关联等科学问题，面向数据科学、智能科学、认知科学三大研究方向，研究网络数据挖掘、异常检测、时序分析的理论与算法，建立网络行为大数据智能计算平台Ring，为大数据应用提供科学技术手段。

ACT实验室坚持理论研究与技术研发相结合的原则，近年来发表持续在国际顶级期刊及会议TKDE、TC、TDSC、WWW、IJCAI、AAAI、INFOCOM等发表高水平论文，获得2021年AAAI最佳论文奖。同时，ACT实验室一直与国内外学术机构、企业等保持紧密合作，也是W3C中国总部运行单位等。

哔哩哔哩直播通道

扫码关注AITIME哔哩哔哩官方账号

观看直播

链接：https://live.bilibili.com/21813994

★ 邀请嘉宾 ★

张扬扬：北京航空航天大学计算机新技术研究所（ACT）实验室博士生，导师李建欣教授，主要研究方向为分布式机器学习系统、图计算与图学习等。

报告题目：

基于轻量级副本机制的

参数服务器无损故障恢复方法

摘要：

Modern distributed machine learning (ML) systems leverage large-scale computing infrastructures to achieve fast model training. For many servers jointly training a model, failure recovery becomes an important challenge when a training task could be accomplished in minutes rather than days. The state-of-the-art checkpointing mechanism cannot meet the need of efficient recovery for large-scale ML, because its high cost prevents timely checkpointing and a server failure will likely cause a substantial loss of intermediate results when the checkpointing intervals are comparable to the entire training times.

This paper proposes FreeLauncher (FLR), a lossless recovery mechanism for large-scale ML which performs ultralight replication (instead of checkpointing) to guarantee all intermediate training results (parameters) to be timely replicated. Our key insight is that in the parameter-server (PS) architecture there already exist multiple copies for each intermediate result not only in the server but also in the workers, most of which are qualified for failure recovery. FLR addresses the challenges of parameter sparsity (e.g., when training LDA) and staleness (e.g.,when adopting relaxed consistency) by selectively replicating thelatest copies of the sparse/stale parameters to ensure at least k up-to-date copies to be existent, which can handle any k−1 failures by re-launching the failed servers with recovered parameters from workers. We implement FLR on Tensorflow. Evaluation results show that FLR achieves lossless failure recovery (almost requiring no recomputation) at little cost.

孙佩源：北京航空航天大学计算机新技术研究所（ACT）实验室博士生，导师李建欣教授，主要研究方向为多层网络自动构建与挖掘分析。

报告题目：

网络自动构建与分析方法

摘要：

网络可以表征现实世界中实体间的多种交互作用，对现实世界中的复杂系统具有强大的建模分析能力。然而基于网络数据的分析面临如下几个困难与挑战：

（1）部分网络交互隐藏，难以直接观测，比如脑功能网络，僵尸网络等，仅能观测到节点间交互的活动序列数据，节点间关系无法直接获取；

（2）部分网络中节点间同时存在多种交互作用（即多层网络），比如论文合作网络，作者间可能在多个领域展开合作研究，再比如脑网络中神经元存在多个尺度上的交互作用；

（3）传统网络表示方法关注单层网络，而多层网络中存在关系的冗余耦合。

基于以上几个问题，我们展开了网络构建与分析的一系列工作：

（1）提出了基于点过程的隐式网络推断方法，应用于僵尸网络检测领域；

（2）通过融合网络文本数据，我们进一步提出了基于多元标记点过程的多层网络推断；

（3）提出了基于社团检测的多层网络嵌入方法；

（4）提出了基于细粒度数据流分析的网络语义构建与补丁检测方法等。

陈天宇：北京航空航天大学计算机新技术研究所（ACT）实验室一年级博士生，导师李建欣教授，本科在北航高等理工学院学习，曾在微软亚洲研究院（MSRA）自然语言处理组实习。主要研究方向为预训练模型和领域自适应等。

报告题目：

基于伪标签的语境化表征无监督领域自适应

摘要：

BERT一类的语境化嵌入表征模型可以轻松地通过微调在很多有标注数据的下游任务上取得领先的性能。但是，对于无标注数据的领域，BERT往往表现并不理想。在无监督领域自适应的场景中，我们希望只通过源领域的标注数据和目标领域的无标注数据来训练一个性能优异的模型。在这篇论文中，我们提出了一种基于伪标签的无监督领域自适应方法。通过在目标领域和源领域分别使用MLM方法进行无监督学习，我们获得了两个领域预训练模型，接着在源领域上进行微调，从而获得两个伪标签标注模型。最后，我们使用标注模型产生的伪标签来训练最终的模型。我们在名称实体分割和情感分析两个任务上尝试了这个方法。实验表明我们的方法在不同的任务上都取得了最好的结果。

直播结束后我们会邀请讲者在微信群中与大家答疑交流，请添加“AI TIME小助手（微信号：AITIME_HY）”，回复“phd2”，将拉您进“PhD交流群”！