全球机器智能峰会 (Global Machine Intelligence Summit 简称 GMIS)
本次由机器之心和市北高新集团联合举办 https://gmis.jiqizhixin.com/
以各大咖主题演讲30分钟为主,每天最后还有一轮5人圆桌会议,共两天。
AI落地例子或各个topic:
李航,南大教授,《统计学习方法》作者, 自然语言对话:未来技术发展的机遇与挑战
主要讲了 NLP 的难点,现在语音助手发展情况,离强人工智能还远,以及未来的机遇和可行方法。
针对语音助手,李老师给出下面这些统计数据:
用户使用语音助手的频率:
(下面的图例很遗憾没拍到,也忘记了,印象里占比最大的是3~4次每两周)在不同设备场景下,使用频率相差会比较大:
语音助手各应用使用率:
建议进行这些类别的机器人探索(opportunities):
- task-oriented bots
- informational bots
- emotional bots
- game bots
设计对话系统时要注意的点(principles in dialogue system design):
- Self-contained in each scenario
- fails gracefully
- being compassionate, emotional, and funny, if possible
- never pretends to be smart
提升技术上界,降低用户使用下限
王建宇,中科院上海分院长,遥感信息技术应用大数据
王院长是搞卫星遥感的,所以主要内容也就是卫星拍下的各类图像数据的处理,让我感觉很厉害的是卫星使用多光谱技术后所能做的事情。以下是卫星多光谱成像原理图:
区分水稻种类:
多光谱用于识别农业作物信息,不仅能识别植被类别,现在的精度已经能够达到识别哪种水稻品种,有什么种类病害,生长水平。
后面周涛老师也借例调侃道 “搞农产品期货的估计会很‘开心’”
Matt Scott, 码隆科技, 新零售
自助买菜机,自助零售机
他们现在主要工作就是对商品的识别。
零售柜商品其实是很难区分的,比如,饮料都是塑料瓶子,都有很多字、图像复杂、类别极多,在这方面,他们的算法有极大优势,在webvision数据集上达到 state of the art ,演讲的时候连抛三篇论文。在后面圆桌讨论环节,主持人提问遇到落地困难的时候,是怎样克服的,matt 回答 “more research”。
周涛,电子科技大学教授,大数据与人工智能带来社会治理革命:
直接讲了三个例子:
- 街景打分,应用到城市发展程度的识别。 [1]
- 两两对比,进行打分,排序, 从而能够训练一个 discriminator 进行定量评估。
类似讲扎克伯格的电影《social network》里的一个网站。
- 两两对比,进行打分,排序, 从而能够训练一个 discriminator 进行定量评估。
中小企业贷款评分,各类数据大数据挖掘。
- 数据渠道,数据聚合能力
水质检测,向水体中照光,使用反射的光谱数据做分析。
- 检测速度提高到10s一次,从而能允许检测设施在水体范围动态移动建立整体模型,而过去只能是多点模型。精度也远高过去方法。
杨强,香港科技大学教授,数据孤岛和联邦迁移学习
联邦学习:一种新型人工智能技术,可以不用公开、泄露数据就能实现多方之间合作训练更好的模型,架构如下:
这种方法一开始是 Google 为了训练手机输入法 Gboard[1] 才提出的,现在用于金融行业非常有效,金融公司之间有不少客户不同,金融与互联网公司合作,同一客户数据段不同,使用联邦学习技术,可以互补数据而合作方又并不会真的拿到模型或数据,模型在数据源间流转,而不再是数据在各自模型间流通。
这种技术实现起来的核心算法是 同态加密 之类的加密算法,也是最近技术,不太好懂,联邦学习比较适用于金融领域,我们也就不细究了。
其他
华为讲了很多他们的开源贡献,ppt里文字很多,但讲的时候基本都是一概而过,可以认为是在其他场所用过的PPT,未经精简的版本就拿来用了。确实很厉害,但本身PPT没什么对外价值。
阿里讲在超大规模工业化下的一些实践,技术难度很大,架构、算力真的很猛,但其实这些场景和技术跟绝大多数企业还是有很大 Gap:一方面,从应用场景讲,阿里有80%的机器学习资源实际用来做推荐系统/搜索,数据特征是高维、稀疏,与 CV 和 NLP 相差很大。模型接近 1 T,注意,是模型,不是数据。
(Hidden Content)
Andrew.Ng, 吴恩达, 企业的人工智能转型:
主要是给 landing.ai 打广告,给出企业 AI 转型的步骤建议:
- 实行试点项目获得动力; # 项目要够小,成功为先,这样才有动力
- 建立一支内部 AI 团队; # 不需要额外招一批AI专家,已有的AI从业者和行业工程师成对形成团队
- 提供广泛的 AI 培训;
- 策划合适的 AI 战略; # 不要一上来就定所谓AI战略
- 建立内部和外部沟通。
几个公认的点:
没有太多去讲云计算/大数据/基础设施/政策支持,这种捞钱的套话,不再去讲炫目的效果,而是很多反思;
不再全是用户画像/人脸识别/金融风控之类的结构化数据或传统方法,多了很多新方案落地的例子。
几点共识(不同嘉宾都有多次提到的):
- 大多在谈人工智能水平的时候,都是先狠狠一棒上去,做不了强人工智能,短时间也不太可能做智能度很高的东西,理性谨慎。
- 要把人类先验认知作为知识库结合到现有黑盒模型中去。
- 数据需要继续增广,提高质量,促进分享。
- 不同领域间,不同规模公司间,技术 Gap 很深,这里不是说技术深度的区别,而是技术方法和思路就不一样。
除了共识,从例子中能总结以下隐含结论,相对有鼓舞价值:
- 我们需要提升技能上界,拉低用户使用的下界,工程和算法结合。(要做非常多的trick,架构都越来越复杂)
- 单点突破后,在该点的效益远大于旧方法。(不会讲准确率继续提升会怎样,而是现有例子就已经压倒性优于过去,或者是过去未有的应用)
之前完全没听说过的,非常有启发价值的:
1、两两对比,进行打分,排序,从而能够训练一个 discriminator 进行定量评估。
类似讲扎克伯格的电影《social network》里的一个网站。
2、用 Matt 提到论文中的方法,进行多类别、多错误标记的复杂图像数据集的识别。分阶段从简单到复杂的 subset 训练。
3、联邦学习,同态加密。
个人想法
超半数都是前大学教授背景,公司应考虑与高校合作,把周期长的研究性命题,一起合作处理。
虽然学术氛围有些过火,行业骤然谨慎,但整体前景仍看好,要继续深挖垂直领域,以图单点突破。
- 1.Does the Visibility of Greenery Increase Perceived Safety in Urban Areas? Evidence from the Place Pulse 1.0 Dataset https://www.researchgate.net/publication/280945887 [^gmis2019_matt_3_papers]: CurriculumNet, MSLoss, Hierarchical Triplet Loss [^google_ai_federated_learning_on_gboard]: https://ai.googleblog.com/2017/04/federated-learning-collaborative.html ↩