数据挖掘实验室
互联网数据挖掘实验室成立与2017年7月,联合浙江大学、阿里巴巴集团(重点包括:达摩院、搜索事业部、城市大脑等部门)和UCSB等,瞄准数据挖掘和机器学习前沿性科学问题,面向阿里巴巴业务需求和技术瓶颈展开合作研究,目标是在高性能搜索、个性化推荐、自然语言处理(NLP)、计算机视觉(CV)等领域取得国际领先水平的研究成果,并将成果应用于阿里巴巴集团的实际业务中,显著提升阿里巴巴相关技术平台的核心竞争力。
人物介绍
阿里巴巴
expert image
见强
阿里云事业部-Artificial Intelligence Center负责人
expert image
悾傅
阿里巴巴搜索事业部资深算法专家
expert image
飘雪
阿里巴巴搜索事业部资深算法专家
expert image
任重
达摩院资深算法专家
浙江大学
expert image
蔡登
I am currently a full professor in the College of Computer Science at Zhejiang University, China. I received the PhD degree from University of Illinois at Urbana Champaign.My research interests include machine learning, computer vision, data mining and information retrieval.
expert image
青峰
搜索推荐算法技术负责人
expert image
姚诚伟
浙江大学计算机科学与技术学院。主要研究方向是机器学习算法及其在信息检索、个性化推荐和自然语言处理(NLP)中的研究探索。
研究课题
基于图结构的超大规模高维向量数据检索(NSG算法)

探究将基于图结构的检索算法应用于十亿规模数据节点的可能性,并研究基于图结构的检索算法的理论及数学原理。下图显示在10亿规模上的阶段性成果:


基于Time-gate的个性化推荐(IJCAI 2017)

在推荐系统中,利用RNN分析提取电商用户的操作行为特征已经成为的重要思路之一,然而主流的方法在RNN建模时大多重点关注用户的操作序列的先后关系,而忽视了用户操作行为的间隔。本项目重点研究充分利用用户操作序列中的时间间隔信息,并创新一种基于Time-gateRNN模型,利用这种RNN模型可以更有效和准确地预测消费者的倾向。具体思路如图所示:


基于Attention-GRU-3M模型的品牌级排序系统(IJCAI 2018)

我们设计了一个品牌级排序系统,并提出Attention-GRU-3M模型来利用资源 ID 和资源属性的融合信息及不同用户行为类型来提升品牌排序的效果。已有的排序系统并不是专门设计来满足用户的品牌偏好的。比如,(a)中的排序系统将不同品牌的商品糅合在一起,用户必须浪费时间去浏览他不喜欢的品牌的商品。(b)中的排序系统通过设置复选框或按钮来展示特定的品牌,但是,UI界面上只能显示少量品牌而且没有个性化。另外,用户必须多次点击复选框才能浏览多个品牌,增加了用户交互,降低了用户体验。我们设计了一个品牌级排序系统,该系统首先根据用户对品牌的个性化偏好对品牌进行排序,然后再对同一品牌的商品排序。通过这种方式,不需要用户点击复选框/按钮等操作,就能把用户喜欢的品牌排序靠前。而且商品是按品牌归类过的,所以用户可以只看某个品牌的商品。


跨系统用户特征迁移技术

目前电商服务提供商(如阿里巴巴),提供多领域的商业服务,如:阿里巴巴旗下提供淘宝、天猫、聚划算、全球速卖通、支付宝推荐等。在不同领域的用户行为,以及对商品的外观、功能等喜好有着一定相关性。实现这些领域(系统)的个性化推荐最大的挑战之一是冷启动(cold start)的问题。本项目主要研究跨系统用户特征迁移技术,旨在实现利用用户在一个领域(如淘宝)的消费行为特征,为另一个领域(如聚划算)中用户建模提供支撑,并且是双向的。


AIBoost相似问法推荐

AIBoost(智能加速器)是加速数据获取,支持自动知识图谱构建, 服务整个阿里小蜜家族的自动化机器学习平台。在海量的千万级别的机器人的应用场景下,存在大量文本无法识别,如果让业务方去打标,将是极其费时费力的。AIBoost通过对海量的文本自动进行相似度分析,相似问法推荐等方法, 让业务方可以高效地对数据进行打标。

基于强化学习的交通信号灯控制模型

    本项目主要研究的问题是利用AI领域最近新兴的深度强化学习技术解决路口交通信号灯控制的问题。以往的利用强化学习解决交通信号灯控制问题的方法都是基于“切换控制”的:每隔一小段时间判断一次是否要切换到下一信号灯相位。这种做法虽然可以在车流突变时及时切换相位,但实际中并不能使用,最简单的一个原因就是这种方法不能实现倒计时功能,而倒计时功能在行人过马路和车辆提前减速、提前准备启动方面作用巨大。当然如果按照倒计时的时间强制延迟执行切换相位也能实现倒计时功能,但是实验表明性能会很受影响。所以我们创新性地提出了基于“配时控制”的强化学习信号灯控制方案,能和现在道路上普遍使用的基于人定规则的信号灯控制方案兼容,从人造车流的模拟实验的结果上可以看出我们的方案在多个指标上达到了性能最优。

行人换衣情况下的行人重识别

城市大脑应用场景下,项目定义了一种新的行人重识别场景,即换衣行人重识别场景。相较于现在考虑的行人重识别场景,换衣行人重识别场景更好的模拟了真实应用场景中系统长时在线、行人表观特征可能出现剧烈变化的情况,我们提出了一种基于GAN的行人换衣图片生成网络(AS-GAN)用于换衣行人图片的生成,有效的降低了收集行人换衣图片的成本;提出了一种无监督的行人表观无关特征学习框架(AIFL)对行人特征提取器进行预训练,并结合模型微调有效的提高了行人特征提取器在换衣行人重识别场景中的效果。

条件真实图像生成的多样性研究

条件真实图像生成,形式地定义就是:给定源图像的集合和目标图像的集合,任务是学一个将源图像变换为目标图像的映射G(如下图所示)。在我们的研究中,我们主要关注的是,segmentation layout生成真实图像的问题。传统的Pix2pix方法的主要问题是生成器是确定性的,给定一个segmentation layout,可能会有很多对应的真实图像。本项目重点研究如何更加高质量的生成真实的图像。


阿里技术 | 达摩院 copyright@2017-2018 阿里巴巴-浙江大学前沿技术联合研究中心《法律声明》
浙公网安备: 33010002000092号
| ICP备案网站信息: 浙B2-20120091-4