爱思唯尔访问AZFT知识引擎实验室主任陈华钧教授
Tue Sep 01 15:28:04 CST 2020

        AZFT知识引擎实验室主任陈华钧教授,是爱思唯尔旗下国际期刊 Big Data Research 的两位主编之一,该期刊于2018年收获首个影响因子2.952和CiteScore引用分7.43,是大数据领域首个SCI期刊。日前,爱思唯尔与Big Data Research两位主编,浙江大学陈华钧教授和法国巴黎大学Themis Palpanas教授,聊了聊期刊的定位与发展、大数据本质、大数据领域的研究现状、产学研融合等话题。作为首个在大数据领域获得SCI影响因子的期刊,Big Data Research不仅注重多领域的最新应用成果,更加关注促进跨学科的大数据研究的学术交流。两位主编非常期待能够收到更多来自中国科研人员的优秀稿件,在大数据研究发展的快车道上携手并进。


Big Data Research



Elsevier 爱思唯尔


    下面摘录了两位主编的采访内容。


陈华钧教授

        这本刊是浙江大学吴朝晖院士和新加坡国立大学黄铭钧教授于2015年联合创立。我们于2018年获得第一个影响因子,并在JCR的两个计算机分类中位于一区和二区。这主要归功于两位创始主编在创刊时建立的高水准编委,他们为这本刊物的持续发展打下了很好的基础。

        关于这本刊物的进一步发展规划,最近我和Palpanas主编有专门交流和探讨这个问题。

        首先,我们都认为这本刊的一个主要办刊宗旨仍然是学科交叉。这本刊和其他传统的数据库期刊有何区别?尽管传统数据库领域的投稿量很高,我们也不希望它变成另一本Database刊。BDR首先应该定位于计算机领域内的一些小领域交叉,例如 Scalable Data Management 和 Scalable Machine Learning 的交叉、大数据管理和人工智能算法的交叉、大数据与知识工程的交叉等等。

        其次,我们确实看到大数据的学科交叉不仅是计算机领域内的小交叉,更需要跨学科的大交叉。爱思唯尔的一个优势就是出版涵盖各个学科的期刊,例如最近我们正在和爱思唯尔材料方向的刊物联合组织大数据在材料领域应用的专辑,我们也邀请了流行病领域的专家来组织新冠病毒大数据的专辑。所以我们这本刊要为多个学科提供发表平台,我们计划设置面向不同学科的独立Track,以加强BDR的多学科交叉属性。

        最后,BDR未来的一个努力方向是提升在中国的影响力。据统计,目前这本刊收到的中国投稿量还不是特别多,原因可能是在国内的宣传还不够,但来自中国的下载量却非常高。现在国内学者在国际顶会及顶刊中发表的论文越来越多。例如我自己所在的计算机领域的很多顶会,中国的投稿量和接收量都已经是第一位。如何吸引来自国内的优质文章,并提升BDR在中国的影响力也是在未来的一个重要努力方向。

Themis Palpanas 教授

    This was the first important milestone for the journal. For the next stage of the journal, we would like to maintain the high performance numbers we have achieved so far. Maintaining a stable, high performance quality is not easy. The promise from now on would be to make sure that we keep receiving high-quality submissions. To maintain the quality, first, we would make sure we have enough editorial staff to handle the workload that we are confronted with, the increased number of manuscripts. Second, we will also continue with our special issue editions. This is to ensure that we organize several different topics and have them to delve more deepl into particular topics and attract more publications on these topics. The third important factor is advertising, which is especially important in China. We would like to attract more attention in China, because China is quickly increasing its research output and improving the quality of the papers. We’re already seeing a large increase in the number of papers from China getting accepted in different top venues, conferences and journals.

(以下译文仅供参考)

        这本期刊所取得的成绩无疑是我们创刊五年以来一个重要的里程碑,在下一阶段,我们的目标是保持这些优异的成绩,但这绝非易事。从现在起,我们的承诺是保证所有投稿质量。首先,要保持足够多的编委会成员来处理越来越多的稿件数和工作量。其次,我们将继续做专业特刊,以便我们更有条理地划分不同话题,在这些话题上做更深入的研究,吸引更多投稿。第三,积极推广,这在中国尤为重要。中国的研究产出急剧增加,质量也有显著提升。我们也已经看到,中国有越来越多的论文在顶级会议、顶级期刊中被接受,所以我们需要更加主动地吸引来自中国的关注。

陈华钧教授

        大数据的内涵可以从不同的角度来阐述。首先从技术维度核心是Scalability,即所谓“大”带来的技术挑战。我们需要Scalable的存储,也需要Scalable的处理能力,更需要Scalable的机器学习能力。大数据本质反映的是复杂的客观世界数字化所带来的对整个计算机系统从硬件到软件、从存储到算法、从终端到云等各个方面的综合性挑战。

        其次,大数据也意味着处理数据之间的复杂关联。我的主要研究领域之一是知识图谱。知识图谱就是一种典型的大数据系统。知识图谱的本质是利用图的结构来建模世界万物之间的复杂关系。我想利用数据来挖掘事物之间的复杂关系应该是大数据的核心命题之一。

        此外,大数据的内涵也可以从带给我们影响来阐述。这既包括正面的影响,也包括负面的影响。大数据其实在我们的生活中无处不在,比如人脸识别、智能音箱背后都有大规模数据的处理及理解能力在做支撑。但大数据也带来安全性方面的隐患。在2013年,剑桥大学一位心理学教授仅用Facebook 公开的点赞数据加上简单的机器学习模型就完成了对个人性别、年龄、教育背景、经济实力、性格特征等多方面的准确预测,这意味着在大数据时代我们很难有隐私。

        最后,对于科学研究,大数据意味着一种全新的科学研究范式。有一个概念叫第四范式,指的是继理论推导、实验分析、计算模拟之后,数据驱动成为特别有希望的第四种驱动科学研究的新方式。科学家做过的各种实验如果能做好数据采集,这些数据内部都隐含着科学家大脑里面先验知识。如果再叠加一些人工智能和机器学习的技术,就可以训练和学习出比较好的模型来辅助科学家发现新的知识,大大加速科学新发现的效率。

Themis Palpanas 教授

    We have been hearing a lot lately, including in mainstream media, about artificial intelligence, big data, data analytics, and cloud computing. In all these cases, we’re basically discussing about the core problem of what do I do with my data, how can I extract value from my data and how can I gain new knowledge from my data. The amount of data that people are talking about in increasing at a very fast pace. Thirty years ago, we were talking about gigabytes of data, while now data sets in the order of multiple terabytes are commonplace. So, the algorithms, techniques and systems need to evolve to handle these increased data volumes. 

    It’s also important to discuss how we process and analyze our data. Machine learning, along with other techniques, for example, data analytics, and data mining that include techniques originating from fields like statistics and mathematics are all very relevant and necessary in order to produce useful results. 

    Cloud computing also becomes relevant because it is one of the ways to handle the amount of data that we currently have. It is easy to use both economically and technically. It enables non-expert users to easily use these technologies without the need to own many computational resources, because we can rent them from the cloud.

(以下译文仅供参考)

        一直有很多关于人工智能、大数据、云计算的热议,实际上它们讨论的核心都是:我用我的数据做什么,怎样从数据中提取价值,怎样从数据中获取新的知识?数据的量级正在以前所未有的速度增长。三十年前人们谈论的是以千兆字节为单位的数据,而现在的数据是以亿万兆字节为单位。因此,算法、技术和系统都需要改进,才能处理剧增的数据量级。

        同样重要的是如何处理和分析数据。机器学习以及其他技术,例如数据分析和数据挖掘,它们虽然来统计学和数学领域,但都与数据处理紧密相关,帮助我们得到有价值的结果。

        云计算现在也与大数据相关,因为它是处理大量数据的方法之一 。从经济和技术上来看,它很容易使用,可以让普通用户轻松使用这些技术,而且无需拥有许多资源,因为我们都可以从云上租用它们。

陈华钧教授

        产业界在促进计算机学科发展方面有着不可忽视的力量。尽管我们的期刊是以学术为主,但无论是大数据,深度学习,包括我所在的知识图谱,以及其他很多计算机的学科领域,产业界都有着巨大的影响力。很多企业比如阿里巴巴,虽然他们并不十分鼓励发表学术论文,但每年在计算机领域发表学术论文的数量,并不亚于很多高校。

        我自己的团队和产业界合作也非常多。例如,我们和阿里有一个称为藏经阁的大数据知识引擎合作项目,我们成功的把阿里巴巴来自线上和线下的,围绕人、货、场等多种类型数据,融合成一个规模将近千亿的知识图谱,形成一个商务大数据的知识引擎,赋能阿里巴巴很多业务应用。我们的很多学术论文直接以他们提供的场景和数据来做实验,每年都有很多研究的算法直接落地应用。

        我和Palpanas教授及同事都有这样的观点,后续也会陆续邀请来自产业界的专家加入编辑团队,注入来自产业应用的经验和判断。

Themis Palpanas 教授

    For young researchers ‘career planning, especially in the field of computer science and big data, having a close relationship between the academia and the industry is very desirable, because it makes sure that we keep the researches close to the real-world problems. One way of doing this is to run a start-up company. Other people would take a leave from the academia and go to work in the industry for a few months, or a few years. 

    I have spent time working at IBM Almaden Research Center in Silicon Valley (CA, USA) and Microsoft Research in Redmond (WA, USA). I have also worked at IBM T.J. Watson Research Center in New York and at the University of Trento in Italy, before arriving to my current position as a professor at the University of Paris (France). 

    This experience gave me exposure to different cultures, both in the literal meaning and in terms of research. This also happens in China often. Currently China has several world-class, big IT companies that work on extremely interesting problems in terms of data management, big data, data analytics, machine learning, and others. People choose to work in these IT companies, because they will have access to real data and work on solving real problems. On the other hand, when working in the industry, you need a strong drive to maintain the connections with research. This is beneficial, since it will allow the flow of problems, ideas and solutions between these two worlds.

(以下译文仅供参考)

        这涉及到年轻学者的职业规划,尤其是在计算机科学和大数据领域,保持学术界和产业界的密切联系是非常可取的,这可以确保我们的研究方向与现实问题紧密相关。方法之一就是经营一家初创公司。有些人也会选择暂别学术界,到产业内工作几个月或是几年。

        我曾在硅谷的IBM阿尔马登研究中心和西雅图里士满的微软研究实验室工作过,也在IBM 沃森研究中心和意大利特伦托大学工作过,后来才到法国巴黎大学担任教授,也就是我现在工作。

        这些国际经历让我接触到不同的人文文化和研究文化。这在中国也很常见。现在中国有几个大型国际IT企业,他们都有非常有趣的问题,不论是数据管理、大数据、数据分析还是机器学习。人们选择去那里工作,因为这样他们就可以获取真实数据,还能解决实际问题。而另一方面,在产业界工作需要很强大的动力来保持现实问题与学术研究的联系,而它的好处在于可以让现实问题、想法和解决方案在产业界和学术界互通。

阿里技术 | 达摩院 copyright@2017-2018 阿里巴巴-浙江大学前沿技术联合研究中心《法律声明》
浙公网安备: 33010002000092号
| ICP备案网站信息: 浙B2-20120091-4