今天(2016.11.04)公司请了 杨强教授 来分享数据挖掘及其应用相关的东西,下面记录一下整个内容。
引子
首先 曾宇 上去为杨强讲授的讲话做了铺垫,观点如下:
- 应该拥抱变化,顺应技术趋势的发展;
- 了解这些技术能做什么、不能做什么;
所以请了杨教授来分享一些心得,和解答大家的疑惑。
分享内容
今天跟大家的分享的内容是数据挖掘及其应用,数据挖掘和现在讲的人工智能还是有些区别的,区别是什么,下面会讲到。
案例分享
百合网
一张图,两个人聊天的时候从哪儿(一个地方)到哪儿(另一个地方的)图形。
什么是数据挖掘:
- 总结过去;
- 预测未来;
数据挖掘首先是根据已有数据进行总结,然后还可以建立模型预测未来,预测未来更多的是人工智能做的事。比如根据百合网这个可以问的问题是:
- 都是哪些人在网上找对象;
- 他们的教育水平如何;
- 男女比例如何;
- 交谈的时间(比如男生很快就会对一个女生不感兴趣,然后转变一个聊天的对象);
- 钱有多重要(对男生来说,对方的工资水平没有多重要,女生对对方的要求一直是上升趋势);
数据挖掘是离不开人的,要成为数据挖掘的专家,首先一点是离不开直觉,这个直觉是找到特征的直觉。所以特征工程和特征工程师是数据挖掘的未来,是数据挖掘必不可少的一部分。但是对于百合网这样的网站,特征工程并不那么重要,原因是大家关注的特征就那么很少的几个。
Coursera教学数据
香港科技大学在coursera的教学数据,通过对视频的观看数据,可以找到:
- 来分析比较作业A和B,哪个更难,比如,大部分学生反复的回看,说明这里比较难和重要,当然也有可能是期末考试和期中考试。
- 可以观察不同地域学生的学习方式的差异,比如,美国学生喜欢从一个概念出发,然后在视频中找到那个概念看,(比较有跳跃性),而中国学生,往往是从头看到尾。
- 爱讨论的学生是不是成绩也比较好。
- 好学生和差学生的社交网络图。
这两个例子,第一个百合网的例子是所有的行为都在网上进行——即足迹电子化,第二个也有这个特点,因为是在网上教学。但是我们身边的工作和生活并不是这样,我们所有的行为,大部分数据都没有电子化,都丢失了。
所以数据挖掘第一步是找到这些数据,把各种不同的数据整合起来,使不同的数据之间有关系。第二个是特征工程。第三个是样本缺乏,要做预测就需要高质量的样本。
推荐系统
人工智能的语音、图像的成功,在这两个成功之前的成功就是推荐系统,比如淘宝、亚马逊。推荐系统的数据可以用一个图模型来表示,一个点表示一个产品或者用户。补齐矩阵中缺失的值。
- 数据整合很重要;
- 特征工程是关键;
- 样本缺乏是一个很头疼的问题;
- 训练数据和测试数据可能有很大不同。
移动领域-学术界的工作
以诺基亚做的实验开始,现在通过一个手机,基本可以知道一个人的性别、收入等等很多数据。
另一个实验,收集couple 在房间生活的所有数据,然后用了一个模型迁移,来判断当一个人在某一个区域的时候,就能知道他在做什么。
在移动领域,数据来源两个:
- 随身携带的设备;
- 网络上,知识图谱,网络关系等;
由于样本缺乏,所以迁移模型就很可贵。
舆情分析
舆情分析是一个有监督学习的特例。每个领域舆情的词有一定关联。迁移学习,整合数据,把一个领域的模型迁移到另一个领域。把虚拟世界和物理世界联系起来。
例子一:对人人网的垃圾用户建模:
- 用户的周边人;
- 标注用户正常、异常;
- 用户行为,比如晚上发邮件,发给陌生人;
例子2:伯克利大学基于深度学习的迁移学习,在一个图片领域,要学一个比较好的图片的话,需要上千万的图片,很长的时间才能做到,但是,如果学习任务变了,又不希望用那么多图片来重新训练,怎么办呢,可以把其中一些影视层固定住,把一些高层的东西来重新学习,这样发现这个办法是非常好的,这两者有一个自然的结合。
对话系统
研究拿一些真实的用户对话数据来训练对话系统,这个系统重要特点是以完成一个任务为主的,比如他最后要下一个订单:
- 自动对话功能,回答比较靠谱;—— 深度学习
- 真能完成一个任务,每次回答都能知道现在到哪儿了,距离目的还有多远;——强化学习
- 可以个性化,每个人的回答不一样,知道一些喜好,跳过一些繁琐的问答。——迁移学习
这三个一起是强化迁移学习,公司的订餐系统。这个模型是一个通用性的模型,把这个框架用在阅读上,让机器读完一本书,然后来问一下特定的场景和段落,比如XXX的情人是谁,XXX和XXX有过什么交流。
以上就是全部分享内容。
其他
目前人工智能的成功,还需要在一个特定的场景。