据挖掘及其应用 —

今天（2016.11.04）公司请了 杨强教授 来分享数据挖掘及其应用相关的东西，下面记录一下整个内容。

引子

首先曾宇上去为杨强讲授的讲话做了铺垫，观点如下：

应该拥抱变化，顺应技术趋势的发展；
了解这些技术能做什么、不能做什么；

所以请了杨教授来分享一些心得，和解答大家的疑惑。

分享内容

今天跟大家的分享的内容是数据挖掘及其应用，数据挖掘和现在讲的人工智能还是有些区别的，区别是什么，下面会讲到。

案例分享

百合网

一张图，两个人聊天的时候从哪儿（一个地方）到哪儿（另一个地方的）图形。

什么是数据挖掘：

总结过去；
预测未来；

数据挖掘首先是根据已有数据进行总结，然后还可以建立模型预测未来，预测未来更多的是人工智能做的事。比如根据百合网这个可以问的问题是：

都是哪些人在网上找对象；
他们的教育水平如何；
男女比例如何；
交谈的时间（比如男生很快就会对一个女生不感兴趣，然后转变一个聊天的对象）；
钱有多重要（对男生来说，对方的工资水平没有多重要，女生对对方的要求一直是上升趋势）；

数据挖掘是离不开人的，要成为数据挖掘的专家，首先一点是离不开直觉，这个直觉是找到特征的直觉。所以特征工程和特征工程师是数据挖掘的未来，是数据挖掘必不可少的一部分。但是对于百合网这样的网站，特征工程并不那么重要，原因是大家关注的特征就那么很少的几个。

Coursera教学数据

香港科技大学在coursera的教学数据，通过对视频的观看数据，可以找到：

来分析比较作业A和B，哪个更难，比如，大部分学生反复的回看，说明这里比较难和重要，当然也有可能是期末考试和期中考试。
可以观察不同地域学生的学习方式的差异，比如，美国学生喜欢从一个概念出发，然后在视频中找到那个概念看，（比较有跳跃性），而中国学生，往往是从头看到尾。
爱讨论的学生是不是成绩也比较好。
好学生和差学生的社交网络图。

这两个例子，第一个百合网的例子是所有的行为都在网上进行——即足迹电子化，第二个也有这个特点，因为是在网上教学。但是我们身边的工作和生活并不是这样，我们所有的行为，大部分数据都没有电子化，都丢失了。

所以数据挖掘第一步是找到这些数据，把各种不同的数据整合起来，使不同的数据之间有关系。第二个是特征工程。第三个是样本缺乏，要做预测就需要高质量的样本。

移动领域-学术界的工作

以诺基亚做的实验开始，现在通过一个手机，基本可以知道一个人的性别、收入等等很多数据。

另一个实验，收集couple 在房间生活的所有数据，然后用了一个模型迁移，来判断当一个人在某一个区域的时候，就能知道他在做什么。

在移动领域，数据来源两个：

随身携带的设备；
网络上，知识图谱，网络关系等；

由于样本缺乏，所以迁移模型就很可贵。

舆情分析

舆情分析是一个有监督学习的特例。每个领域舆情的词有一定关联。迁移学习，整合数据，把一个领域的模型迁移到另一个领域。把虚拟世界和物理世界联系起来。

例子一：对人人网的垃圾用户建模：

用户的周边人；
标注用户正常、异常；
用户行为，比如晚上发邮件，发给陌生人；

例子2：伯克利大学基于深度学习的迁移学习，在一个图片领域，要学一个比较好的图片的话，需要上千万的图片，很长的时间才能做到，但是，如果学习任务变了，又不希望用那么多图片来重新训练，怎么办呢，可以把其中一些影视层固定住，把一些高层的东西来重新学习，这样发现这个办法是非常好的，这两者有一个自然的结合。

对话系统

研究拿一些真实的用户对话数据来训练对话系统，这个系统重要特点是以完成一个任务为主的，比如他最后要下一个订单：

自动对话功能，回答比较靠谱；—— 深度学习
真能完成一个任务，每次回答都能知道现在到哪儿了，距离目的还有多远；——强化学习
可以个性化，每个人的回答不一样，知道一些喜好，跳过一些繁琐的问答。——迁移学习

这三个一起是强化迁移学习，公司的订餐系统。这个模型是一个通用性的模型，把这个框架用在阅读上，让机器读完一本书，然后来问一下特定的场景和段落，比如XXX的情人是谁，XXX和XXX有过什么交流。

以上就是全部分享内容。

其他

目前人工智能的成功，还需要在一个特定的场景。

2016-11-05 2016-11-05

技术¹⁰

数据挖掘¹

据挖掘及其应用 —— 杨强讲座

引子