###一开始的时候想法很是丰富,
- 网络抓取网站更新数量分析用户习惯,目标有开源中国和腾讯QQ(行为分析)
- 继续完善YoutubeAtChina,加入登陆系统(自娱自乐)
- 基层社区政策讨论匿名举报(为了更好的中国)
- 知识框架填充网站(优点是有全局性和指导意义)
- 视频推荐系统
最后,决定做视频栏目汇总推荐系统。
###提问:
为什么要做这个网站呢?(意义和特点)
我们大部分人有时候会很无聊,除了学习工作之外可能还有一些其他娱乐,比如看优酷爱奇艺等,看视频是一种比较好的娱乐放松方式。比如我就很喜欢飞碟说,报告老板,万万没想到,暴走漫画等网络节目,这种节目有一个特点,那就是定时更新,而且呢,还在不同的地方。
那我就在想,可不可以做一个汇合呢?也就是我在一个页面就可以看到时间流排列的我喜欢的这些视频,显示顺序根据视频的更新时间排序。
嗯,方便自己爱看这种视频的需求,而且不用去很多网站去找。
这种视频的特点还有就是:每集连贯性不大,随时可以看。
还有什么值得优化和改进的地方?
很自然而然的,自己用爽了,肯定愿意让更多的人一起爽。那就不得不实行多人的策略。因为每个人的口味不一样,所以视频流也会不一样。根据什么呢,让用户按照自己喜好添加节目好了。这是一种策略。
另外,我们可以用另一种思路考虑,加入推荐系统,引导用户更容易的找到自己喜欢的东西。
那这个推荐系统的模型是什么?
根据知乎的一个问题,我找到了一个模型,认为很适合。网易云音乐的歌单推荐算法是怎样的?
里边主要提到了两个推荐模型,现取其中一个。其核心是数学中的“多维空间中两个向量夹角的余弦公式”。
回答记录摘抄如下:
第一类,以人为本,先找到与你相似的人,然后看看他们买了什么你没有买的东西。这类算法最经典的实现就是“多维空间中两个向量夹角的余弦公式”;
第二类, 以物为本直接建立各商品之间的相似度关系矩阵。这类算法中最经典是’斜率=1’ (Slope One)。amazon发明了暴力简化的第二类算法,‘买了这个商品的人,也买了xxx’。我们先来看看第一类,最大的问题如何判断并量化两人的相似性,思路是这样 –
例子:
有3首歌放在那里,《最炫民族风》,《晴天》,《Hero》。
A君,收藏了《最炫民族风》,而遇到《晴天》,《Hero》则总是跳过;
B君,经常单曲循环《最炫民族风》,《晴天》会播放完,《Hero》则拉黑了
C君,拉黑了《最炫民族风》,而《晴天》《Hero》都收藏了。我们都看出来了,A,B二位品味接近,C和他们很不一样。
那么问题来了,说A,B相似,到底有多相似,如何量化?我们把三首歌想象成三维空间的三个维度,《最炫民族风》是x轴,《晴天》是y轴,《Hero》是z轴,对每首歌的喜欢程度即该维度上的坐标,
并且对喜欢程度做量化(比如: 单曲循环=5, 分享=4, 收藏=3, 主动播放=2 , 听完=1, 跳过=-1 , 拉黑=-5 )。
那么每个人的总体口味就是一个向量,A君是 (3,-1,-1),B君是(5,1,-5),C君是(-5,3,3)。 (抱歉我不会画立体图)
我们可以用向量夹角的余弦值来表示两个向量的相似程度, 0度角(表示两人完全一致)的余弦是1, 180%角(表示两人截然相反)的余弦是-1。根据余弦公式, 夹角余弦 = 向量点积/ (向量长度的叉积) = ( x1x2 + y1y2 + z1z2) / ( 跟号(x1平方+y1平方+z1平方 ) x 跟号(x2平方+y2平方+z2平方 ) )
可见 A君B君夹角的余弦是0.81 , A君C君夹角的余弦是 -0.97 ,公式诚不欺我也。
以上是三维(三首歌)的情况,如法炮制N维N首歌的情况都是一样的。
假设我们选取一百首种子歌曲,算出了各君之间的相似值,那么当我们发现A君还喜欢听的《小苹果》B君居然没听过,相信大家都知道该怎么和B君推荐了吧。好,回到视频节目这边。同样,也是以人为本,首先选择1000个热门用户,然后随机选取100个为seed用户,模版用户(之所以不是全部用户比较是为了降低运算量,同时热门用户也代表了目标用户趋势),然后在用户第一次登录进系统的时候首先会推荐热门单,然后带用户选择之后就可以根据该用户与100个seed用户之间的相似度来进行推荐了。
用户热度:更多的是参与度。登录,关注节目数量,赞,踩,评论,看的视频数量等。
详细模型
- 100个seed用户会更新
- 100个seed用户的关注不会完全一致,相同者取活跃度大的
- 用户可以添加视频列表,可以提出公共类,一点点实现增加支持的网站
- 用户随时可以关注视频列表
- 有最热视频榜单(被参与度最高)
- …
目前在更视频列表:
- 飞碟说
- 飞碟一分钟
- 报告老板
- 万万没想到
- 暴走大事件
- 神街坊
- 扑通扑通的良心
- 大学搜有聊
- 工大版《屌丝男士》
- 天天向上
- 我是歌手第3季
- …
完结版处理
- 推荐系统随机推荐
- 其他板块