豆瓣评分计算策略的猜想

simpsons_movie

1 引

在九月短文 [1] 中, 我们对豆瓣电影评分的一个侧面有了简单认识. 其实, 我们对评分计算规则本身也是很感兴趣的. 这里以豆瓣电影为例作一简单猜想和分析, 音乐图书同理. 题中"策略"是相对"机制"来说的, 所指其实是比较具体的.

2 单个条目

有群众表示, 单个条目的评分计算只是对各个星级打分人数简单的加权平均, 由于页面上显示的评分结果满分是10分, 而打分时只有5个星级, 所以每个星级对应2分, 单个条目评分的计算公式即为:

评分 = (10 x 5星比例) + (8 x 4星比例) + ... + (2 x 1星比例)

抽取部分条目对此假设进行手工验证, 可以发现的确如此.

但是, 这里存在的一个陷阱是, 由于评分数据的特殊性和抽样的限制, 如果我们抽取一部分数据做回归, 结果可能会受到样本的影响而与手工验证的结果产生偏移. 由于1星(很差)和2星(较差)在大量条目样本中所占往往比例非常小, 普通的回归非常容易倾向于使X1, X2, X3的系数减小. 举例来说, 从我看过的443部电影中抽取前400个条目作为样本 [rateSample.csv] 作回归.

继续阅读

豆瓣用户对不同类型影片的打分是否真的有倾向性?

1 起

在豆瓣上为数不少的恐怖/惊悚片的讨论中, 我们常常可以发现类似于这样的说法 [1]:

像这部片子
也有吸引人看下去的地方
为什么分数总是那么低?

那么, 豆瓣用户对这类影片的打分上, 是否真的存在普遍低于其他类型的影片的情况? 为了验证这个猜想, 我们不妨利用豆瓣提供的评分数据来简单分析一下.

2 承

首先明确问题的定义. 这里我们不去比较恐怖片和其他所有类型片的总体. 其实, 更让人感兴趣的问题是, 将恐怖片与其他同级别类型的影片分别进行两两比较, 结果会如何.

豆瓣的电影条目是采用tag来进行分类的. 此时样本的选取成了一个问题. 总的来说, 要保证各类型影片的类型特征区别要尽量大, 比如恐怖片和惊悚片之间的差别没有恐怖片和励志片的差别明显, 又如有可能一部影片既有"爱情"标签, 也有"喜剧"标签, 也就是说, 各类型的影片将存在交集. 同时, 也要保证各类样本在其他方面的差别尽量小, 如不同类型影片的总体规模差距不能过于悬殊等等.

我是这样做的.

继续阅读

结合豆瓣基础API学习XML包

很久以前在R-Forge上注册过一个RDouban项目, 想用豆瓣提供的API做点好玩的事情. 可惜后来只写了个开头, 感兴趣的童鞋可以无条件认领. 在这里结合豆瓣的基础API, 非常简略地写一下用XML包读数据的基本问题.

1 XPath

花十分钟学习XPath语法.
熟练后可使用Firebug等调试工具直接提取. 此外, 要特别注意XML命名空间问题. (感谢yixuan提醒)

2 Douban API

花n分钟阅读"豆瓣API参考手册".
用户的评论、收藏、广播、豆邮等交互功能往往需要先进行OAuth认证, 建议阅读RFC5849以充分理解OAuth协议. 这块目前也有ROAuth包可以实现, 不过与读数据没什么关系, 此略.

继续阅读

迈克尔·贝 老子爱死你了!

刚刚看晚场的TF2回来。原谅我激动到连标题都是照抄douban上TF1影评的。Maybe也只有这样的歇斯底里能够赐予情绪上一种层次的表达。不想听音乐可以拉到本文结束处按停止。

===========

Revenge is Coming!

变形金刚:卷土重来

6.24.09 全国隆重上映

让我们再一次热泪盈眶!

===========

这是我今天上午给一些朋友的信息内容。两年后,我想说的是,迈克尔贝这小子没有让我失望。

看到那贴在寝室墙壁上的海报,一张是《Cloverfield》,一张《Bad Boys II》 会心一笑,这小子原来和我口味一样啊,那第一张海报我印过。搜集到的原图15M,可以印小型展板。

银幕顶端的灯闪耀起来。我深陷在座位中,唯一能做的事情只有鼓掌致敬。

我的眼光果然没有错,我的眼光一定不会错。

《New Divide》  --Linkin Park

《21 Guns》       --Green Day

永恒的旋律 经常响起 不错,很好,非常好。

=========================================

“但是,不管前面是地雷阵还是万丈深渊,我都将一往无前,义无反顾,鞠躬尽瘁,死而后已。”朱镕基总理如是说。也许这句话说重了,不过现在很能表达我的心情。 人的痛苦也随着层次的升高而变高,我觉得这也许是经常听说某某公众人物通过各种极端体验释放自己的原因。我很高兴,现在的我很理性,至少在目前这个阶段没有这些问题。

我,问心无愧。迈克尔贝,同理。

品酒细说江湖事,拈花一笑万山横。

=========================================

毫无保留地说,2009年6月24日,是我自09年1月1日以来过得最开心的一天。

想了想,最近半年到一年妥协和迷失了太多自己的东西,我要找回从前的自己,不会妥协。就像学长说的那样。“Fate rarely calls upon us at a moment of our choosing.”擎天柱如是说。

AUTOBOTS,Roll Out!

那一刻,我们面带微笑,却热泪盈眶。

(本文最初发表于xiaonei.com)