收取点与Feedsky:一次逃离

Feedsky 已经处于半死不活状态很久了,今天用他家的「30天退出服务」删除了托管的 Feed。也就是说,原来通过 Feedsky 的收取点订阅的同学,在一个月之内将被自动重定向到原始收取点

推荐原来通过 Feedsky 订阅的同学们直接改订原始收取点,因为如果哪天 Feedsky 倒下了,重定向也就木有了。

前两天看了美版「龙纹身」,Rooney Mara 果然不负众望。

去中心化的网络服务自己却成了新的中心。

Visualizing Long Time Series Data with lattice, ggplot2 and D3.js

Facebook

1 Introduction

Personally, I was always wondering how the other people use their social network accounts. Like, on which time during the day do most people get online to post, comment and share? How many accounts are active in the late night? Alternatively, is the user online pattern the same everyday during a week, a month or a year?

Such questions keeps popping out of my head, so I scraped the numbers of active accounts at a five-minute interval during a week. The data source is renren.com (NASDAQ: RENN) which could be treated as China's Facebook. The tools involved were a simple R script which did the actual scraping and a single line of cron rule which executed the script every five minutes.

继续阅读

Linear and Circular Layouts for Network Visualization

昨天在讨论班上简单介绍了网络可视化的两种布局。

幻灯片在此:

Linear and Circular Layouts for Network Visualization [PDF, 9.5M]

讲的时候竟然把达沃斯说成了在印度,自己还浑然不觉,脑子秀逗了 。。。

当时难道在想Mahalanobis?

《R in Action》中译本第一章部分试读

晚风舞蝶

不为技术唱赞歌,只为吐槽说人话。

年初的时候更新过一条状态,算是今年一个小小的愿景,『2012,像卡马克一样工作,像柳智宇一样生活。』(请问:句号的位置有没有错误?)

两个月过去,发现自己的勤奋程度离卡马克还差得远,设想的16小时/天的工作时间事实上成为了神游睡觉吃饭无聊时间,『身外之物』却是真心都快木有了 。。。先是寒假上了个新东方,只记得老师讲了一系列希腊童话神话故事,词汇给几个意思就完事儿了,只好怒查有道跪求大韦能给相应的语境了 。。。于是,1.4k软妹币华丽丽地在16天内挥霍完毕。

距离毕业还有三个月时间,不能不感慨时光荏苒,天长地久有时尽,暂凭杯酒长精神。毕设在哪里呀毕设在哪里,毕设在那知网的文献里 。。。 不过如果你是IEEE Explore/ACM Portal用户,请无视 。。。

一句话与广大读研/工作/出国/创业的同学共勉:唯有坚持初心,方能offer加身。

楼主灌水完毕。以下是严肃的正文:

最近正在和陈钢师兄、好友高涛协作翻译一本R语言的入门书籍《R in Action》。本书的原作者为Quick-R站点的创建者Robert I. Kabacoff博士。本人有幸负责前七章的翻译工作,这里是发表在图灵社区的一段早期试读:

图灵社区:阅读:为何要使用R?

欢迎大家跟贴批评指正。

如果说书写的原罪是漫无目的的流徙,那么,译笔的原罪,是不是有的放矢的面壁呢?

2011

2011的记忆从未消失过, 正如2011的承诺没有改变过明天.

希望在2012中, 多干活少吐槽, 本着什么都不靠只靠谱的原则, 继续靠谱下去.

豆瓣评分计算策略的猜想

simpsons_movie

1 引

在九月短文 [1] 中, 我们对豆瓣电影评分的一个侧面有了简单认识. 其实, 我们对评分计算规则本身也是很感兴趣的. 这里以豆瓣电影为例作一简单猜想和分析, 音乐图书同理. 题中"策略"是相对"机制"来说的, 所指其实是比较具体的.

2 单个条目

有群众表示, 单个条目的评分计算只是对各个星级打分人数简单的加权平均, 由于页面上显示的评分结果满分是10分, 而打分时只有5个星级, 所以每个星级对应2分, 单个条目评分的计算公式即为:

评分 = (10 x 5星比例) + (8 x 4星比例) + ... + (2 x 1星比例)

抽取部分条目对此假设进行手工验证, 可以发现的确如此.

但是, 这里存在的一个陷阱是, 由于评分数据的特殊性和抽样的限制, 如果我们抽取一部分数据做回归, 结果可能会受到样本的影响而与手工验证的结果产生偏移. 由于1星(很差)和2星(较差)在大量条目样本中所占往往比例非常小, 普通的回归非常容易倾向于使X1, X2, X3的系数减小. 举例来说, 从我看过的443部电影中抽取前400个条目作为样本 [rateSample.csv] 作回归.

继续阅读