2011

2011的记忆从未消失过, 正如2011的承诺没有改变过明天.

希望在2012中, 多干活少吐槽, 本着什么都不靠只靠谱的原则, 继续靠谱下去.

豆瓣评分计算策略的猜想

simpsons_movie

1 引

在九月短文 [1] 中, 我们对豆瓣电影评分的一个侧面有了简单认识. 其实, 我们对评分计算规则本身也是很感兴趣的. 这里以豆瓣电影为例作一简单猜想和分析, 音乐图书同理. 题中"策略"是相对"机制"来说的, 所指其实是比较具体的.

2 单个条目

有群众表示, 单个条目的评分计算只是对各个星级打分人数简单的加权平均, 由于页面上显示的评分结果满分是10分, 而打分时只有5个星级, 所以每个星级对应2分, 单个条目评分的计算公式即为:

评分 = (10 x 5星比例) + (8 x 4星比例) + ... + (2 x 1星比例)

抽取部分条目对此假设进行手工验证, 可以发现的确如此.

但是, 这里存在的一个陷阱是, 由于评分数据的特殊性和抽样的限制, 如果我们抽取一部分数据做回归, 结果可能会受到样本的影响而与手工验证的结果产生偏移. 由于1星(很差)和2星(较差)在大量条目样本中所占往往比例非常小, 普通的回归非常容易倾向于使X1, X2, X3的系数减小. 举例来说, 从我看过的443部电影中抽取前400个条目作为样本 [rateSample.csv] 作回归.

继续阅读

冬青黑体 vs 华文细黑:叠加对比

北国冰城哈尔滨今年冬季是出奇的暖和, 再次提醒了我们距离2012的到来只剩下一整年, 仍然没有买到船票的同学们要抓紧时间了. 今天让我们叠加比较一下苹果的新旧主力中文字体: 冬青黑体(Hiragino Sans GB W3)和华文细黑(STXihei).

冬青黑体 = 红, 华文细黑 = 蓝.

简要总结:

  1. 同等字号下, 冬青黑体字面的确较华文细黑大, 可能有利于屏幕显示;
  2. 对笔锋的处理, 没有华文细黑那么夸张, 朴素多了;
  3. 冬青黑体在斜弯钩的收笔明显长于华文细黑, 同时压缩了右下角元素的比例, 整体张弛有度, 着墨更加均匀.

References

[1] Type is Beautiful. 雪豹新简体字体 Hiragino Sans GB.

[2] 林泉约. 混乱的国标,不统一的“走”.

[3] Wikipedia. Hiragino.

[4] Lukhnos D. Liu. Hiragino Sans GB: A typeface with Japanese soul and Simplified Chinese look.

[5] 齐立. 微软雅黑的设计.

[6] 李少波. 黑体字研究: [博士学位论文]. 北京: 中央美术学院, 2008.

OpenScholar是个好项目

openscholar

度过了一段史诗般的酒池肉林,华丽丽的两个月木有更新,直到我膝盖中了一箭。

两天前发现了OpenScholar这个项目,是几个IQSS的家伙鼓捣出来的,旨在为院系所实验室这样的研究机构提供一个快速构建大量个人和群体站点的平台,基于Drupal开发,自带了一些biblio这类模块,Google一下会发现还是有一些学校用户的。缺点是全局配置比较痛苦和繁琐,只用来建一个站有点奢侈了。不过非常喜欢它的自带主题,于是果断砍掉原来丑到不能看的静态主页,把长期不更新的页面稍微理顺了一下,太息曰:“内容管理系统,是所有建站者一生都无法逃脱的劫数。”

即使是小学生作文,也是要尽快写完的,十月的时候扔了两个草稿在那,已然忘光了。

Ten Typical Symptoms of Potential Academic Paranoia

Prof.Frink

  1. Getting used to writing articles that begin with a section named 'Introduction' or end up with section 'Conclusions'.
  2. Always cites several references in any type/length of essays; strongly believes that without the citations, the work will not be recognized by anybody.
  3. Hates magazines with huge pictures and imprecise textual materials; has a special fondness for two-column, small font, tight dissertations with formulas, three-line tables, and stylish, dot-and-line formed scalable graphics.
  4. Uses a reference manager, instead of regular tools such as Google Calendar, to organize daily life.
  5. Blogs academic topics constantly for 2.5+ years, or has set up a stand-alone blog about current research.
  6. Talks academic in 50%+ Twitter/Facebook status in last 2 years, or has pure academic purpose social accounts.
  7. Used to have at least one horrible nightmares about a B+ ruined perfect straight As, just like Lisa Simpson did.
  8. Once encountered some data from the middle of nowhere, always considers what its underlying patterns look like; imagines constructing a quantitative model for it, very seriously.
  9. When saw a problem, couldn't help diving into scholar databases to retrieve related papers, thoroughly read the references and dug recursively; Gigabytes of papers are storaged in the hard-drive eventually.
  10. Blogs academic paranoia and doesn't feel anything, until now.

R连接PostgreSQL

最近一直在玩DICE三年前的神作《镜之边缘》, 顺便重温了一下一年前的《黑手党II》, 玩得简直是没有什么时间上来灌水了. 游戏之余偶然接触了一个PostgreSQL数据库, 简单记录一下.
mirrorsedge

R连接数据库有几套方案, 其实基本上就是DBI/ODBC/JDBC. 不过话说ODBC和JDBC神马的真是弱爆了. JDBC方案中那个鬼魂一般的依赖rJava, 真的是很难安装. 其实也有一种可能是AUR上的JDK打包得不好, 没能hold住R CMD javareconf的标准. 前些日子安装RWeka时专门研究过rJava的安装脚本, 卡在编译简单JNI程序这句一直不成功, 手动修改各种配置文件无果, 于是果断放弃 ...
继续阅读