互联网的信息很庞大也很杂乱,很大的精力浪费在了寻找信息而不是吸收信息上,感觉玩聚网是个充满想象力的东西。玩聚网致力于语义聚合,最大化地寻找有价值的信息,并有效聚合起来。本期中国站长站站长访谈栏目,请来玩聚网(www.ju690.com)创始人郑昀,就这一精彩图景做一展示。
中国站长站《站长访谈》主持人王小东:欢迎郑昀做客中国站长站!首先向郑昀表达一个敬意,在互联网的“好文章”后面,常常可以看到你的勤奋身影。
郑昀:我们一直关注如何找到互联网上最优秀的内容和人,基于各种各样的数据和方法,把它们有效整合,并力图完美呈现。
王小东:对,你也曾经说过,玩聚网的内容取舍很大程度上源自你的审美趣味,很多内容特别是早期的玩聚网,多是你平时阅读的RSS订阅列表。那么,呈现玩聚网现在的样子,相信不仅仅是列表的呈现吧。可否详细介绍一下你所说的语义技术作为二层过滤,达到一个有价值主题呈现的这一图景?甄选好文章,主要有哪些途径呢?
郑昀:发现互联网最优秀最新鲜的文章或热点,我们探索的大致有两种测量维度:
一,找到用户或站方信赖的信源。比如,天涯社区的一些板块,Twitter,FriendFeed,某些博客,等等,相对值得信赖,它们上面的信息相对好。
二,找到用户或站方信赖的人。
具体的测量方法,有三种途径:
一,监测信赖的信源。如果足够多的资讯都在说同一件事,那么这件事可能是值得看的热点;如果足够多的资讯都在重复传播同一篇文章,那么这篇文章可能值得阅读。
二,监测信赖的人。如果足够多的人都推荐、分享和转发了同一个资讯,那么这个资讯就可能是优质的、值得被你信赖的。
三,把上面两点混合起来用。
其中,检测不同文章是讲同一件事,以及检测不同文章其实是一篇文章,这都需要语义计算。
王小东:有另外一个类似的网站——FeedzShare。FeedzShare 是统计Google Reader和鲜果的读者在RSS阅读器里面分享的内容, 然后把用户分享最多的文章呈现在首页上。玩聚网和FeedzShare有哪些区别吗?我看到内容重合度很高的。
郑昀:我曾经说过,玩聚SR = (RssMeme + TweetMeme + Popacular + …)+ 语义计算。FeedzShare 是 RssMeme 的模式在中国的第一个实现者。
对互联网科技社群来说,大部分分享和阅读行为都发生在RSS阅读器中,但也有相当比例的推荐行为第一时间发生在 Twitter 为首的微博客中。而且微博客的热点追踪能力更强更快,所以在中国要想做好实时的优质内容发现,必须要加强对微博客领域的监控。
微博客的热门链接追踪虽好,但在中国也有缺点,就是容易剑走偏锋,过于新特奇,缺少让人沉稳耐读的资讯。这就需要 RssMeme 的模式来补充。
另外,站方必须考虑的一点就是,流行的社会化媒体,都往往存在被封锁的风险,所以也必须考虑多种信源聚合,而不是把自己绑在Twitter或者Google Reader战车上,避免因信源被封而无米下锅,比如近期我们整合进来饭否的统计数据。
至于不同聚合服务内容有一定重合,我认为在现阶段中国这是必然的。因为活跃的中国互联网用户其实就这么多,尤其是社会化媒体,基本都是科技社群这批人作为主力军,每天产生出来的好内容也就那么多,那么作为RSS分享聚合的FeedzShare和鲜果热文,与多种信源聚合的玩聚SR,内容有一定重合,这是必然的。这就像网易新闻和新浪新闻多数是重合的一样。对于此,我的建议是,保持对一个聚合服务的关注即可。你犯不上新浪新闻和网易新闻全都看。
王小东:玩聚网是使用Django构建的吗?介绍一下这方面的情况,以及关于Python 编程语言。
郑昀:玩聚网的Web部分都是Django框架搭的,便于快速构建。
后台则跑了很多很多的服务,如爬虫,如语义计算,如统计,如数据挖掘,等等,都是用Python写的独立服务。
自然语言处理部分,如分类、相似性计算、标签提取、重复检测等,都是C++写的。
王小东:自己一个切身体验。我发现豆瓣网(douban.com)的数据分析很厉害,检索一个自己喜欢的电影或者书籍,豆瓣网向你推荐的相关内容,十之八九就是你喜欢的,这很不简单。豆瓣网现在也采取了IMDB评分机制,豆瓣九点和玩聚网相关度也很高,其实本质上,豆瓣网和玩聚网都是社会化推荐。我也是这次向你请教关于玩聚网的事情,更加发现豆瓣很不简单。
郑昀:这个不知道该怎么回答。相对于没有用户的玩聚网,豆瓣有海量用户,拥有高质量的用户行为数据,有强力的协同过滤算法,这些玩聚网都没有,而且互联网上也没有这么好的开放数据。国内没有谁能和他们比的。
|