能“穿越时空”的新搜索引擎
ugmbbc发布于 2010-08-28 20:18:42|5210 次阅读 字体:大 小 打印预览
感谢Slashdot每日精选的投递
新闻来源:Technology Review
过去,人们曾试过以一条时间轴来显示新闻故事。而现在,雅虎的巴塞罗那研究实验室研发的时间探险家(Time Explorer)新闻搜索引擎原型能够生成贯穿过去与未来的时间轴。时间探险家的结果页上最重要的组成部分是一条互动的时间轴。这条时 间轴能够显示出关于某特定搜索词的相关文章在时间上的数量变化。最有可能相关的文章会出现在时间轴上,并标明了发布日期。若用户将这条时间轴移到未来的 话,任何提到未来某一时点的相关文章就会显示出来。
它不仅提供了一种查看新闻的新方式,还使人们能够查看过去对某一将来事件的预言。比如,在2010年的时间轴上,能够看到2004年某报纸的彩色增刊曾预 言,朝鲜到2010年已经制造出了200多个核弹头。或2007年的某文章曾准确预言,美国民主party在是否废除乔治•布什的减税政策上难以抉择。
新 闻机构正在迅速转向新的新闻报道手段,包括利用改进的搜索引擎。皮尤研究中心2008年的一份调查显示,使用搜索引擎查看在线新闻的人数占了83%。
时 间探险家不仅能够定位某个确指的未来时点,如“2010年11月”,也能够从一篇文章的发布日期算起找到相关的时点,如“下个月的一场选举”。它还能摘取 出文中提到的名字、地点和组织机构。这些信息会显示在结果页右端的一个信息框里,把其中的人名或某实体加入时间轴,即可通过结合某人或某地等信息来优化搜 索结果。
“你可以查找战争或任何其他事件中的重要人物,不仅如此,你还能看到这些人物是在何时开始重要起来的。”雅虎研究团队的成员米歇 尔•马修斯(Michael Matthews)说,“使用目前已有的工具很难找出某条新闻随时间变化的整个进程。”
时间探险家的数据库 取自《纽约时报》在1987~2007年间发布过的180万条新闻,其目的是为了激发对搜索新闻报道的新方式的研发。上周末,在新泽西州新布朗斯维克举行 的人机互动与信息检索(HCIR)研讨会上,时间探险家与其他使用该数据库的产品一同发布,并获得了参会者评选的《纽约时报》新闻数据库的最佳应用奖。
在 HCIR会上展示的其他工具还能够:对文章中出现的人物进行影响力评估;锁定与搜索词相关的词组;以及迅速生成关于某话题如一个名人或一个国家的最近新闻 的概括性网页。
“对大多数新闻搜索引擎来说,时间近度是关联的一个重要因素。” 谷歌纽约办公室的技术负责人、主持了HCIR会议挑战部分的Daniel Tunkelang说。“时间探险家给我们提供了一个对时间维度的探索性视角,使用户能够看到一个话题的所有历史报道。”
“巧妙的视觉设 计允许用户发现在某一特殊时点两个实体间的意想不到的关系——比如,斯洛博丹•米洛舍维奇和萨达姆•侯赛因之间的关系。将这两个人名与“南斯拉夫”共同作 为搜索词组,其搜索结果首先显示的是侯赛因与米洛舍维奇之间的对比性新闻,但随后会发现这两个领导人之间还有直接的牵连,他们曾进行过武器买卖交易。
马 修斯表示,尽管时间探险家当前的搜索范围只限于过去的新闻报道,但它也有潜力应用于搜索新的新闻报道。“虽然很难实现时间探险家的实时更新,但做到每日更 新并不算难,而我相信它必然会成为非常有意义的搜索工具。”
他表示时间探险家的最佳应用在于查看关于某一轰动事件的各个方面。例如,某人 正在阅读一条关于医疗补助计划的新闻,使用时间探险家还能够看到关于此话题的历史报道和未来预测。“这像是关联文章的一个特征,但它聚焦的却是未来。”他 和同事们正在致力于扩大时间探险家的新闻覆盖范围,对其数据库加入更多最新的新闻资源,以及来自博客和其他网站中的各种新闻资源。
《纽约 时报》研究和开发实验室的成员埃文•桑德豪斯(Evan Sandhaus)说,该报已经将1851年以来的所有新闻报道都进行了数字化,可供人们在网上搜索,但目前的搜索技术和人机界面还无法承担这样巨大的信 息量的搜索。桑德豪斯在2008年末亲眼见证了这些新闻档案的开放。
桑德豪斯说:“我们可以说,‘把关于贝拉克•奥巴马的新闻全部显示出 来,’但我们没有一个数据库能显示出他的出生日期,以及他曾写过的书的名字。”他认为能够解析新闻内容和含义的工具的应用范围可能更广泛。“那种资源不仅 能够帮助研究团队解决我们公司的问题,也会帮助任何需要管理大规模数据的公司解决问题。”
大部分组织机构都需要存储数以百万计的文本文件 如电子邮件、报告等,因此,更加智能化的文件管理工具将有可能受到普遍欢迎。马修斯说,“理论上,目前正在用的基础算法应该能解决任何问题,或许只需要对 它们做一些小调整而已。” |