Bootstrap

现代信息检索笔记(一)——课程简介

目录

什么是信息检索

应用一:做搜索引擎

应用二:信息推荐系统

应用三:婚恋网站

信息检索的具体应用

从信息规模上分类

为什么要学习信息检索技术?

市场发展需求大

应用需求多:

课程情况

课程宗旨

国际著名研究机构和代表人

一些活跃的华裔学者

重要会议

国际会议:

国内会议:

ACM&SIGIR

重要期刊


什么是信息检索

应用一:做搜索引擎

前十个能否搜到准确的答案。

答案是否按相关性由高到低排序。

排除作弊行为(优化用户阅读观感),促进推广行为(赚钱)。

如何一边打广告,一边提高用户的阅读体验。

商家为用户买单。

根据关键词找语料。

应用二:信息推荐系统

买了同一商品的用户也买了XX产品。

区别:第一个被动,第二个主动。

所有检索的数据会被保留在后台中,根据不同的购买习惯推送不同的商品。

信息过滤:我猜你不喜欢XX,本质仍属于信息推荐。

应用三:婚恋网站

根据输入任务信息,找到最匹配的人。

共同点:给定需求,找到匹配信息

信息检索:给定用户需求返回满足该需求信息的一门学科。通常涉及信息的获取、存储、组织和访问。爬虫也属于该门学科的知识。

从大规模非结构化数据(通常是文本)的集合(通常 保存在计算机上)中找出满足用户信息需求的资料 (通常是文档)的过程。

“找对象”的学科,即定义并计算某种匹配“相 似度”的学科。

信息检索的具体应用

搜索

Query->document 符合1,不符合0。

找到一个相关度,根据相关度把符合的信息按相关度从高到低排名。

舆情分析、推荐、内容安全、挖掘、情报处理

从信息规模上分类

个人信息检索:桌面信息检索

企业信息检索:搜索引擎

为什么要学习信息检索技术?

市场发展需求大

用户需要信息检索技术:互联网的信息量太大、噪音太多, 寻找所需要的信息非常不容易

公司需要信息检索技术:搜索引擎改变了很多传统的生活 方式,Yahoo、Google、Baidu,还有一些公司如Microsoft、 Sina、Sohu、Tecent、Netease都加入到这个搜索技术的竞 争。不只是搜索引擎才需要信息检索技术,电子商务(如 亚马逊网站、阿里巴巴)、社交网(微博、Facebook、twitter、 校内网)、数字图书馆、大规模数据分析等都需要信息检 索技术

应用需求多:

移动搜索、产品搜索、专利搜索、广告推荐、消费行为分析、网络评论分析、SEO营销

课程情况

课程宗旨

信息检索的基本原理、模型和方法(含部分机器学 习、自然语言处理方法)

信息检索系统的基本实现方法

国际著名研究机构和代表人

美国康奈尔大学 Salton (1927-1995) § 现代信息检索的奠基人,倡导向量空间模型 § SMART的完成人 § 第一任Salton奖(1983年)得主,ACM Fellow

§ 英国剑桥大学 Sparck Jones (1935-2007) § 概率检索模型的提出者之一 § NLP和IR中的先辈 § 曾获ACL终身成就奖和1988年Salton奖

微软英国剑桥研究院、伦敦城市大学 Robertson § 概率检索模型的先驱和倡导者 § 开发了OKAPI检索系统 § 2000年Salton奖得主

 § 美国 UMass CIIR W. B. Croft,ACM Fellow § 基于统计语言建模IR模型的提出者和倡导者 § 和CMU共同开发了Lemur工具 § 2003年Salton奖得主

英国Glasgow大学 Rijsbergen, ACM Fellow § 信息检索逻辑推理学派的提出者和倡导者 § 现在试图用量子的方法解决IR问题 § 2006年Salton奖得主

 § 微软美国研究院 Susan Dumais § 隐性语义索引LSI的提出者 § 2009年Salton奖得主

美国CMU § 美国UIUC § 微软研究院 § IBM研究院 § Google研究院 § Yahoo!研究院

一些活跃的华裔学者

加拿大蒙特利尔大学聂建云教授 § 跨语言检索 § IR模型

 § 美国UIUC 翟成祥(Chengxiang Zhai博士) § IR模型、主题模型(Topic Model)

§ 美国CMU 杨颐明(Yiming Yang)教授 § 文本分类领域最著名的学者之一

台湾中研院 简立峰 § 号称“中文搜索”第一人 § 加入Google研究院

重要会议

国际会议:

 § SIGIR、ACL、WWW、SIGKDD、WSDM、ICML § CIKM、EMNLP、COLING § TREC、NTCIR评测会议 § ECIR、AIRS §

国内会议:

 § 全国信息检索学术会议(1年一届) § 全国计算语言学联合会议(2年一届) § 搜索引擎和WEB挖掘学术会议(1年一届,上半年)

ACM&SIGIR

ACM:美国计算机学会 § SIGIR:special interest group on information retrieval,特定兴趣组 § ACM SIGIR Conference:IR领域的最重要会议, 起始于1971年。

重要期刊

国际: § ACM Transactions on Information Systems (TOIS) § ACM Transactions on Asian Language Information Processing (TALIP) § Information Processing & Management (IP&M) § Information Retrieval

§ 国内 § 中文信息学报 § 情报学报

;