目录
什么是信息检索
应用一:做搜索引擎
前十个能否搜到准确的答案。
答案是否按相关性由高到低排序。
排除作弊行为(优化用户阅读观感),促进推广行为(赚钱)。
如何一边打广告,一边提高用户的阅读体验。
商家为用户买单。
根据关键词找语料。
应用二:信息推荐系统
买了同一商品的用户也买了XX产品。
区别:第一个被动,第二个主动。
所有检索的数据会被保留在后台中,根据不同的购买习惯推送不同的商品。
信息过滤:我猜你不喜欢XX,本质仍属于信息推荐。
应用三:婚恋网站
根据输入任务信息,找到最匹配的人。
共同点:给定需求,找到匹配信息
信息检索:给定用户需求返回满足该需求信息的一门学科。通常涉及信息的获取、存储、组织和访问。爬虫也属于该门学科的知识。
从大规模非结构化数据(通常是文本)的集合(通常 保存在计算机上)中找出满足用户信息需求的资料 (通常是文档)的过程。
“找对象”的学科,即定义并计算某种匹配“相 似度”的学科。
信息检索的具体应用
搜索
Query->document 符合1,不符合0。
找到一个相关度,根据相关度把符合的信息按相关度从高到低排名。
舆情分析、推荐、内容安全、挖掘、情报处理
从信息规模上分类
个人信息检索:桌面信息检索
企业信息检索:搜索引擎
为什么要学习信息检索技术?
市场发展需求大
用户需要信息检索技术:互联网的信息量太大、噪音太多, 寻找所需要的信息非常不容易
公司需要信息检索技术:搜索引擎改变了很多传统的生活 方式,Yahoo、Google、Baidu,还有一些公司如Microsoft、 Sina、Sohu、Tecent、Netease都加入到这个搜索技术的竞 争。不只是搜索引擎才需要信息检索技术,电子商务(如 亚马逊网站、阿里巴巴)、社交网(微博、Facebook、twitter、 校内网)、数字图书馆、大规模数据分析等都需要信息检 索技术
应用需求多:
移动搜索、产品搜索、专利搜索、广告推荐、消费行为分析、网络评论分析、SEO营销
课程情况
课程宗旨
信息检索的基本原理、模型和方法(含部分机器学 习、自然语言处理方法)
信息检索系统的基本实现方法
国际著名研究机构和代表人
美国康奈尔大学 Salton (1927-1995) § 现代信息检索的奠基人,倡导向量空间模型 § SMART的完成人 § 第一任Salton奖(1983年)得主,ACM Fellow
§ 英国剑桥大学 Sparck Jones (1935-2007) § 概率检索模型的提出者之一 § NLP和IR中的先辈 § 曾获ACL终身成就奖和1988年Salton奖
微软英国剑桥研究院、伦敦城市大学 Robertson § 概率检索模型的先驱和倡导者 § 开发了OKAPI检索系统 § 2000年Salton奖得主
§ 美国 UMass CIIR W. B. Croft,ACM Fellow § 基于统计语言建模IR模型的提出者和倡导者 § 和CMU共同开发了Lemur工具 § 2003年Salton奖得主
英国Glasgow大学 Rijsbergen, ACM Fellow § 信息检索逻辑推理学派的提出者和倡导者 § 现在试图用量子的方法解决IR问题 § 2006年Salton奖得主
§ 微软美国研究院 Susan Dumais § 隐性语义索引LSI的提出者 § 2009年Salton奖得主
美国CMU § 美国UIUC § 微软研究院 § IBM研究院 § Google研究院 § Yahoo!研究院
一些活跃的华裔学者
加拿大蒙特利尔大学聂建云教授 § 跨语言检索 § IR模型
§ 美国UIUC 翟成祥(Chengxiang Zhai博士) § IR模型、主题模型(Topic Model)
§ 美国CMU 杨颐明(Yiming Yang)教授 § 文本分类领域最著名的学者之一
台湾中研院 简立峰 § 号称“中文搜索”第一人 § 加入Google研究院
重要会议
国际会议:
§ SIGIR、ACL、WWW、SIGKDD、WSDM、ICML § CIKM、EMNLP、COLING § TREC、NTCIR评测会议 § ECIR、AIRS §
国内会议:
§ 全国信息检索学术会议(1年一届) § 全国计算语言学联合会议(2年一届) § 搜索引擎和WEB挖掘学术会议(1年一届,上半年)
ACM&SIGIR
ACM:美国计算机学会 § SIGIR:special interest group on information retrieval,特定兴趣组 § ACM SIGIR Conference:IR领域的最重要会议, 起始于1971年。
重要期刊
国际: § ACM Transactions on Information Systems (TOIS) § ACM Transactions on Asian Language Information Processing (TALIP) § Information Processing & Management (IP&M) § Information Retrieval
§ 国内 § 中文信息学报 § 情报学报