博客
关于我
Nearth---全文检索技术(luncen)/002(全文检索的概念)
阅读量:185 次
发布时间:2019-02-28

本文共 396 字,大约阅读时间需要 1 分钟。

什么是全文检索?

数据的分类:

1,结构化数据

格式固定,长度固定,数据类型固定

eg:数据库中的数据

2,非结构化数据

word文档,pdf文档,邮件,html,txt

格式不固定,长度不固定,数据类型不固定。

数据的查询:

1,结构化数据的查询

SQL语句,查询结构化数据的方法。简单,速度快。

2,非结构化数据的查询

从文本文件中找出包含spring单词的文件

a,自测

b,使用程序把文档读取到内存中,然后匹配字符串,顺序扫描。

c,把非结构化数据转化为结构化文档

---先根据空格进行字符串的拆分,得到一个单词列表,基于单词列表创建一个索引。

然后查询索引,根据单词和文档的对应关系找到文档列表,这个过程叫全文检索。

--索引:一个为了提高查询速度,创建某种数据结构的集合。

3,全文检索:

先创建索引,然后查询索引的过程叫做全文检索。

索引一次创建多次使用,表现为每次查询速度快。

转载地址:http://qrmn.baihongyu.com/

你可能感兴趣的文章
NLP三大特征抽取器:CNN、RNN与Transformer全面解析
查看>>
NLP入门(六)pyltp的介绍与使用
查看>>
NLP学习笔记:使用 Python 进行NLTK
查看>>
NLP度量指标BELU真的完美么?
查看>>
NLP的不同研究领域和最新发展的概述
查看>>
NLP的神经网络训练的新模式
查看>>
NLP采用Bert进行简单文本情感分类
查看>>
NLP问答系统:使用 Deepset SQUAD 和 SQuAD v2 度量评估
查看>>
NLP项目:维基百科文章爬虫和分类【02】 - 语料库转换管道
查看>>
NLP:从头开始的文本矢量化方法
查看>>
NLP:使用 SciKit Learn 的文本矢量化方法
查看>>
NLTK - 停用词下载
查看>>
nmap 使用总结
查看>>
nmap 使用方法详细介绍
查看>>
nmap使用
查看>>
nmap使用实战(附nmap安装包)
查看>>
Nmap哪些想不到的姿势
查看>>
Nmap扫描教程之Nmap基础知识
查看>>
nmap指纹识别要点以及又快又准之方法
查看>>
Nmap渗透测试指南之指纹识别与探测、伺机而动
查看>>