Elasticsearch内核解析 – 数据模型篇

本文介绍: 在上面的介绍中，我们解释了Elasticsearch是如何通过增加系统字段来扩充Lucene的功能，开篇提出的Lucene的多个不足中，前四个都在文章中做了说明，最后一个没法通过增加系统字段实现，我们将会在下一篇《Elasticsearch写流程简介》中介绍如何通过其他方式来实现，下一篇见。另外，我们招人：Elasticsearch和Lucene的开发，有兴趣的可以私信联系我。

Elasticsearch内核解析 – 数据模型篇 – 知乎

Elasticsearch是一个实时的分布式搜索和分析引擎，它可以帮助我们用很快的速度去处理大规模数据，可以用于全文检索、结构化检索、推荐、分析以及统计聚合等多种场景。

Elasticsearch是一个建立在全文搜索引擎库Apache Lucene 基础上的分布式搜索引擎，Lucene最早的版本是2000年发布的，距今已经18年，是当今最先进，最高效的全功能开源搜索引擎框架，众多搜索领域的系统都基于Lucene开发，比如Nutch，Solr和Elasticsearch等。Elasticsearch第一个版本发布于2010年，发布后就以非常快的速度霸占了开源搜索系统领域，成为目前搜索领域的首选，著名的维基百科，GitHub和Stack Overflow都在使用它。

既然有Lucene娥，为啥还会出现很火的Elasticsearch？回答这个问题之前，我们先来简单看一下Lucene中的一些数据模型：

Lucene中包含了四种基本数据类型，分别是：

上述四种类型在Elasticsearch中同样存在，意思也一样。

/**
     * The next available sequence number.
     */
    private volatile long nextSeqNo;
    /**
     * Issue the next sequence number.
     *
     * @return the next assigned sequence number
     */
    synchronized long generateSeqNo() {
        return nextSeqNo++;
    }