Mappings in Elasticsearch

虽然都是基于Lucene,Elasticsearch默认运行使用时,是不需要像Solr一样配置索引字段文件的,从开发者角度来看数据结构很灵活,只需要向数据库提交任意格式的JSON就行了,实际上,Elasticsearh对Lucene的索引文档映射进行了封装,每次提交时都是在原有数据结构上检查并增加,而且,并不是所有的数据结构改变都能对后续数据生效。这样一来,需要对数据结构进行更多灵活控制时,Elaticsearch远远比Solr复杂。这篇文章将给大家介绍在Elasticsearch中Mappings的主要类型和工作原理,以及如何使用Shell和API进行操作。

Elasticsearch的Mappings分为两种类型,索引文件(index)的根级别Mapping、文档类型(type)级别的Mapping,类型Mapping下又分为预置默认的Fields和自定义源(source)的Fields.

Index Mapping

根级别的Mapping会被此索引文件下所有的文档继承,在操作中,使用 “_default_” 来识别。在创建Index时,可以同时创建默认的Mapping,注意的是,这个级别的Mapping只能在创建索引时指定才会生效。

curl -XPOST localhost:9200/myindex -d '{
    "mappings" : {
        "_default_" : {
            "_source" : { "enabled" : false }
        }
    }
}'

使用JavaScript API创建默认Mapping

client.indices.create({
    index: "myindex"
}).then(function(body){
    var mapping = {
        "_default_": {
            "_source": { "enabled": "false" }
        }
    };
    client.indices.putMapping({
        index: "myindex",
        body: mapping
    }).then(function(body){
        console.log("created");
    });
});

查询定义的Mapping

http://localhost:9200/_mapping?pretty

可以看到输出

"myindex" : {
  "mappings" : {
    "_default_" : {
      "_source" : { "enabled" : false }
    }
  }
}

Type Mapping : Default Fields

默认的映射字段的命名都是以下划线开始,具体可以参考Elasticsearch Fields文档。需要特别提到的是_timestamp字段,它可以为每个索引文档自动创建时间戳,但默认这个字段并未启用,在MongoDB中,ID其实就是TimeStamp,看来Elasticsearch不是很重视时间序列。

如果需要启用_timestamp,必须在创建索引时指定Mapping,否则,即使以后更改,新的数据也是无法加上时间戳的。下面为索引中所有文档类型启用时间戳:

curl -XPOST localhost:9200/myindex -d '{
    "mappings" : {
        "_default_" : {
            "_timestamp" : { "enabled" : true, "store" : true }
        }
    }
}'

其中的 “store” : true,如果对Lucene或Solr比较熟悉应该不陌生,启用store后索引文件中会保存原始值,如果只作查询范围不需要显示的话,可以让它保持默认值false. 如果只需要为某个文档类型启用_timestamp,将上面的 “_default_” 改为文档类型名称即可,但依然需要在创建第一个文档之前指定。

client.indices.create({
    index: "myindex"
}).then(function(body){
    var mapping = {
        "mydoc": {
            "_timestamp": { "enabled": "true", "store": "true" }
        }
    };
    client.indices.putMapping({
        index: "myindex",
        type: "mydoc",
        body: mapping
    }).then(function(body){
        console.log("created");
    });
});

查询指定文档的Mapping

http://localhost:9200/myindex/mydoc/_mapping?pretty
"myindex" : {
  "mappings" : {
    "mydoc" : {
      "_timestamp" : {
          "enabled" : true,
          "store" : true
        },
      "properties" : { }
    }
  }
}

对于默认的字段,也需要在索引时指定其值,否则无法创建索引文档。

client.index({
    index: 'myindex',
    type: 'mydoc',
    timestamp: new Date(),
    body: req.body
}).then(function (body) {
    res.send(200, "ok");
}, function (error) { });

查询_timestamp时需要在fileds中指定

http://localhost:9200/myindex/mydoc/1?pretty=1&fields=_source,_timestamp

默认类型是long

{
  "_index" : "myindex",
  "_type" : "mydoc",
  "_id" : 1,
  "_version" : 1,
  "found" : true,
  "_source":{ },
  "fields" : {
    "_timestamp" : 1412329642820
  }
}

Type Mapping : Custom Fields

自定义字段其实是全部放置在默认字段_source中的,在Mappings对应的是Properties节点。这类字段可以在任何时间进行更新,Elasticsearch可以处理类型冲突和合并。

$ curl -XPUT 'http://localhost:9200/myindex/mydoc/_mapping' -d '
{
    "mydoc" : {
        "properties" : {
            "message" : {"type" : "string", "store" : true }
        }
    }
}

从这里我们可以看到,在数据结构上,即使是最灵活的Elasticsearch,也是需要预先对索引和文档类型级别的字段进行设计和定义,合并字段时是否需要重新索引,我并没有测试过,这点似乎还不及MongoDB的文档结构灵活。

发表评论

电子邮件地址不会被公开。 必填项已用*标注

您可以使用这些HTML标签和属性: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>