Elasticsearch：向量搜索 (kNN) 实施指南 – API 版

本文介绍: 本指南重点介绍通过 HTTP 或 Pyth on 使用 Elasticsearc h API 设置 Elasticsearc h 以进行近似 k 最近邻 (kNN) 搜索。对于主要使用 Kibana 或希望通过 UI 进行测试的用户，请访问使用 Elastic 爬虫的语义搜索入门指南。你也可以参考文章 “Ch atGPT 和 Elasticsearc h：OpenAI 遇见私有数据（二）”。如果你想切入主题并在 Jupyter Notebook 中运行一些代码，我们可以为你提供随附的 no

作者：Jeff Vestal

本指南重点介绍通过 HTTP 或 Pyth on 使用 Elasticsearc h API 设置 Elasticsearc h 以进行近似 k 最近邻 (kNN) 搜索。

对于主要使用 Kibana 或希望通过 UI 进行测试的用户，请访问使用 Elastic 爬虫的语义搜索入门指南。你也可以参考文章 “ChatGPT 和 Elasticsearch：OpenAI 遇见私有数据（二）”。

如果你想切入主题并在 Jupyter Notebook 中运行一些代码，我们可以为你提供随附的 notebook。

NumVectors×4×(NumDimensions+12)

20,000,000×4×(768+12)≈115 GB of RAM off heap

PUT _ingest/pipeline/vector_embedding_demo
{
  "processors": [
    {
      "inference": {
        "field_map": {
          "my_text": "text_field"
        },
        "model_id": "sentence-transformers__all-distilroberta-v1",
        "target_field": "ml.inference.my_vector",
        "on_failure": [
          {
            "append": {
              "field": "_source._ingest.inference_errors",
              "value": [
                {
                  "message": "Processor 'inference' in pipeline 'ml-inference-title-vector' failed with message '{{ _ingest.on_failure_message }}'",
                  "pipeline": "ml-inference-title-vector",
                  "timestamp": "{{{ _ingest.timestamp }}}"
                }
              ]
            }
          }
        ]
      }
    },
    {
      "set": {
        "field": "my_vector",
        "if": "ctx?.ml?.inference != null &amp;&amp; ctx.ml.inference['my_vector'] != null",
        "copy_from": "ml.inference.my_vector.predicted_value",
        "description": "Copy the predicted_value to 'my_vector'"
      }
    },
    {
      "remove": {
        "field": "ml.inference.my_vector",
        "ignore_missing": true
      }
    }
  ]
}

PUT /_index_template/my_vector_index
{
  "index_patterns": [
    "my_vector_index-*"
  ],
  "priority": 1,
  "template": {
    "settings": {
      "number_of_shards": 1,
      "number_of_replicas": 1,
      "index.default_pipeline": "vector_embedding_demo"
    },
    "mappings": {
      "properties": {
        "my_vector": {
          "type": "dense_vector",
          "dims": 768,
          "index": true,
          "similarity": "dot_product"
        },
        "my_text": {
          "type": "text"
        }
      },
      "_source": {
        "excludes": [
          "my_vector"
        ]
      }
    }
  }
}

POST my_vector_index-01/_bulk?refresh=true
{"index": {}}
{"my_text": "Hey, careful, man, there's a beverage here!", "my_metadata": "The Dude"}
{"index": {}}
{"my_text": "I’m The Dude. So, that’s what you call me. You know, that or, uh, His Dudeness, or, uh, Duder, or El Duderino, if you’re not into the whole brevity thing", "my_metadata": "The Dude"}
{"index": {}}
{"my_text": "You don't go out looking for a job dressed like that? On a weekday?", "my_metadata": "The Big Lebowski"}
{"index": {}}
{"my_text": "What do you mean brought it bowling, Dude? ", "my_metadata": "Walter Sobchak"}
{"index": {}}
{"my_text": "Donny was a good bowler, and a good man. He was one of us. He was a man who loved the outdoors... and bowling, and as a surfer he explored the beaches of Southern California, from La Jolla to Leo Carrillo and... up to... Pismo", "my_metadata": "Walter Sobchak"}

GET my_vector_index-01/_search
{
  "knn": [
    {
      "field": "my_vector",
      "k": 1,
      "num_candidates": 5,
      "query_vector_builder": {
        "text_embedding": {
          "model_id": "sentence-transformers__all-distilroberta-v1",
          "model_text": "Watchout I have a drink"
        }
      }
    }
  ]
}

GET my_vector_index-01/_search
{
  "size": 2,
  "query": {
    "match": {
      "my_text": "bowling"
    }
  },
  "knn":{
      "field": "my_vector",
      "k": 3,
      "num_candidates": 5,
      "query_vector_builder": {
        "text_embedding": {
          "model_id": "sentence-transformers__all-distilroberta-v1",
          "model_text": "He enjoyed the game"
        }
      }
    },
      "rank": {
        "rrf": {}
    }
}

GET my_vector_index-01/_search
{
  "knn": {
    "field": "my_vector",
    "k": 1,
    "num_candidates": 5,
    "query_vector_builder": {
      "text_embedding": {
        "model_id": "sentence-transformers__all-distilroberta-v1",
        "model_text": "Did you bring the dog?"
      }
    },
    "filter": {
      "term": {
        "my_metadata": "The Dude"
      }
    }
  }
}

GET my_vector_index-01/_search
{
  "knn": {
    "field": "my_vector",
    "k": 2,
    "num_candidates": 5,
    "query_vector_builder": {
      "text_embedding": {
        "model_id": "sentence-transformers__all-distilroberta-v1",
        "model_text": "did you bring it?"
      }
    }
  },
  "aggs": {
    "metadata": {
      "terms": {
        "field": "my_metadata"
      }
    }
  },
  "fields": [
    "my_text",
    "my_metadata"
  ],
  "_source": false
}

pip3 install eland
pip3 install -q elasticsearch eland[pytorch]

eland_import_hub_model --url https://elastic:o6G_pvRL=8P*7on+o6XH@localhost:9200 
  --hub-model-id sentence-transformers/all-distilroberta-v1 
  --task-type text_embedding 
  --ca-certs /Users/liuxg/elastic/elasticsearch-8.11.0/config/certs/http_ca.crt 
  --start

cp ~/elastic/elasticsearch-8.11.0/config/certs/http_ca.crt .

显示所有内容

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

Elastic Learned Sp arse Encoder

高层架构

集群注意事项

集群 大小 估计

性能测试

Jupyter Notebook Code

集群 配置

每个字段单个向量与每个字段多个向量

加载嵌入模型

摄取管道 设置

索引映射/模板 设置

索引数据

查询数据

kNN 调整选项

_search

距离度量的选择

Ingest

索引新数据

精确 kNN 搜索

在本地环境中运行 jupyter notebook

安装 Elasticsearch 及 Kibana

启动白金版试用功能

上传模型

运行 Notebook

发表回复取消回复

Elastic Learned Sparse Encoder