Azure Machine Learning – 在 Azure 门户中创建AI搜索技能组

你将了解 Azure AI 搜索中的技能组如何通过添加光学字符识别 (OCR)、图像分析、语言检测、文本翻译和实体识别，在搜索索引中创建可搜索文本的内容。

关注Te chLe ad，分享AI全维度知识。作者拥有10+年互联网服务架构、AI产品研发经验、团队管理经验，同济本复旦硕，复旦机器人智能实验室成员，阿里云认证的资深架构师，项目管理专业人士，上亿营收AI产品研发负责人。

file

开始之前，必须具备以下先决条件：

在以下步骤中，在 Azure 存储中设置 blob 容器以存储异类内容文件。

下载示例数据，其中包括不同类型的小型文件集。解压缩文件。
使用 Azure 帐户登录到 Azure 门户。
[创建 Azur e 存储帐户]或[查找现有帐户]。
- 选择 Azur e AI 搜索所在的同一区域，以避免带宽费用。
- 选择St ora g eV2（常规用途 V2）。
在 Azur e 门户中，打开 Azur e 存储页并创建容器。可以使用默认的公共访问级别。
在容器中，选择“上传”以上传在第一个步骤中下载的示例文件。请注意，内容类型非常广泛，包括无法以本机格式进行全文搜索的图像和应用程序文件。

现在，你已准备好继续运行“导入数据”向导。

对于本快速入门，我们将使用免费的 Azure AI 服务资源。示例数据包括 14 个文件，因此，Azure AI 服务免费提供的 20 个事务配额足以完成本快速入门。
展开“添加扩充”，并做出六项选择。

启用 OCR，将图像分析技能添加到向导页。

file
继续转到下一页。

索引包含可搜索的内容，“导入数据”向导通常可以通过对数据源采样来创建架构。在此步骤中查看生成的架构，并根据情况修改任何设置。以下是为演示 Blo b 数据集创建的默认架构。

在本快速入门中，向导能够很好地设置合理的默认值：

默认字段基于现有 blob 的元数据属性，以及扩充输出的新字段（例如 people、organizations、locations）。数据类型从元数据和数据采样推断。
默认文档键是 meta data _storage_path（由于字段包含唯一值，因此选择了此键）。
默认属性为可检索和可搜索。 可搜索允许对字段进行全文搜索。 可检索意味着可以在结果中返回字段值。向导假设你希望这些字段可检索且可搜索，因为它们是通过技能集创建的。如果要在筛选表达式中使用字段，请选择“可筛选”。

将某个字段标记为 Retr ie va ble 并不意味着该字段一定会出现在搜索结果中。通过使用 $select 查询参数指定要包含的字段，可以控制搜索结果的构成。

继续转到下一页。

与典型的基于文本的索引相比，认知技能索引编制需要花费更长的时间才能完成，OCR 和图像分析尤其如此。若要监视进度，请转到“概述”页，然后选择页面中间的“索引器”。
file
若要查看有关执行状态的详细信息，请从列表中选择一个索引器，然后选择“成功”（或“失败”）以查看执行详细信息。

在此演示中，有一条警告："Could not execute skill because one or more skill input was invalid."。该警告表示数据源中的 PNG 文件不向实体识别提供文本输入。出现此警告是因为上游 OCR 技能无法识别图像中的任何文本，因此无法为下游实体识别技能提供文本输入。