Zia视觉感知的的智能字符识别

将您的物理数据导入数字流程

智能字符识别（ICR）是一种光学识别技术，它利用人工智能识别、捕获和数字化任何物理形式的数据。

在 Zoho CRM 中，ICR 是作为 Zia 视觉感知的一部分构建的——Zia 视觉感知是一款 AI 驱动的图像检测和验证工具。

在这份文档中，你会了解到：

基于模板的提取

如何训练 Zia 从图像中提取数据

零样本字段提示

探索零样本提示背后的技术

为什么 CRM 需要 ICR？

从名片到产品标签，从注册表单到发票，从身份证明到运输标签，你的运营依赖于来自各种物理媒体的打印数据。然而，重要的是你的代理人员要跟上业务步伐，不要花费宝贵的时间和精力手动将打印文本转换为可用数据。

假设你是一名忙碌的销售代表，在客户会议上与几位高价值潜在客户会面并交换了名片。当你回到办公室时，必须为每张获得的名片创建记录，填写如姓名、电话号码、网站、地址等详细信息。
想象一下，在后期制作流程中，仓库管理员需要从包装产品上附着的标签中记录产品名称、SKU 编号、生产日期等信息，并将所有这些信息输入到 Zoho CRM 中。

在两种情况下，数据上传到系统后，潜在客户培养和库存管理的实际流程才会开始，但代理不得不将大部分时间花在将数据导入系统上。

因此，为了简化记录创建、提高业务生产力并减轻表单疲劳，Zia 视觉感知优化了 ICR 功能。

选择适合您业务的 ICR 技术：Zoho CRM 中的 ICR 类型

从处理预测标准方向（如身份证件）到动态变化方向（如名片），您的业务需要处理多种物理数据形式，并为了适应和满足不同的业务需求，Zoho CRM 中的智能字符识别（ICR）配备了两种提取方法：

模板驱动
零样本字段提示

基于模板的提取

模板驱动提取是一种提取方法，您用少量样本训练 Zia

它要求您上传与数据相同方向的标准图像（相同模板，不同的数据值，以便 Zia 理解）
手动从上传的图像中定位值，并将其与所选布局/模块的 CRM 字段关联。

这样做，Zia 就能知道从图像的哪个位置获取值，并将这些值与选定布局中的 CRM 字段关联起来。

例如：

一键保险

保险业务通常涉及耗时流程。为了简化这些流程，Coverly——一家科技型保险公司——推出了“一键保险”申请，客户只需提交政府授权的身份证件即可快速创建保险单。通过 OCR 技术，处理这些申请的保险代理可以仅用几个简单步骤，利用这些图像信息创建新记录。

完成供应商背景调查

Zylker 是一个在线教育平台，使领域专家能够在其平台上注册并开设课程。为了提升用户体验，该平台通过网页表单招募专家，并仅需提供一些基本信息，如姓名和电子邮件地址。仅凭这些信息，Zylker 无法授权专家；然而，通过要求他们提交身份证照片，Zylker 可以提取其数据，并使用这些信息丰富他们的记录。

这里展示如何从图像中创建记录：

使用模板驱动方式训练 Zia 进行信息提取

像任何判别性 AI 模型一样，Zia 视觉需要通过样本图像进行图像格式和方向的初步训练。

To train Zia 为 Zia 进行训练

前往设置 > Zia > 视觉感知 > 智能字符识别。
在 ICR 页面，点击创建新规则来为模块创建一个训练集。
在创建新规则 页面，执行以下操作：

提供一个规则名称。
选择所需的模块和布局。
在提取选项类型中，选择基于模板。这将要求您在实时提取数据之前用样本图像训练 Zia。
在用于存储输入图像的字段中，选择您希望存储用于提取的图像的字段名称。

点击"下一步"。这将带您进入名为"上传图片"的训练界面。
在"上传图片"页面，点击上传图片。
在接下来的"提取上传图片"屏幕中，您可以通过从文件管理器中拖放或浏览来添加您的图片。

要浏览文件，请点击浏览按钮并从您的设备中选择文件。然后点击提取。

您将进入 Zia 的训练工作室。Zia 将识别图像中的字符，并使用边界框将所有有效字符标记为感兴趣区域。

Zia 会识别图像中的每个单词，包括字段名称和字段值。

如果 Zia 识别的内容准确，您可以点击该框并将其与布局中的字段名称关联起来。
如果没有，您也可以拖动边距覆盖字符，并将它们关联为字段的值。

在您将本地化的字符与字段关联好之后，点击训练。
点击保存以保存规则。

一旦您为模板驱动提取训练了 Zia，就可以开始创建和丰富该布局和模块中的记录。

基于模板的提取类型的准确率

文本到数字转换的准确性基于训练和模型的持续使用。除了您上传的训练集，Zia 还会从您上传的图像中自我训练以创建记录。

为确保接受度和准确性，请确保您已满足以下前提条件：

您已在 Zia 视觉感知下创建了 ICR 规则。
上传的图像应与样本具有相同的布局。
图像应采用卡片式方向。

以下是图像标记和数据提取的指南：

如果你的图像符合上述前提条件和 ICR 指南，Zia 可以给你一个完美的匹配。

零样本字段提示

零样本字段提示是一种无需任何训练的数据提取高级方法。您告诉 Zia 在输入图像中需要关注哪些字段（字段提示），凭借其智能，Zia 将能够识别并提取这些数据，无需人工干预。

它是如何运作的？

您看到了在基于模板的提取方法中，您需要从图像中定位值并训练 Zia 将它们与 CRM 字段关联起来。在提取的字段提示方法中，Zia 部署其基于视觉语言模型（VLM）的模型来完成这项工作。

以下是 VLM 的简要概述：

视觉语言模型 (VLM)

一个视觉-语言模型（VLM）是一种多模态生成式 AI 系统，它接受图像和文本作为输入，并产生文本输出，如描述、标签或提取的字段。

架构概述：

一个典型的 VLM 集成了两个核心组件：

视觉编码器 - 一种将图像转换为高维视觉嵌入的神经网络。
大型语言模型（LLM） - 一种处理文本标记并根据多模态上下文生成输出的文本生成模型。

这些组件通过投影层相互连接，因此语言模型能够将视觉特征视为其输入序列的一部分进行解读。

视觉编码器将图像转换为图像块嵌入，而 LLM 将提示转换为文本嵌入。这些视觉和文本嵌入被映射到一个兼容的空间，使 LLM 能够将视觉上下文与提示整合。然后 LLM 执行标准的下一个标记生成来产生输出，并由用户提供明确指令进行指导。

在 Zia 的 ICR（智能字符识别）中，通过在 ICR 规则中选择 CRM 字段，您为 Zia 的 VLM（视觉语言模型）提供了静态提示。因此，每当在指定模块中上传图像时，基于作为提示提供的字段，Zia 可以立即从输入图像中识别相关值，将其提取为数字数据，并通过将正确的值与这些 CRM 字段关联来渲染输出。

作为用户，您只需验证其准确性，并决定是否保留这些关联。如果数据中存在不一致（例如，您的 CRM 选择列表中有 O 阳性，而您的客户写了 O+，Zia 可以识别它们，但仍然允许您在提取后立即更正。

这被称为零样本字段提示：您提供静态提示，并在无需任何先前训练的情况下进行提取。

使用 VLM 的 ICR 功能：

使用字段提示方法进行提取可以与以下内容配合使用：

格式：JPG、JPEG 和 PNG
方向：预测几何形状和其他定制形状，如冲切卡。
脚本类型：手写、易读印刷文本和点阵印刷文本。

配置字段提示规则

要为某个模块启用 ICR（智能字符识别）捕获功能，您需要事先准备好 ICR 规则。

为字段提示配置 ICR 规则:

前往设置 > Zia > 视觉感知 > 智能字符识别。
在 ICR 页面，点击创建新规则来为模块创建一个训练集。
在创建新规则 页面，执行以下操作：

提供一个规则名称。
选择所需的模块和布局。
选择提取类型为字段提示。
从输入图像中选择所有需要提取值的字段。
选择一个字段，将输入图像存储以供将来参考。记住，这是可选的。
点击继续。该模块和布局的 ICR 规则已准备好。现在，您的代理可以开始扫描图像以数字化数据。

业务场景

联系展会潜在客户

参加贸易展览会的主要好处之一是吸引新客户，而快速熟悉的一种方式是交换名片。使用 OCR 技术，销售代表可以快速创建客户记录，并在无需手动输入详细信息的情况下开始资格认证和培养客户。

数字化患者登记

在许多医院中，患者登记仍然采用手写表格的形式。尽管它们可能拥有强大的流程自动化，但手动将这种长表格型数据输入系统并传递到流程中，将会使流程状态变得紧张。使用 ICR，前台工作人员可以即时捕捉、上传并创建患者记录。

使用 ICR

创建记录

从图像创建记录

前往所需模块，点击“创建记录”旁边的下拉菜单。
注意：要启用此选项，您必须配置一个 ICR 规则。
在从图像创建记录 页面，将您想要提取文本的图像拖放到此处。您也可以点击浏览从您的设备中获取图像。
点击继续。Zia 将开始提取数据。
提取完成后，Zia 将关联图像中的字段值。这对于两种提取技术都是通用的。

根据提取的准确性，你可以选择保留 Zia 的值关联。记住，Zia 会提取图像中的所有字符，这可能包括与你的布局中字段不对应的数据。如果你不需要它们，可以取消选择。
如果你为该模块使用了零样本字段提示：

如果存在数据不一致（比如，图像中的数据是 USA，而你的布局中的数据是 United States of America），Zia 会允许你修正这些不一致。

你可以从选择列表值中选择正确的值。
如果你是管理员或有权创建或编辑记录布局的用户，也可以直接在该位置输入新值。

点击继续。

如果这张图片不令人满意，你可以尝试使用新图片。

更新现有记录

除了从图像中创建记录外，您还可以使用您记录中上传的图像来丰富现有记录。

为了丰富现有记录

前往您想要丰富记录的位置，并点击您希望用于丰富操作的画面。
点击预览右上角的从图像充实按钮。
Zia 将隔离图像中的字符。验证丰富和现有数据，然后点击继续。
关联后，您将被导航至编辑记录页面，丰富字段将高亮显示以便快速参考。
点击保存以记录新的更改。

总之，Zoho CRM 中的智能字符识别（ICR）能帮助您实现以下目标：

节省时间和精力。
提高敏捷性和生产力。
确保运营后勤，以便代理可以专注于流程。
减轻因在数据源和屏幕之间不断转移视线而引起的疲劳。

何时使用何物：提取类型选择的指南

尽管 ICR 提供两种类型的提取，但为正确的活动使用正确的方法，将提高流程的效率。

使用模板驱动提取：

如果你的数据源始终以标准且一致的形式提供。一旦在它们的标准结构上进行训练，Zia 将能够以更高的准确性处理其余的传入记录。
如果你需要从源图像中提取图像以及字符。

使用字段提示进行提取：

如果您的源图像的格式和方向在每次上传时都不同。
如果您的源图像包含多种脚本格式，包括手写笔记。
如果您有大量的临时提取需求。

局限与限制：概述

基于模板的提取方法的局限性：

作为其 ICR 训练提取方法的一部分，Zia 可以识别人脸，但不能识别产品、物体或动物。
基于模板的提取方法仅适用于卡片型方向图像。
从图像中提取的值只能与指定布局中的字段关联。目前无法与包含子表单值的图像关联。

零样本字段提示的限制:

当前的零样本字段提示无法捕捉图像。
无法从表格中提取数据并将其存储到布局中的子表单中。

需要记住的要点

您必须创建 ICR 规则才能开始创建记录。
一个组织最多可以创建三条规则。
一个模块只能有一个规则。
每个模块布局最多可以上传两张图片。
你可以随时编辑、更新或删除规则。
为了准确关联，在使用模板驱动提取方法时，我们建议你包含包含目标字符的整个区域，不要有切割。
您可以通过关联进行放大和缩小，以便于阅读图像。