鲸品堂｜WhaleDI自助建模实践与探索

2022-11-01 71

AI应用爆发式增长

但“建模”之路仍旧挑战重重

在过去的十年里，深度学习等技术的出现，让AI迎来了蓬勃发展的第三次浪潮。目前AI能力已经在银行、商超、小额支付、城市轨道交通等各行业得到了广泛的应用，例如人脸识别、图像识别、证件类文字提取等。但随着更多创新的智能化应用的爆发式增长，如智慧社区的高空抛物，智慧小区的电瓶车入电梯，餐饮行业中的明厨亮灶等，针对各行各业的越来越复杂的应用场景，如何去解决AI方面的专业人才不足、算法开发成本高、训练周期长、建模效率低以及投入产出结果不可控等问题就成了AI赋能应用落地的难题。

图片关键词

面对AI建模的挑战与困难，自助建模应运而生，它是帮助用户实现AI应用的低门槛、零代码的模型开发工具。业务人员无需专业的开发基础和编码能力，只需上传数据集，通过自助建模界面引导和简单操作即可完成模型训练和部署，数小时便可轻松获得AI模型。

自助建模如何赋能应用？

OCR是近年比较火热的领域。像身份证识别、车牌识别等都需要运用到OCR技术，而像身份证识别的场景又非常多。比如，如支付宝、微信、小程序应用里的身份认证功能，上传的身份证图片经过识别后，无需人工干预就可将身份信息提取出来完成认证，十分方便。那么我们的AI又是如何在这种具体业务场景中提供匹配的能力呢？其中要经过什么样的流程，才能最终赋能应用？对于开发者来说，通过对具体案例流程的了解，就能够快速的掌握开发所需要的能力，从而实现自主创新开发。下面，我们就以“为身份证国徽面OCR识别进行AI建模”这个场景为例，与大家一同展开探究。

图片关键词

建模流程

自助建模不同于高代码建模方式，它的业务目标是提供流程化操作界面，满足用户从上传文件、数据标注到自动化建模和模型部署在一个可视化配置页面中完成，从而大大减少建模难度和提高建模效率。

以身份证国徽面OCR识别为例，来详细介绍自助建模的流程：

图片关键词

业务人员提供身份证国徽面OCR识别需求说明；

业务人员上传少量身份证国徽面样本并进行标注；

业务人员通过界面化引导与操作进行自动化训练与模型部署流程，可即时体验效果；

业务人员对身份证国徽面OCR识别的能力验收和试用。

在整个自助建模流程中，业务人员可完成建模的全流程操作，无需算法工程师直接参与，也无需进行代码编写，则可完成身份证国徽面OCR识别场景的建模，经过模型部署后，则可完成对上层应用赋能。

工欲善其事，必先利其器，所以开始自助建模之前我们还是要选择一个合适的建模工具，人在江湖走怎么能没有一个响亮的名号和趁手的武器呢，WhaleDI自助建模就是我们要介绍的工具。那么有些朋友可能会好奇了，我们自助建模工具到底有何"超强技能"来支撑业务应用？以OCR识别的场景举例：

核心功能一：样本数据生成器，解决样本数量问题

在实际生产中，样本数据对建模非常重要，由于业务局限与样本数据安全问题，很难搜集到业务场景所需的样本数据，若基于少量的样本数据进行模型训练，生成的模型效果会比较差，往往达不到生产的要求。

构建自动预处理的样本生成器，通过少量的样本数据，进行标注。基于已标注数据，将标注区内容抹除，生成数据模板，再基于此模板生成大量模拟样本，从而快速扩展样本集规模，满足实际情况所用样本集。

图片关键词

如图1，从业务中搜集到的样本集，整理其中不同字段文本的业务规则，包括机关名称字段、时间期限字段，并进行样本标注。

如图2，对样本数据去除标注区域文字得到模板样本，再从对应的文本语料库中生成文本图片，再进行样本的颜色、亮度、对比度、文字大小、形状等进行调节，合成到模板样本中，从而生成样本。

如图3，大规模生成业务生产中所需样本，解决样本不足的问题。

核心功能二：内置不同场景预训练模型功能，提升模型效果

为实现建模全流程自动化，降低技术门槛，提升建模效率，让完全不懂代码的用户也可进行训练建模，减少对算法技术不懂的恐惧，工具中内置预训练模型，如：图像检测、OCR识别、图像分类、文本分类等，用户可以根据使用场景进行选择。

当使用OCR识别场景时，在实际生产过程中，由于拍摄时，角度不一定都是正面的，会存在90°，180°，270°等旋转角度的情况，导致建模的时候，无法识别，建模的准确率降低。为了解决这一个问题，内置预训练模型则会进行校正图片的方向，最终会输出正方向的图片进行处理。

图片关键词

针对检测内容区域，会存在目标文字截断的情况，同时，对文字识别需要编写大量的规则分类，很难覆盖生产中能遇到真实场景，且模型较为复杂不具备性能优势，模型效果较差。而内置预训练模型，则会在进行文字检测后生成结果时，便进行文字分类，只检测图片区域中的关键文字内容，从而降低检测干扰以及文字截断的情况，提高文本检测的性能。

针对文字识别，通用文字识别字典覆盖汉字不够完全，遇到生僻字、变形字、扭曲字等情况，识别准确率较低，而内置预训练模型，进行数据增强提升：

（1）识别字典，构建出涵盖汉字、字母、数字、符号等多种类型的文字字符，同时，能覆盖出现频次较高的生僻字或词。

（2）基于百万级别数据进行优化文字识别模型，提高模型准确率，增强识别效果。

核心功能三：生成模型评估详情，提供可视化样本分析功能

在训练得到模型之后，整个建模过程还不能算结束，往往还需要对模型进行评估。一般很难一次性得到满意的模型，我们需要反复的进行样本数据的分析，参数调整，不断重复迭代训练生成模型。根据封装的模型评估脚本，可以针对测试集生成模型的指标，如准确率、精确率、召回率、F1值等。但模型指标，只能知道模型的效果，当我们根据模型指标发现效果不好时，怎样通过样本分析提高模型效果？

我们进行标注时，会通过标签来标记标注的内容，当模型识别出结果后，会根据标签也生成一个结果，通过两者进行比对，则能知道识别的内容是否准确，同时筛选出该负样本数据。如下图：

图片关键词

若筛选出负样本后，则可对样本数据进行判断，标注区域是否有问题。常见问题如：标注区域是否覆盖住标注内容等。若发现是识别的不准，可以选择更换模型语料库，然后再次对负样本进行标注检查，生成模板，生成样本数据，进行迭代训练输出模型。

核心功能四：模型迭代流程化，解决建模效率低问题

图片关键词

基于训练后的模型效果，若不满意，可返回上传样本集步骤，优化完善样本集、自动化参数组合调优，再次进行模型训练，即可训练出新模型版本，从而完成流程化迭代，保障模型效果最佳性并持续可优化。我们这种流程化的自助建模工具，可以简化用户的操作，用户只需通过步骤指导进行迭代训练模型即可。极大地减少了使用难度，有效提高用户建模效率，满足AI快速落地的场景应用。

自助建模为什么能支撑AI快速落地场景应用？

智能应用场景落地困难，在开篇提及的一系列问题以及挑战，其本质在于AI建模规模化、流程化、模块化、工具化能力不足。如果能简化智能应用的建模开发周期，面向样本数据、算法脚本、模型等内容形成便捷易用的工具体系，使工具标准化、统一化，实现模型算法的可构建、可复用、可迭代，方可确保支撑AI快速落地场景应用。

图片关键词

自助建模就是流程化、模块化、工具化的自动化建模工具，它把算法建模的难点全部进行预置与封装，如，具备内置的预训练模型算法、已封装的高级参数设置等。整个流程可由业务人员自助完成，可依托少量样本数据，便能快速高效进行建模。可通过流程化的模型迭代，进行自动化建模调优，保障模型效果。其特征以及作用如下：

（1）建模业务化：业务人员、无编程能力的小白，也能快速上手，无需耗费大量时间进行编码与调参优化即可自助完成AI建模，大大降低了技术门槛及开发成本。

（2）标注自助化：自助上传样本集文件、进行少量样本数据标注，则自动模拟生成生产所需样本数据，极大的提高了样本标注的人力与时间成本。

（3）训练自动化：对标注好的样本集，进行自动化模型训练与部署，缩短建模周期时长以及提升建模效率。

（4）迭代流程化：业务发生变化或模型老化效果跟不上时，可通过更新样本集，经过流程化界面进行标注、自动化训练即可完成模型的迭代更新。通过模型流程化迭代，可快速进行迭代更新应用场景所需的模型，以支撑快速落地的AI场景应用。

媒体中心

媒体中心

鲸品堂｜WhaleDI自助建模实践与探索

关于我们

产品与解决方案

成功故事

媒体中心