【工具与中间件】百度翻译API实战

news/2024/9/14 3:08:47 标签: 中间件, spring boot, mysql

文章目录

  • 前言
  • 1. 注册与代码Demo
    • 1.1 注册
    • 1.2 代码Demo
  • 2. 实战
    • 2.1 运行Demo
    • 2.2 配置环境变量
    • 2.3 编写实际代码并操作
      • 2.3.1 准备基础代码
      • 2.3.2 准备FastJson
      • 2.3.3 单体条数据翻译测试
      • 2.3.4 执行翻译
  • 3. 总结
  • 参考资料

百度翻译API实战

记一次使用百度翻译API翻译表数据

前言

科技发达的今天,许多业务需求,我们都可以使用现有的服务进行完成。

最近,在做一个项目练手的时候,需要对一个来自美国的数据库进行翻译。这时候我们肯定是要先进行机翻,日后业务拓展,有需要,再进行人工翻译。

我首先尝试的是先将这个数据库扔给大模型帮忙翻译,打算是让大模型返回一个文本文件,我本地再执行里面的SQL。结果是我用kimi时,文件过大无法解析。gpt-4呢,考虑到成本问题,也作罢。

因此本次我打算采用 百度翻译API的免费额度,看看是否能满足一定的机翻需求。

学习目标

  • 对接百度翻译API,做一个API Boy

演示环境
Java 8, Spring boot 2.5.x ,调用API进行翻译,再用Mybatis-Plus持久层框架进行持久化。

其实就是对着文档进行一步步操作了,下面我们开始!

1. 注册与代码Demo

注册成为百度翻译开发者,获取API调用额度

1.1 注册

参考如下截图,注册成为百度翻译开发者:
1

详细注册教程:
百度翻译API文档-注册

注册完成后,我们可以参考文档中也提到的额度,选择适合自己的额度的产品申请API(预算+实际需求):
2

申请页面如下:
3

浓浓的商业味!

对于个人这种工具类项目来说,一般标准版基本够用,进行认证后,开头高级版也可。尊享版估计企业级才需要。

1.2 代码Demo

和许多大厂一样,百度翻译API也提供了代码Demo

获取地址:百度翻译API文档-通用文本翻译

这里的代码是直接下载的,具体下载链接在上面的获取地址里查看。我们解压到本地之后复制到我们的项目就能看了。

代码Demo结构
百度提供的代码Demo主要有如下图结构:
4

其中,主要包括封装好的HttpGet方法,MD5加密类以及TransApi

接下来,我们参考百度翻译API提供的main方法,即可对照着来调用。

相比接入飞书、微信等,这个百度API的接入算是简单了。

2. 实战

2.1 运行Demo

官方给出的Demo中,提供了一个main 方法,我们将示例代码全部黏贴进我们的项目中

public class Main {
    // 在平台申请的APP_ID 详见 https://fanyi-api.baidu.com/api/trans/product/desktop?req=developer
    private static final String APP_ID = "your_app_id";
    private static final String SECURITY_KEY = "your_security_key";

    public static void main(String[] args) {
        TransApi api = new TransApi(APP_ID, SECURITY_KEY);

        String query = "高度600米";
        System.out.println(api.getTransResult(query, "auto", "en"));
    }
}

其中,APP_ID 与 SECURITY_KEY 均可在 百度翻译API 平台中“开发者信息”中找到。

这里执行的结果为:

{"from":"zh","to":"en","trans_result":[{"src":"\u9ad8\u5ea6600\u7c73","dst":"Height 600 meters"}]}

显然,我们接下来要重点获取的是dst字段。

这里返回的是 Json 格式,我们可以改写Demo代码来直接获取dst的值,也可以引入Json处理工具来进一步处理。

2.2 配置环境变量

需要稍微规范开发,我们需要先将我们的APP_ID与SECURITY_KEY以环境变量的形式配置到我们的项目中:

application.yml:

translate:
  appid: your_app_id
  secretKey: your_secret_key

引入方式,这里介绍一种我自己常用的方法,以上面我们的custom定义为translate为例:
可以创建一个配置类TranslateConfiguration:

@Data
@Configuration
@ConfigurationProperties(prefix = "translate")
public class TranslateConfiguration {
    
    private String appId;
    
    private String secretKey;
    
}

之后,在用到的地方注入这个类即可。

2.3 编写实际代码并操作

2.3.1 准备基础代码

此处我用 IDEA 插件 MybatisX 生成,参考如下截图:
5

6

要翻译的表对应的基础代码生成好后,我们可以执行一下项目看看。

可能存在的问题
生成代码后马上运行,可能会导致如下:
org.springframework.beans.factory.UnsatisfiedDependencyException
再细致点的exception查找下去可能就牵扯到serviceImpl了

这个问题可能是我们的启动类没有加@MapperScan导致的,框架找不到我们生成的MapperBean对象:

我们可以在主启动类加上我们Mapper所在文件夹的路径:
@MapperScan("your.address.mapper")

或者,在每个Mapper上加上@Mapper注解。

2.3.2 准备FastJson

pom.xml引入如下,刷新maven并重启项目查看启动状态:

<!--    fastjson2    -->
<dependency>
     <groupId>com.alibaba.fastjson2</groupId>
     <artifactId>fastjson2</artifactId>
     <version>2.0.52</version>
</dependency>

2.3.3 单体条数据翻译测试

在正式开始之前,我们需要先写个小Demo,使用单条数据进行测试,之后再进行批量操作。

Test

public boolean translate() {
        NutritionStandardEnglish byId = this.getById(1001);
        String shrtDesc = byId.getShrtDesc();
        String lowerCase = shrtDesc.toLowerCase();
        log.info("shrtDesc:{} ",lowerCase);
        TransApi api = new TransApi(translateConfiguration.getAppId(), translateConfiguration.getSecretKey());
        String query = lowerCase;
        String transResult = api.getTransResult(query, "en", "zh");
        // 使用 Fastjson2 解析 JSON 字符串
        JSONObject jsonResult = JSON.parseObject(transResult);
        JSONObject transResultObject = jsonResult.getJSONArray("trans_result").getJSONObject(0);
        String dst = transResultObject.getString("dst");
        // 输出转换后的结果
        log.info(dst);
        return false;
    }

参考示例代码,若输出正确结果,说明成功,接下来可以进行正式翻译了。

2.3.4 执行翻译

我们的翻译逻辑很简单,查询英文表里的全部,调用翻译API,将翻译的结果插回中文表里。有了上面的准备工作,使用MP很快就可以完成。

如果只是一次性的工作,一般我们写个测试类或者普通的脚本即可。考虑到后续英文表也有可能更新,因此此处还是给出一个Controller接口触发,方便后续处理:

Controller

@GetMapping("/translate")
public BaseResponse<Boolean> translate() {
    boolean isSuccess = englishService.translate();
    if(isSuccess){
        return ResultUtils.success(true);
    }
    return ResultUtils.error(ErrorCode.SYSTEM_ERROR, "翻译失败");
}

ServiceImpl

@Override
    public boolean translate() {
        TransApi api = new TransApi(translateConfiguration.getAppId(), translateConfiguration.getSecretKey());
        List<NutritionStandardChinese> targetList = new ArrayList<>();
        List<NutritionStandardEnglish> englishList = this.list(
                new LambdaQueryWrapper<NutritionStandardEnglish>()
                        .eq(NutritionStandardEnglish::getIsTranslated, 0)
        );
        List<NutritionStandardEnglish> translated = new ArrayList<>();
        if (!englishList.isEmpty()) {
            // 当长度大于 500 时, 取 500 条, 当 长度小于 500 时,取全部
            int length = Math.min(englishList.size(), 500);
            // 截取 500 条数据
            englishList = englishList.subList(0, length);
        }
        // 5条一组,分段处理,组间休息1秒
        // 计算有多少组
        int groupCount = englishList.size() / 5 + 1;
        // 循环每组
        for (int i = 0; i < groupCount; i++) {
            // 计算当前组的开始和结束索引
            int start = i * 5;
            int end = (i + 1) * 5;
            if (end > englishList.size()) {
                end = englishList.size();
            }
            // 组内循环翻译
            for (int j = start; j < end; j++) {
                NutritionStandardChinese target = new NutritionStandardChinese();
                NutritionStandardEnglish english = englishList.get(j);
                BeanUtils.copyProperties(english, target);
                target.setId(null);
                String shrtDesc = english.getShrtDesc();
                String query = shrtDesc.toLowerCase();
                String transResult = api.getTransResult(query, "en", "zh");
                // 使用 Fastjson2 解析 JSON 字符串
                JSONObject jsonResult = JSON.parseObject(transResult);
                JSONArray transResultArray = jsonResult.getJSONArray("trans_result");
                if (!transResultArray.isEmpty()) {
                    JSONObject transResultObject = transResultArray.getJSONObject(0);
                    String dst = transResultObject.getString("dst");
                    log.info("原文:{},翻译结果:{}", shrtDesc, dst);
                    target.setShrtDesc(dst);
                    targetList.add(target);
                    english.setIsTranslated(1);
                    translated.add(english);
                }
            }
            try {
                Thread.sleep(1000);
            } catch (InterruptedException e) {
                log.error("翻译线程休眠异常", e);
            }
        }
        if (!targetList.isEmpty()) {
            boolean translatedResult = nutritionStandardChineseService.saveBatch(targetList);
            if(translatedResult){
                return this.updateBatchById(translated);
            }
            return false;
        }
        return false;
    }

由于网络、翻译API QPS限制等原因,我这里使用了分段处理,并在表里面添加了是否已翻译标识字段。

接下来分段执行翻译,直到全部完成即可。算是写一个使用了百度API的翻译脚本吧!

3. 总结

本文我们使用了百度翻译API来进行项目数据的翻译。机翻,实际效果一般,后续还是需要人工校对,但是这个机翻非常方便。

整体来说就是调用API,结合一些其他工具如FastJson、MP等完成翻译、数据处理、数据存储。

相比其他平台的API,百度翻译API基本没什么难度,实际操作的时候注意QPS,翻译额度等即可。

参考资料

  • 百度翻译API

http://www.niftyadmin.cn/n/5641140.html

相关文章

提前购|基于SSM+vue的创新型产品提前购平台(源码+数据库+文档)

创新型产品提前购平台 基于SSMvue的创新型产品提前购平台 一、前言 二、系统设计 三、系统功能设计 系统功能实现 后台模块实现 管理员模块实现 发布企业管理实现 个体管理实现 投资企业管理实现 四、数据库设计 五、核心代码 六、论文参考 七、最新计算机毕设选…

MySQL数据类型-介绍

MySQL 支持多种数据类型&#xff0c;这些数据类型可以根据它们所存储的数据类型大致分为几类&#xff1a;数值类型、日期和时间类型、字符串&#xff08;字符&#xff09;类型、空间数据类型以及JSON数据类型。 一、数据类型 1.整数类型 TINYINT&#xff1a;非常小的整数。例…

9 自研rgbd相机基于rk3566之qt框架开发主线程与opengl_widget点云显示

qt框架开发opengl_widget点云显示 mainwindow主线程代码详解1 主线程功能:2 主线程代码示例:Qopenglwidget点云显示类代码详解1 qtopenglwidget框架介绍:2 qtopenglwidget渲染流程:3 qtopenglwidget顶点与片段着色器配置示例:4 qtopenglwidget主线程更新点云函数:5 qtope…

python常用库学习-Matplotlib使用

文章目录 安装 Matplotlib导入库基本示例1. 绘制简单的线图2. 散点图3. 柱状图4. 直方图5. 子图 更多高级功能1. 自定义样式2. 文本和注释3. 保存图形 示例&#xff1a;使用 Matplotlib 绘制多个图表示例 1: 绘制多个线图示例 2: 绘制散点图和直方图 参考文献 Matplotlib 是 Py…

探索NVIDIA RTX 4060 8G与RTX 3060 12G:性能与适用场景的深度解析

在考虑NVIDIA RTX 4060 8G和RTX 3060 12G两种配置时&#xff0c;我们需要根据具体的应用场景来做出选择。RTX 4060 8G显卡以其较快的处理速度而著称&#xff0c;适合需要快速响应的任务&#xff0c;如实时渲染、视频编辑和部分机器学习任务。而RTX 3060 12G显卡则因其较大的显存…

RPC框架需要解决的问题

RPC&#xff08;Remote Procedure Call&#xff09;框架是分布式系统中的关键组件&#xff0c;用于在不同的网络节点之间进行远程服务调用。一个成熟的 RPC 框架需要解决一系列技术问题&#xff0c;以确保系统的高效性、可靠性和可扩展性。本文将详细探讨 RPC 框架需要解决的核…

【JAVA】第三天

【JAVA】第三天 一、面向对象1.static2.代码块 二、继承三、权限修饰符四、方法重写五、多态1.自动类型转换2.强制类型转换 六、final七、抽象类八、接口九、内部类十、枚举十一、泛类1.泛型类2.泛型接口3.泛型方法 一、面向对象 1.static 类变量&#xff1a;属于类&#xff…

web3.0区块链元宇宙是什么

Web3.0 什么是 Web3.0 Web3.0是指基于区块链的去中心化在线生态系统&#xff0c;代表了互联网的下一个阶段。它是由以太坊联合创始人Gavin Wood在2014年创造的概念。Web3.0的发展是随着用户权利的增加和在互联网中角色的重要性不断进化的。 从互联网的发展历程来看&#xff0…