使用讯飞开放平台 RTASR API,支持维吾尔语高精度识别,优化的音频预处理模块
专为维吾尔语优化的识别模型,准确率高达 95%+
自动降噪和音量归一化,适应维吾尔语发音特点
流式识别,实时返回结果,延迟低至 1-2 秒
支持以下音频格式:
| 格式 | 说明 | 处理方式 |
|---|---|---|
| PCM | 原始音频数据 | 直接识别 |
| WAV | 未压缩的音频容器 | 提取 PCM 后识别 |
| MP3 | 压缩的音频格式 | 自动转换 |
| OGG/FLAC/AAC/M4A | 其他常见格式 | 自动转换 |
如果您想预先转换音频,可以使用 ffmpeg:
# MP3 转换为 PCM
ffmpeg -i input.mp3 -ar 16000 -ac 1 -f s16le output.pcm
# 其他格式转换为 PCM
ffmpeg -i input.wav -ar 16000 -ac 1 -f s16le output.pcm
ffmpeg -i input.ogg -ar 16000 -ac 1 -f s16le output.pcm
基于讯飞开放平台 RTASR API | 维吾尔语高精度识别
音频数据在浏览器中处理,不会上传到本服务器