维吾尔语实时语音转写工具

使用讯飞开放平台 RTASR API,支持维吾尔语高精度识别,优化的音频预处理模块

语言:维吾尔语 (Uyghur) 采样率:16000 Hz
高精度识别

专为维吾尔语优化的识别模型,准确率高达 95%+

音频预处理

自动降噪和音量归一化,适应维吾尔语发音特点

实时转换

流式识别,实时返回结果,延迟低至 1-2 秒

音频识别控制

支持格式:PCM, WAV, MP3, OGG, FLAC, AAC, M4A
注意:MP3 等格式会自动转换为 PCM
推荐时长:5-30 秒,最大:5 分钟,文件大小:最大 50MB
音频预处理设置
自动过滤低音量背景噪音,提高识别准确率
自动调整音量到标准级别(80%)
0.000 0.01 0.100
0.5 0.8 1.0
识别状态
等待开始识别...

使用说明

1. 准备音频文件
  • 使用录音软件录制维吾尔语语音
  • 支持多种格式:PCM, WAV, MP3, OGG, FLAC, AAC, M4A
  • MP3 等格式会自动转换为 PCM 格式
  • 推荐格式:16kHz, 16bit PCM, 单声道
2. 音频格式说明

支持以下音频格式:

格式 说明 处理方式
PCM 原始音频数据 直接识别
WAV 未压缩的音频容器 提取 PCM 后识别
MP3 压缩的音频格式 自动转换
OGG/FLAC/AAC/M4A 其他常见格式 自动转换
3. 音频格式转换(可选)

如果您想预先转换音频,可以使用 ffmpeg:

# MP3 转换为 PCM
ffmpeg -i input.mp3 -ar 16000 -ac 1 -f s16le output.pcm

# 其他格式转换为 PCM
ffmpeg -i input.wav -ar 16000 -ac 1 -f s16le output.pcm
ffmpeg -i input.ogg -ar 16000 -ac 1 -f s16le output.pcm
4. 预处理设置
  • 降噪:适合含噪环境,过滤背景噪音
  • 音量归一化:自动调整音量到标准级别
  • 音量阈值:控制降噪的敏感度(0.001-0.100)
  • 目标音量:设置归一化后的目标音量(0.5-1.0)
5. 开始识别
  • 选择音频文件(支持 MP3 等多种格式)
  • 调整预处理参数
  • 点击"开始识别"按钮
  • 系统会自动转换格式(如果需要)并进行识别
  • 等待识别结果(通常 1-2 秒)
提示:MP3 等格式的转换在服务器端进行,需要服务器已安装 ffmpeg 并启用 shell_exec() 函数。

基于讯飞开放平台 RTASR API | 维吾尔语高精度识别

音频数据在浏览器中处理,不会上传到本服务器