一、安装语音处理依赖(以 Debian/Ubuntu Docker 为例)
apt-get update
apt-get install -y python3-pip ffmpeg
--break-system-packages,或先建一个 venv 再安装。这里走“用户目录 + break-system-packages”的做法。二、安装语音识别模型(Whisper)
python3 -m pip install --user --break-system-packages openai-whisper
~/.local/lib/python3.11/site-packageswhisper 会放在 ~/.local/bin(如果 PATH 没包含,后续命令记得写全路径 /home/node/.local/bin/whisper,或把它加入 PATH)三、把语音转成文字(Whisper CLI 示例)
/home/node/.local/bin/whisper \
/path/to/audio.ogg \
--language zh \
--model base \
--output_format txt \
--output_dir /home/node/.openclaw/workspace
--language zh:强制中文识别,避免模型猜错语言--model base:可换成 small / medium / large(越大越准但越慢)--output_format txt:生成纯文字稿;还能同时输出 .srt/.vtt 时间轴<音频文件名>.txt(或对应用的格式)在指定目录四、用 Python 直接调用(可做二次处理)
import whisper
model = whisper.load_model("base")
result = model.transcribe("/path/to/audio.ogg", language="zh")
print(result["text"])
result["segments"] 做逐句时间轴、翻译、摘要等后续处理。FP16 is not supported on CPU; using FP32 instead 的提示,属于正常现象。五、语音交互流程建议
tts 工具或外部服务)转回音频,再发给对方。。l六、测试语言交互
