Ai行业新闻 -

OpenAI Whisper 教程：如何使用 Whisper 转录 YouTube 视频

By aihubon
Dec 04, 2023 - 2 min read

OpenAI Whisper 教程：如何使用 Whisper 转录 YouTube 视频

什么是耳语？

Whisper 是 OpenAI 的一种自动最先进的语音识别系统，它已经接受了 680,000 小时从网络收集的多语言和多任务监督数据的训练。这个庞大而多样化的数据集提高了对口音、背景噪音和技术语言的鲁棒性。此外，它还支持多种语言的转录，以及将这些语言翻译成英语。与 DALLE-2 和 GPT-3 不同，Whisper 是一种免费的开源模型。OpenAI 发布了模型和代码，作为构建利用语音识别的有用应用程序的基础。

如何转录 YouTube 视频

在本教程中，我们将使用 Whisper 转录 YouTube 视频。我们将使用 Python 包“Pytube”下载将声音转换为文件MP4。你可以在这里找到 Pytube 的 repo

首先，我们需要安装 Pytube 库。您可以通过在终端中运行以下命令来执行此操作：

!pip install -— upgrade pytube

对于本教程，我将使用这个“100 秒学习 Python”视频。

接下来，我们需要导入 Pytube，提供 YouTube 视频的链接，并将音频转换为MP4：

#Importing Pytube libraryimport pytube# Reading the YouTube linkvideo = "https://www.youtube.com/watch?v=x7X9w_GIm1s"data = pytube.YouTube(video)# Converting and downloading as 'MP4' fileaudio = data.streams.get_audio_only()audio.download()

输出是一个名为当前目录中视频标题的文件。在我们的例子中，文件名为Python in 100 Seconds.mp4Now，下一步是将音频转换为文本。我们可以使用 whisper 在三行代码中完成此操作。首先，我们安装并导入whisper。然后我们加载模型，最后我们转录音频文件。

安装 Whisper 库

!pip install git+https://github.com/openai/whisper.git -q

import whisper

加载模型。我们将在本教程中使用“基础”模型。您可以在此处找到有关模型的更多信息。它们中的每一个都在准确性和速度（需要计算）之间进行权衡。

model = whisper.load_model("base")text = model.transcribe("Python in 100 Seconds.mp4")

现在我们可以打印输出了。

#printing the transcribetext['text']

您可以在此处找到 Jupyter Notebook 的完整代码

谢谢你！– AI未来百科 ; 探索AI的边界与未来！懂您的AI未来站