Whisper WebUI – YouTube cc 字幕產生器

我一直在尋找能夠快速且精準的上字幕的方式。由於我拍影片大部分不是先寫好逐字稿,所以會需要語音轉文字的辨識。然而而且我目前的電腦只是一台普通的筆電,並沒有特別強大的運算資源。如果可以在雲端運算完成,而且不用特別上傳檔案,那就太棒了,因為我不想要花額外的上傳時間。我最近找到一個很酷的 Whisper WebUI 專案與相關的 Colab,這個專案利用 OpenAI Whisper 來將文字轉語音,並且提供一個簡約的網頁介面很方便使用。

先前的方法

在前一陣的我使用的是 Adobe Premiere 內建的自動語音轉字幕的功能。目測他的中文正確率大概是 90% ,但如果你講話是中英夾雜的話,很容易會有辨識錯誤的情況。其實不是那麼好用,校正與編輯都還要花大量的時間。

OpenAI Whisper

Whisper WebUI 是我目前看到最好用的工具。你可以直接給他一個公開的 YouTube 連結,他會幫你在雲端下載好影片 (yt-dlp),自動分段 (Voice Activity Detector),字幕轉換 (Whisper),最後能生成給你一個 SRT 字幕。但唯一比較可惜的是,目前作者提供的線上服務只支援 10 分鐘內的短片。如果要轉更長的片,需要用以下的 Colab 。

Colab

作者提供了這個 Colab 。你可以在自己的 Google 帳戶下執行這個 Colab 。他會給你一個網頁介面,根據我的測試, Medium 大小的模型跑兩小時多的影片,大約一小時可以完成。利用的原理是 Colab 提供免費的 GPU 運算資源。按照下面的圖,大約會在 3 分鐘左右跑完並且獲得一個網頁介面的連結。

Colab 全名為 Colaboratory ,是一個 Google 提供的類似 Jupyter Notebook 的運算環境。裡面有免費的運算資源跟 GPU 可以用,但不保證資源的可用性。條款上明定禁止以下的行為在 Colab 使用。

  • file hosting, media serving, or other web service offerings not related to interactive compute with Colab
  • downloading torrents or engaging in peer-to-peer file-sharing
  • remote control such as SSH shells, remote desktops, remote UIs
  • connecting to remote proxies
  • mining cryptocurrency
  • running denial-of-service attacks
  • password cracking
  • using multiple accounts to work around access or resource usage restrictions
  • creating deepfakes

Colab 如果處於閒置狀態 session 可能會被回收。這時就要重新執行一次相關的安裝指令。根據官方說法,免費版本執行中的 session 一次最多可達 12 小時

自建的可能性

原本想說可以在雲端自建一個 GPU 的機型,放在網路上隨時要用就有。但目前有 GPU 的雲端主機都不是可以負擔的價格。最小型的機器,大約一個會落在萬元台幣左右,對於想要直接架起來跑 24*7 的我來說,不是很友善。

Whisper

我認為 Whisper 確實掌握了某種關鍵技術。雖然文字轉語音的技術已經是個不太新穎的 AI 應用了,但這精美的同時的多國語言辦認能力仍讓我耳目一新。之前多數的文字轉語音,對於中英夾雜是比較弱的。


Posted

in

by

Tags:

Comments

Leave a Reply

Your email address will not be published. Required fields are marked *