ZFB

这是我的个人博客

马上订阅 ZFB RSS 更新: https://blog.whuzfb.cn/feed.xml

SRT字幕文件转文本文件

2022年12月27日 19:35
PythonLinuxUbuntuWindowsPythonLinuxUbuntuWindows

目录

1. 获取字幕文件

一般来说,很多视频网站都会提供视频的字幕文件。有的可以直接下载,有的需要先下载视频,然后再使用字幕软件提取字幕文件。还有一些可以在Chrome浏览器中安装字幕插件,然后在视频播放页面中直接下载字幕文件。总而言之,需要先获取到字幕文件,然后才能进行下一步操作。SRT格式的字幕文件是最常见的,其格式如下所示:

1
2
3
4
5
6
7
1
00:00:00,000 --> 00:00:02,000
Life is short

2
00:00:02,205 --> 00:00:04,000
You need Python

可以看到,字幕文件由多个字幕组成,每个字幕由两行组成,第一行是字幕的序号,第二行是字幕的时间轴,第三行是字幕的内容。字幕之间用空行分隔。所以,只需要先删除所有空行,然后对line_num%3==0的行进行处理,即可得到字幕的内容

2. python脚本

文件内容如下:

#!/usr/bin/env python
# -*- coding: utf-8 -*-
# author: 'zfb'
# time: 2019-10-26 17:17

import argparse
import glob
import os

# 输出文件的头部信息,可以为空
header = "zfb 2019-10-26 17:17\n\n"
# 段落开始符号
begin_para_symbol = "  "
# 拼接句子的符号
split_line_symbol = ","
# 拼接字幕文件的符号
split_file_symbol = "\n\n\n"

def read_toc(file_name)...

剩余内容已隐藏

查看完整文章以阅读更多