Как воспроизвести автоматически сгенерированные субтитры youtube для каждого слова в автономном режиме, чтобы они отображались слово за словом, а не предложение за предложением?


Я могу загрузить автоматически сгенерированные субтитры, используя youtube-dl:
youtube-dl https://www.youtube.com/playlist?list=PLhpuT8UNWCyDZsF-ePrHuTW4vP3egLNPe --skip-download --write-auto-sub --sub-lang en -o "%(playlist_index)s - %(title)s.%(ext)s

Я получаю субтитры .vtt со словами с меткой времени, вот пример фрагмента:

WEBVTT
Kind: captions
Language: en
Style:
::cue(c.colorCCCCCC) { color: rgb(204,204,204);
 }
::cue(c.colorE5E5E5) { color: rgb(229,229,229);
 }
##

00:00:00.740 --> 00:00:06.180 align:start position:19%
hey<00:00:01.740><c> everybody</c><c.colorCCCCCC><00:00:02.159><c> today</c><00:00:02.460><c> we're</c></c><c.colorE5E5E5><00:00:02.970><c> gonna</c><00:00:03.090><c> make</c><00:00:04.020><c> a</c></c>

00:00:04.080 --> 00:00:08.400 align:start position:19%
brief<c.colorE5E5E5><00:00:04.410><c> introduction</c><00:00:05.069><c> and</c><00:00:05.400><c> look</c><00:00:05.879><c> at</c><00:00:05.970><c> some</c><00:00:06.120><c> of</c></c>

00:00:06.180 --> 00:00:09.660 align:start position:19%
the<00:00:06.270><c> fundamental</c><c.colorE5E5E5><00:00:06.450><c> concepts</c><00:00:07.200><c> moving</c><00:00:08.040><c> forward</c></c>

00:00:08.400 --> 00:00:11.580 align:start position:19%
that<c.colorE5E5E5><00:00:08.490><c> we're</c></c><c.colorCCCCCC><00:00:08.639><c> gonna</c><00:00:08.730><c> cover</c><00:00:08.940><c> in</c><00:00:09.090><c> the</c><00:00:09.150><c> course</c><00:00:09.300><c> I'm</c></c>

00:00:09.660 --> 00:00:15.299 align:start position:19%
Michele<00:00:10.320><c> Behar</c><c.colorCCCCCC><00:00:10.559><c> B's</c></c><c.colorE5E5E5><00:00:10.710><c> and</c><00:00:11.070><c> I'm</c></c><c.colorCCCCCC><00:00:11.250><c> Vivek</c></c>

Ближайшее использование программного обеспечения к тому, что я ищу, - это Potplayer. Но со мной проблема в том, что сначала отображается целое предложение, а затем идет стилизация слово за словом, что здорово. Но мне нужно чтобы оно отображалось слово за словом как на плеере Youtube.


Другая проблема с PotPlayer заключается в том, что он стилизует слова с очень небольшим отличием в цвете, так что трудно увидеть слова, которые произносятся или нет специально на белом фоне. Я попытался изменить цвета из самого файла .vtt, но ничего не изменилось, похоже, настройки стилей PotPlayer отменены.

0