YouTubeの字幕だけダウンロードするCGIを作って今月1日にブログにあげた。それまで一週間以上かけて少しずつスクリプトを組んで、ようやく稼動させることができたものだ。一応私の環境ではひととおりちゃんと動いてくれている(と思う)。機械翻訳系の字幕には対応していないわけだが、実際YouTubeで表示してみれば分かるけれど、機械翻訳は文章としてかなり破綻していてわざわざダウンロードするほどのものでもないように思う。
先月に、イエール大学がYouTube上に公開している講義動画の文学理論のシリーズをぼつぼつ見始めたのだが、私として、正直字幕なしで理解するのはややきついのであり、字幕のありがたさと、字幕を読み直すのに動画をシークして戻さねばならないなど併せて多少の不便さにも思いが至った。それで字幕をダウンロードしてくれるフリーソフトのGoogle2SRTというのを試したのだが、OSを64bitにしたせいなのか、起動すらしなかった。SRTを落とすだけなら他に方法があるような感じもしたが、SRTだけでなく文章としてまとめて読みたいという欲求もあり、自分でスクリプトを書くことにした。以前の法令データCGIを改良すれば、処理自体はわりと近いはずだし、簡単だろうと思ったらまあそれどころではなかったわけである。しかし何とか一定の完成を見てよかった。
以前RSS非対応サイトのデータをCGIで取得してRSSを勝手に作れないかと思案したときに、そういうサービスをすでにやっているLivedoorの利用規約がどうなってるか探したりして、法的なことを気にしていたが、考えてみればこの種のスクリプトのデータ取得のトリガーは利用者なのであって、その誰かが実行しなければCGI自体はなんらの意味も持ち得ない。いわば機械的ツールとしてサーバ上に設けられた特定目的のHTTPクライアントみたいなものだとみなしうると思う。しかも今回の処理ではサーバにデータのキャッシュすら残していないので、その場限りの「お使い&加工」サービスでしかない。Googleのように、普段から先取り的に巡回して蓄積した他サイトのデータに改変を加え、自サイト内で継続的に公開することで自己のコンテンツとしているのより、かなりましであろうと思われる。
無理の無い程度でスクリプトをメンテナンスorトリミング等しようとは思っているが、元々のソースデータの場所が変わった場合には、すぐに対応できない恐れがある。というのも定義データや字幕データの場所のアルゴリズムは自分でフラッシュを解析するなどして割り出したものでは全然なく(私はフラッシュのアクションスクリプト関連はよく分からないし、解析するにもなにか専用のアプリケーションが必要なのではないかと思う)、ネット上の情報を参考にして組み込んだに過ぎないので、自前ではGoogle(YouTube)側の仕様変更に対して即応出来ない。というわけでその場合には、対応まで時間が掛かるかもしれませんので悪しからず。
2011年6月アーカイブ
2023/10/16
Chromeの仕様変更に合わせてHTTPSに対応しました。
2023/05/17
ファイル名に動画のタイトルを表示するようにしました(ファイル名に特殊な記号が含まれているとエディタ等で開けなくなる場合があるかもしれませんが、リネームしてください)。
2021/12/04
Youtubeの仕様変更に対応しました。
自動生成字幕のファイル名のasrは自動音声認識(Automatic Speech Recognition)の略です。
年齢制限などで表示にログインが必要な動画には非対応です。
最近のコメント
purplebaby≫MOさん Youtubeは、自動生成系の字幕の場合、複数の… (240325)
MO≫いつもありがたく使用させていただいています。 不具合なのか1… (240324)
purplebaby≫2023/10/16 15:49 コメント投稿者: 山田 隆… (231016)
MO≫はじめまして、便利で毎回使用させていただいていますが、1点リ… (230515)
wakamin≫もう何年も利用させていただいております。 srtだけでなく、… (230127)
sennapeng≫YouTubeの英語字幕を、ゆっくり翻訳できないかとググって… (220519)
tab≫初めて利用させて頂きました。 無料で公開してくださり本当にあ… (220507)
purplebaby≫イナチャン55さん、yosiさん、動作報告ありがとうございま… (211205)
イナチャン55≫早速の対応ありがとうございます。 数年前から秘密の宝ツールと… (211205)
yosi≫早速のご対応ありがとうございます。無事に srtファイルをダ… (211205)