YouTubeの字幕だけダウンロードするCGIを作って今月1日にブログにあげた。それまで一週間以上かけて少しずつスクリプトを組んで、ようやく稼動させることができたものだ。一応私の環境ではひととおりちゃんと動いてくれている(と思う)。機械翻訳系の字幕には対応していないわけだが、実際YouTubeで表示してみれば分かるけれど、機械翻訳は文章としてかなり破綻していてわざわざダウンロードするほどのものでもないように思う。
先月に、イエール大学がYouTube上に公開している講義動画の文学理論のシリーズをぼつぼつ見始めたのだが、私として、正直字幕なしで理解するのはややきついのであり、字幕のありがたさと、字幕を読み直すのに動画をシークして戻さねばならないなど併せて多少の不便さにも思いが至った。それで字幕をダウンロードしてくれるフリーソフトのGoogle2SRTというのを試したのだが、OSを64bitにしたせいなのか、起動すらしなかった。SRTを落とすだけなら他に方法があるような感じもしたが、SRTだけでなく文章としてまとめて読みたいという欲求もあり、自分でスクリプトを書くことにした。以前の法令データCGIを改良すれば、処理自体はわりと近いはずだし、簡単だろうと思ったらまあそれどころではなかったわけである。しかし何とか一定の完成を見てよかった。
以前RSS非対応サイトのデータをCGIで取得してRSSを勝手に作れないかと思案したときに、そういうサービスをすでにやっているLivedoorの利用規約がどうなってるか探したりして、法的なことを気にしていたが、考えてみればこの種のスクリプトのデータ取得のトリガーは利用者なのであって、その誰かが実行しなければCGI自体はなんらの意味も持ち得ない。いわば機械的ツールとしてサーバ上に設けられた特定目的のHTTPクライアントみたいなものだとみなしうると思う。しかも今回の処理ではサーバにデータのキャッシュすら残していないので、その場限りの「お使い&加工」サービスでしかない。Googleのように、普段から先取り的に巡回して蓄積した他サイトのデータに改変を加え、自サイト内で継続的に公開することで自己のコンテンツとしているのより、かなりましであろうと思われる。
無理の無い程度でスクリプトをメンテナンスorトリミング等しようとは思っているが、元々のソースデータの場所が変わった場合には、すぐに対応できない恐れがある。というのも定義データや字幕データの場所のアルゴリズムは自分でフラッシュを解析するなどして割り出したものでは全然なく(私はフラッシュのアクションスクリプト関連はよく分からないし、解析するにもなにか専用のアプリケーションが必要なのではないかと思う)、ネット上の情報を参考にして組み込んだに過ぎないので、自前ではGoogle(YouTube)側の仕様変更に対して即応出来ない。というわけでその場合には、対応まで時間が掛かるかもしれませんので悪しからず。
ふたつめの自作CGIをあげてみた
トラックバック(0)
トラックバックURL: https://purplebaby.opal.ne.jp/mt/mt-tb.cgi/565
コメントする