超A&G+の新しい番組表(2015/04現在)をスクレイピングする

4月の番組改変に合わせて番組表が新しいやつになっていて悲鳴あげながら直しました。 前の番組表は1つの曜日が1つのtableにマッピングされていて楽だったのですが、 新しいやつは

  • 全曜日で1テーブル
  • 行(tr)は曜日ではなく時刻ごと。その中に全曜日の番組tdで入っている
  • rowspanで行の結合があるため、それを考慮した2次元配列を作っておかないと曜日の判定がずれる

となかなか凶悪な仕様になっております。

自分が作っているラジオ録画ソフトではこんな感じで対応した。

こんかいの対応にかかったコーディング時間は2時間ほど。 こういうのは反射神経が重要なので、新しいやつが出たときにババっと書き捨てられる力をつけていきたいものです。

require 'net/http'
require 'time'
require 'chronic'
require 'pp'
require 'moji'

module Ag
  class Program < Struct.new(:start_time, :minutes, :title)
  end

  class ProgramTime < Struct.new(:wday, :time)
    SAME_DAY_LINE_HOUR = 5

    # convert human friendly time to computer friendly time
    def self.parse(wday, time_str)
      time = Time.parse(time_str)
      if time.hour < SAME_DAY_LINE_HOUR
        wday = (wday + 1) % 7
      end
      self.new(wday, time)
    end

    def next_on_air
      time = chronic(wday_for_chronic_include_today(self[:wday]))
      if time > Time.now
        return time
      else
        chronic(wday_to_s(self[:wday]))
      end
    end

    def chronic(day_str)
      Chronic.parse(
        "#{day_str} #{self[:time].strftime("%H:%M")}",
        context: :future,
        ambiguous_time_range: :none,
        hours24: true,
        guess: :begin
      )
    end

    def wday_for_chronic_include_today(wday)
      if Time.now.wday == wday
        return 'today'
      end
      wday_to_s(wday)
    end

    def wday_to_s(wday)
      %w(Sunday Monday Tuesday Wednesday Thursday Friday Saturday)[wday]
    end
  end

  class Scraping
    def main
      programs = scraping_page
      programs = validate_programs(programs)
      programs
    end

    def validate_programs(programs)
      if programs.size < 20
        puts "Error: Number of programs is too few!"
        exit
      end
      programs.delete_if do |program|
        program.title == '放送休止'
      end
    end


    def scraping_page
      html = Net::HTTP.get(URI.parse('http://www.agqr.jp/timetable/streaming.php'))
      dom = Nokogiri::HTML.parse(html)
      trs = dom.css('.timetb-ag tbody tr') # may be 30minutes belt
      two_dim_array = table_to_two_dim_array(trs)
      two_dim_array.inject([]) do |programs, belt|
        programs + parse_belt_dom(belt)
      end
    end

    def parse_belt_dom(belt)
      belt.each_with_index.inject([]) do |programs, (td, index)|
        next programs unless td
        wday = (index + 1) % 7 # monday start
        programs << parse_td_dom(td, wday)
      end
    end

    def table_to_two_dim_array(trs)
      aa = []
      span = {}
      trs.each_with_index do |tr, row_n|
        a = []
        col_n = 0
        tr.css('td').each do |td|
          while span[[row_n, col_n]]
            a.push(nil)
            col_n += 1
          end
          a.push(td)
          cspan = 1
          if td['colspan'] =~ /(\d+)/
            cspan = $1.to_i
          end
          rspan = 1
          if td['rowspan'] =~ /(\d+)/
            rspan = $1.to_i
          end
          (row_n...(row_n + rspan)).each do |r|
            (col_n...(col_n + cspan)).each do |c|
              span[[r, c]] = true
            end
          end
          col_n += 1
        end
        aa.push(a)
      end
      aa
    end

    def determine_wday(index, padded)
      wday = index - 1 % 7 # monday start
    end

    def padded?(td)
    end

    def parse_td_dom(td, wday)
      start_time = parse_start_time(td, wday)
      minutes = parse_minutes(td)
      title = parse_title(td)
      Program.new(start_time, minutes, title)
    end

    def parse_minutes(td)
      rowspan = td.attribute('rowspan')
      if !rowspan || rowspan.value.blank?
        30
      else
        td.attribute('rowspan').value.to_i * 30
      end
    end

    def parse_start_time(td, wday)
      ProgramTime.parse(wday, td.css('.time')[0].text)
    end

    def parse_title(td)
      [td.css('.title-p')[0].text, td.css('.rp')[0].text].select do |text|
        !text.gsub(/\s/, '').empty?
      end.map do |text|
        Moji.normalize_zen_han(text).strip
      end.join(' ')
    end
  end
end

元コード

https://github.com/yayugu/net-radio-archive/blob/67990ee0cbb7b5ff3bdc89465643a9d936c42d12/lib/ag/scraping.rb

悲しみのdiff

Follow the A&G+ new timetable!!!!!!!!!!!!!! · yayugu/net-radio-archive@67990ee · GitHub

響 HiBiki Radio Station をaacで録音する

2015/11/10追記

響がリニューアルしたんでこの記事の情報は全く役に立たなくなりました。 新しい仕様についての説明、コードはこちら↓

vector.hateblo.jp

検索用キーワード: Mac, Linux, rtmp, rtmpdump, rtmpe, 保存

まえがき

響で再エンコードなしでaacを取得する方法がわかったんでメモ。

ググるwmaやm3u8で取得する方法は見つかるんだが、wmaだとiOSとかで再生できないし、再エンコードは気分が悪い。m3u8 (HTTP Live Streaming)はなんかファイルがすごい分割されていてパッとググってもffmpegとかでいい感じにmp4などに復元する方法が見つからなかったので遠慮したさがあった。

コード

雑なコードとしては下の2ファイルを見て欲しい

https://github.com/yayugu/net-radio-archive/blob/18d9097df6266f8ece9e026b1414768eb82e26d8/lib/hibiki/scraping.rb

https://github.com/yayugu/net-radio-archive/blob/18d9097df6266f8ece9e026b1414768eb82e26d8/lib/hibiki/downloading.rb

手順

http://hibiki-radio.jp/get_program/$(WEEKDAY)

にアクセスすると曜日ごとの番組情報が取得できる。$WEEKDAYは数字で1-6がそれぞれ月〜金と土日に対応している。

Aタグのonclickが onclick="AttachVideo('garo','1637','1','0')" みたいになっているのでこの関数の1つめと2つめを取り出す。

m = /AttachVideo\('(.+?)','(.+?)','.+?','.+?'\)/.match(onclick_text)
short_name = m[1]
channel_id = m[2]

その情報からURLを生成してアクセスする。

      uri = URI.parse("http://image.hibiki-radio.jp/uploads/data/channel/#{base.short_name}/#{base.channel_id}.xml")

      res = Net::HTTP.get_response(uri)
      unless res.is_a?(Net::HTTPSuccess)
        return nil
      end

      dom = Nokogiri::HTML.parse(res.body)

      protocol = dom.css('protocol').text
      domain = dom.css('domain').text
      dir = dom.css('dir').text
      flv = dom.css('flv').text
      if protocol.blank? || domain.blank? || dir.blank? || flv.blank?
        return nil
      end
      m = /^.+?\:(.+)$/.match(flv)
      filename_query = m[1]
      rtmp_url = "#{protocol}://#{domain}/#{dir}/#{filename_query}"

xmlのような雰囲気のものが取り出せる。404だったり、情報が空のこともある。その場合はその番組はおそらく配信していない。 無事取得できて、以下のようになってたら成功。この情報を組み立てるとrtmpのurlができる。

<data>
        <protocol>rtmpe</protocol>
        <domain>cp209391.edgefcs.net</domain>
        <dir>ondemand</dir>
        <channel type="main">
                <flv>mp4:150101_lovelive_ms_150101_lovelive_ms.mp4?di=910&si=609&pi=2806&gi=6494&gc=3&bi=34236&bc=lovelive_ms&ei=921385&ec=150101_lovelive_ms&vi=4989926&vc=150101_lovelive_ms&msi=516&mc=&ni=1625</flv>
                <thumbnail>http://image.hibiki-radio.jp/uploads/radio_program/flash_image/c7562a9a9a67e099402d472585bcdc5068da0d24.jpg</thumbnail>
        </channel>
</data>

組み立てたurlをrtmpdumpに渡す

`rtmpdump -q -r #{Shellwords.escape(rtmp_url)} -o #{Shellwords.escape(flv_path)}`

うまくいっていればflvファイルがあるはずである。中身はh264の映像とaacの音声である。h264の映像はダミーであるため、ffmpeg(or avconv)でaacだけを取り出す。

`avconv -loglevel error -y -i #{Shellwords.escape(flv_path)} -acodec copy #{Shellwords.escape(aac_path)}`

あとがき

ちなみにrtmpもhls(HTTP Live Streaming)もデータを転送するための方法であり、中身は大抵の場合h264とaacである。 なのでどちらでもmp4が取り出せるはず(方法は知らないけど)

VMで開発してるんだけど IntelliJ / PHPStorm とかを使いたい

xxxa: dockerコンテナ側のディレクトリをローカルmacにマウントしたいんだけど 
xxxa: -v, --volume=[] Bind mount a volume (e.g., from the host: -v /host:/container, from Docker: -v /container) 
xxxa: -v /container してもローカルmacに表われないんですけどどうしたらいんですか 
xxxb: boot2docker? 
xxxa: はい
yayugu: 多分出来ない 
xxxa: そうなんですね 
yayugu: boot2dockerに多くを期待してはいけません 
xxxa: intelliJ使いたいんだけどなあ・・・
yayugu: っsshfs 
yayugu: sshfsクソ遅いということは知りながら書いてる 
yayugu: この辺についてはおおいに問題なんですけど 
yayugu: まあ現実解としては4つくらいしかないくて 
yayugu: 1. Linuxをマシン直で使う 
yayugu: 2. sshfsで転送遅いのを我慢する 
yayugu: 3. ローカルにgit置いてIntelliJの機能(SFTP)でlinuxマシンに転送する。ラグいのは我慢する。PHPUnitなどの連携がクソるのも我慢する 
yayugu: 4. Macで動くようにする 
xxxc: 3がオススメだ 
yayugu: 1ができると最高なんだが、俺はムリです。X window systemキツイ
xxxc: 無理して1にする必要も感じないな。開発用のライブラリとか突っ込んでいくとサーバーと同じ環境じゃなくなっていく。 
xxxa: 1、江添さんっぽい 
xxxc: 1でやったとしても VM 立てたくなる。 
xxxb: というかローカル開発じゃなくてローカルVM開発がもう基本なのか。4だと思ってた 
xxxc: ほら、ローカルにいろいろインストールしたくないじゃない。 
xxxb: はい
xxxc: プロジェクトごとにまっさらな環境でやりたいじゃない。 
xxxb: はい
yayugu:  1でdocker使うとVM立てなくてもxxxaが最初にやろうとしてたことできるよ

RailsでStrutsの再発明

真面目な話mixinだと複数の実装を依存関係なく共有できるので、実装の共有を継承ツリーでしか表現できなかったJavaStrutsより便利だと思う。

ユーザー認証の手抜き

Webアプリ作っているといろんな局面でユーザー認証が必要になる局面がある。まじめにつくると果てしなく面倒だし、適当につくるとセキュリティ上問題になるので、要件に応じて適切に手抜きする必要がある。

適当なやつからしっかりしたやつまでなんとなくソートしていくとこんなかんじだと思う。

  • 認証なし
  • IPで弾く
  • Basic認証ソースコード、設定ファイルにパスワードベタ書き)
  • Basic認証(DBにUserテーブルをつくってパスワードを保存。追加はcliとかで手動)
  • login/logout画面作成。cookieなりmemcacheなりにセッションを保存
  • webからユーザーを追加できるように
  • password変更機能
  • OAuth
  • OpenID
  • mailを送ってリンクをクリックさせてメールアドレスの所有確認
  • メールアドレス変更機能
  • メールを使ってのパスワードリセット機能
  • OAuthで作ったアプリへの後からのメールアドレスとパスワード追加登録機能
  • 二段階認証

不特定多数のユーザーが登録する場合に開発として楽なのはid/password方式。
メールアドレス認証とかがない純粋なidだとすごい楽です。
こういうときOAuth選びがちだけど意外と使い勝手悪い。

OAuth使うと発生する問題

  • ライブラリの依存とか諸々ではまりやすい
  • OAuth provider (TwitterとかFBとかギッハブとか)に依存することになる
  • 複数のOAuth providerに対応すると1人のユーザーが複数アカウント重複してしまう可能性がでてきてめんどくさくなる
  • Native Appつくるときに認証でWebView開いて(myapp(web) -> Twitter -> myapp(web) -> myapp(native))みたいなcallbackの嵐をやるハメになる
  • Native Appのバイナリ内にサーバー側と同じConsumer Key/Consumer Secretを持つとセキュリティ上問題があるのでNativeでは持たないようにするなり、別のConsumer Keyを持つなりしないといけない
  • 更にマジメな話をするとアプリ内WebViewで外部サービスのパスワード入力させて認証させるのはfishingのおそれがあるのでアドレスバーが信頼できる外部ブラウザアプリに飛ばして認証させたほうが良い

追記

OAuthは認可であって認証ではないうんぬんの話は承知しておりますが現実としてその辺に詳しくないエンジニアの皆様は「Twitterで認証」とおっしゃられてますし、TwitterにOAuthで認可を得てverify_credential.jsonを叩いた結果からuser_idを取得するとそれは認証として問題なく使えてしまうという現実もあります(余計な権限の認可もついていますが、そっちもなんだかんだで使うし)。OAuth単独だと認証機能がないというのは事実なんですが一般的に言うOAuthとは要するにTwitterでありFacebookでありそれらのAPIと組み合わせることで認証機能を得ることができるし、IDな人たちが大好きなOpenIDの最新規格であるOpenID ConnectだってOAuthでaccess_token取得するついでにIdentityもついてくるというTwitter APIのverify_credentialを呼ぶ手間が省けて共通規格にしましたみたいなもんだし、日曜深夜にこんな長文書くハメになるのでOAuthがどうとか認証とか認可とかの議論やめたい。

TwitterのRSSを生成する Twitter Great RSS をつくった

つくりました。
Twitter Great RSS

  • 1人のユーザーのツイート一覧
  • list
  • 検索結果 (←NEW!)

RSS化できます。
検索にも新たに対応しました。エゴサーチが捗りますね!


以前つくっていたもの(Twitter Good RSS)が、一部壊れているようで新規登録ができないとの連絡を受けていたんんですが、以前のやつは今見るとDB周りが色々絶望的で直したくなかったので新しいものを作りなおしました。

機能的にも上位互換なので今後はこちらをお使いください


Twitter Great RSS


GitHub

neovimで新しくなったところまとめ

neovimは「vimを近代化させよう」というvimのforkです。

https://github.com/neovim/neovim
http://news.mynavi.jp/news/2014/02/26/097/

なかなかかっこいいので、現状どのような改修が行われたのかcommitを追いかけてみました

TL;DR

  • 開発始まったばっかりなので総Commit数まだ少ない
  • CMake使うようにした
  • ゴミ掃除とサポートしたくない環境の切り捨てをした
  • 実用段階になるには少なくとも半年以上はかかりそう

詳しく


Import vim from changeset v5628:c9cad40b4181

  • ファーストコミット
  • いらなそうなファイルとかマクロとか消したらしい
  • Cmakeにビルドを移植したらしい
  • fork元との差分はなし。あんまり丁寧じゃないね


Fix build on OSX/Archlinux and add README

  • SELinux対応面倒なのでとりあえずコメントアウト
  • OSX/Archlinuxでビルドが壊れているのを修正
  • OSXでlibintl(gettextなどから使用される)を探すように&なんか色々ハックしてる
  • Archlinuxでリンク時に-ltermcapをつけても名前が見つからずリンクできないのでtermcapを包有しているcursesをリンクすることで(-llibcurses)回避

わりと雑なハックが行われている模様


Remove more #ifdef dead code

  • 古いマクロとかさまざまな環境に対応するためのコードとかをごっそり削除
  • Mac OS 9とかBorland C++ CompilerとかMSDOSとか
  • libuvの乗り換えるためかsys/poll.hとか使うのやめている
  • GUIは別プロセスにしてTCP接続する疎結合に切り替える予定のためかGUIまわりのコード(X11, GTK, ...)もごっそり削除


Automate libuv download and build

  • libuvを自動ダウンロード&ビルドするように……ってそれmakeでやることなの? aptなりyumなりbrewなりに任せるべきでは


Add libtool to OSX installs
Add Arch dependency instructions to README.md

  • それぞれOSXとArch Linuxでのインストール手順説明の修正
  • Arch Linux向けのcommit複数あってそれぞれ別の人がやっていて流行っている感じある


include a copy of the Vim License

  • うっかり忘れていたっぽい。雑っぽい


Cleanup refactoring in main
Clean up main.c:parse_command_name


Add travis-ci configuration

  • TravisCI導入


First pass on getting build working on FreeBSD.

  • FreeBSDでビルドできるように
  • みんな自分のOSに対応させるし使ってないOSはどうでもいいということがわかっておもしろい
  • バザール開発だ


README.md: fix ubuntu/debian deps

  • 「For Ubuntu 12.04」ってなんだよ、俺はdebian使ってるんだという心の声が聞こえる
  • build-essentialはubuntuにしかないんだよ。要するに必要なのはlibtool, autoconf, g++だという心の声が聞こえる

追記: debianにもbuild-essentialはあるらしい(thx KoshianX!)。今手元のsqueezeで確認したら確かにありました。build-essentailではlibtool, autoconfは入らないようなのでそこを直したと思われる


Added 'neovim' to the feature list, following discussion on #44

  • VimLからhas("neovim")でneovimがどうか判定できるように


scripts/common.sh: remove a couple bashisms


追記:bashでしか動かないバグをbashismsというらしい(thx KoshianX!)。

シェルスクリプト詳しくないので精進します


Adding neovim formula for Homebrew
Updating README file to use Homebrew for local builds

  • Homebrewのfomula書いたぜ
> brew install neovim/neovim/neovim

でneovimが入る便利ライフに