改行コードの判別+各行のふるい分け(バージョン/開始局面など)を簡易的に実装してみた。
OS標準の改行コードと、棋譜データ内で使用される改行コードは必ずしも同一ではない、ってことがちょっとやっかいですね。私がコード書いてる環境はLinux(改行=LF)ですが、棋譜データはたいていwindows(改行=CR+LF)上で作成されているため、若干めんどくさいことになっていました。
floodgateで入手できる棋譜はアーカイブされてて非常に利用しやすいです。日付ごと、対局者ごとにまとめられているのがありますが、リンクを1個1個クリックしていくのがあまりにめんどいので、ひとまず2012年、2011年分の1年区切りのアーカイブを落としてみたら、1年の対局数が10万くらいあってlsコマンドがもの凄い遅い。だいたいは標準出力に吐いてるせいだろうし棋譜の学習にはそこまで差し障らないかと思うけど、1ディレクトリに10万もファイルがあるのは個人的に気持ち悪いなと思い、スクリプト使って月別に一括分類したいなーって考えた時の話。