Perlによる巨大CSVファイルの操作について

仕事上、データベースから出力したCSVファイルを元にデータ整理をする必要に迫られたが。最近はデータ良能肥大によりEXCELでは処理しきれなくなった（要するに100万行を超えた）CSVを扱う必要が出てきたので。Perlによる巨大CSVファイルの操作についていろいろやってみた

巨大CSVファイルの操作

巨大ってどれくらいかというと、大体100万行～1000万行程度のテキストCSVファイルを指しており。操作というのは主にあるキーを元にしてソート（並び替え）や重複ファイルの削除を考えています。
もっと欲を言えば、1000万行や１億行のデータからある条件でピボットテーブル（クロス集計）で中央値を出したり、平均値を出したり。
条件抽出したり、いろいろなことをPerlをつかってできないかと思って四苦八苦しました

File::Sortモジュール

File::Sortはファイルの内容を行単位でソートし，別のファイルへ出力する。機能ですか使ってみると以下の機能があることがわかりました

ある区切りを基準にしてソート（並び替え）をして別のファイルへ出力する
複数のファイルをマージして別のファイルへ出力する
ある区切りを基準にた重複行を削除して別のファイルへ出力する

テストベットで試験をしたら1000万行のソート（並び替え）は90分で完了しました。
これはFile::Sortモジュールを使用することで巨大CSVファイルの並び替えや操作が可能ということがわかりました。

Perlによる巨大CSVファイルの操作について

巨大CSVファイルの操作

File::Sortモジュール

案内メニュー

個人用ツール

名前空間

変種

表示

その他

検索

案内

ツール