Perlによる巨大CSVファイルの操作について

提供: dococo wiki
2017年10月17日 (火) 23:31時点におけるimported>Webmasterによる版 (ページの作成:「仕事上、データベースから出力したCSVファイルを元にデータ整理をする必要に迫られたが。最近はデータ良能肥大によりEXCELで...」)
(差分) ← 古い版 | 最新版 (差分) | 新しい版 → (差分)
ナビゲーションに移動 検索に移動

仕事上、データベースから出力したCSVファイルを元にデータ整理をする必要に迫られたが。最近はデータ良能肥大によりEXCELでは処理しきれなくなった(要するに100万行を超えた)CSVを扱う必要が出てきたので。Perlによる巨大CSVファイルの操作についていろいろやってみた

巨大CSVファイルの操作

巨大ってどれくらいかというと、大体100万行~1000万行程度のテキストCSVファイルを指しており。操作というのは主にあるキーを元にしてソート(並び替え)や重複ファイルの削除を考えています。
もっと欲を言えば、1000万行や1億行のデータからある条件でピボットテーブル(クロス集計)で中央値を出したり、平均値を出したり。
条件抽出したり、いろいろなことをPerlをつかってできないかと思って四苦八苦しました

File::Sortモジュール