【設計】CSVの処理について考える

作成日 2025-04-20更新日 2025-08-05

はじめに

CSVの機能を設計・実装する上でのアレコレを備忘録としてまとめました。

基本的なフォーマット

特別な理由がない限り、出力項目はダブルクォーテーションで囲むのが安全です。
これは、出力項目にカンマや改行など CSV上で特別な意味を持つ記号が含まれている可能性があるためです。

避けた方がいい項目名

最初の項目名が ID のような名前になっていると、古いExcelで誤動作を引き起こす可能性があります。

参考: https://dechnostick.hatenablog.com/entry/2015/02/02/022702

※現在のExcelでも発生するかは未検証ですが、念のため避けておくとよいでしょう。

文字コード

よく使われる文字コードは以下の2つです。

Shift_JIS（Windows-31J）
- 参考: Qiita 記事
UTF-8（BOM付き）

ExcelでCSVを開く想定の場合、UTF-8にBOMを付けないと文字化けするケースがあります。
そのため、BOM付きUTF-8を使う場面も多いです。

1対多のデータをどう表現するか

1対多の関係（例：ユーザーと趣味など）をCSVで扱う場合、以下のようにカラムを動的に増やす構成があります：

ユーザーID	趣味1	趣味2
1	野球	サッカー

登録されている趣味の数に応じてカラム数が変動
例えば趣味が5つあれば、趣味5までカラムが増える
少ない人は空欄（ブランク）で埋める

あるいは、1行に1趣味ずつ分ける構成もあります：

ユーザーID	趣味
1	野球
1	サッカー

※システム的には、1カラム内に「カンマ区切り」などで趣味を詰め込む方法もありますが、Excel等での編集性を考慮すると現実的ではないかもしれません。

出力時間（タイムアウトの考慮）

CSVは大量データの出力が前提になることが多く、処理時間にも注意が必要です。

少量データではリアルタイムで出力可能でも、データ量が増えると タイムアウトの可能性あり
処理負荷が高いケース：
- 複雑なSQL（JOINが多い、サブクエリ多数）
- 無駄なループ処理
- インデックスが不十分

対策例

SQLチューニング
適切なインデックス
非同期処理の導入

非同期処理の例

画面で「CSVダウンロードボタン」を押す
バックエンドで非同期ジョブをキック
すぐに画面レスポンスを返す（例：「CSV作成中です」）
作成完了後にメール送付 or ストレージに保存

※非同期ステータスの表示方法としては、ポーリングで進捗確認する or ステータス一覧画面を作る方法もあります。

メモリの考慮

大量データを処理する際は、アプリケーション側のメモリ消費にも注意が必要です。

Railsなら find_each を使うことで、メモリ消費を抑えた分割処理が可能です。

CSV取り込みに関して

CSVからのデータ取込もまた重い処理になることがあります。
基本的には非同期処理を想定して設計すべきです。

トランザクション設計

複数テーブルを更新する場合、トランザクションが長くなりロック時間も増加
1行ごとに独立しているデータであれば、1行単位でコミットする方式も有効
- パフォーマンスは落ちるが、ロック時間は短くなる

マイクロサービス連携との兼ね合い

取込中に他サービスへAPI連携が必要な場合は、API成功後にコミットするようにする
API前にコミットすると、APIエラー時にロールバックできずデータ不整合が発生する可能性あり

パフォーマンス改善の工夫

バリデーションでマスタ参照を都度SQLでチェックすると重くなる
→ 可能なら 一括で必要なマスタを取得し、配列で検証
バルクインサート/アップデートができると早いが、親IDが必要なケースでは難しいことも
並列処理の導入も有効
例：1000件を10スレッドで100件ずつ並行処理

※取込順に意味がない（更新が上書きされてもOK）なら、並列処理は特に効果的

CSV取込時のエラー表示

CSV取り込み時にエラーが起きた場合は、どの行のどの項目がなぜ失敗したのかを明示することが重要です。

これがないと、ユーザーはCSVを修正できず、結果として：

「エラーになるけど理由がわからない」
「問い合わせが増えて担当者が疲弊」

といった状況に陥ります。

おわりに

CSVは単純なようでいて、文字コード・出力形式・処理性能・UI/UX・運用のしやすさなど様々な設計ポイントがあります。
一度しっかり考えて実装方針を決めておくと、あとで苦しまなくて済むことが多いです。

<<【Rails・RBS】VSCodeで型の参照とコード補完ができるようにする

【Ruby】秒数から時間変換で24時間を超えるとバグった話>>

はじめに
基本的なフォーマット
避けた方がいい項目名
文字コード
1対多のデータをどう表現するか
出力時間（タイムアウトの考慮）
メモリの考慮
CSV取り込みに関して
CSV取込時のエラー表示
おわりに