日々の開発Tips

Node.jsで大容量ファイルを扱う：AIモデルのような大きなデータ保存はストリーム処理使いましょう

Qualiteg プロダクト開発部

2025年4月24日 — 5 min read

こんにちは！今日はAIシステムのフロントサーバーとしてもよく使用するNode.jsについてのお話です。

AIモデルの普及に伴い、大容量のデータファイルを扱う機会が急増しています。LLMなどのモデルファイルやトレーニングデータセットは数GB、場合によっては数十、数百GBにも達することがあります。

一方、Node.jsはWebアプリケーションのフロントサーバーとして広く採用されており、データマネジメントやPythonで書かれたAIバックエンドとの橋渡し役としてもかなりお役立ちな存在です。

本記事では、Node.js v20LTSで5GB程度のファイルを処理しようとして遭遇した問題と、その解決方法について解説します。

Node.jsのバッファサイズ制限の変遷

Node.jsのバッファサイズ制限は、バージョンによって大きく変化してきました

Node.jsバージョン	サポート終了日	バッファサイズ上限	備考
Node.js 0.12.x	2016年12月31日	~1GB	初期のバッファサイズ制限（smalloc.kMaxLength使用）
Node.js 4.x (Argon)	2018年4月30日	~2GB	V8 4.4での書き換えにより制限が拡大
Node.js 6.x (Boron)	2019年4月30日		32ビット符号付き整数の最大値
Node.js 8.x (Carbon)	2019年12月31日		OpenSSL 1.0.2のEOLに合わせて早期終了
Node.js 10.x (Dubnium)	2021年4月30日		32ビット符号付き整数の最大値
Node.js 12.x (Erbium)	2022年4月30日		32ビット符号付き整数の最大値
Node.js 14.x (Fermium)	2023年4月30日		途中から4GBに拡大
Node.js 16.x	2023年9月11日	~4GB	OpenSSL 1.1.1のサポート終了に合わせてEOLが早まった
Node.js 17.x	2022年6月1日		奇数バージョンは短期サポート
Node.js 18.x	2025年4月30日		現在メンテナンスLTSフェーズ
Node.js 19.x	2023年6月1日		奇数バージョンは短期サポート
Node.js 20.x	2026年4月30日		現在アクティブLTSフェーズ
Node.js 21.7.2	2024年6月1日
Node.js 21.7.3	2024年6月1日	~8TB	v21.7.3でバッファサイズ上限が大幅拡大
Node.js 22.x (Jod)	2027年4月30日		2024年10月29日にLTSに移行
Node.js 23.x	2025年6月1日		奇数バージョンは短期サポート

Node.js v20LTSでは理論上は4GBまでのバッファを扱えるようになっていますが、I/O操作（ファイルの読み書き）における制限が依然として存在します。これはNode.js自体ではなく、その下層で動作するlibuv（非同期I/Oライブラリ）の制限によるものです。

実際に遭遇した問題：5GBのAIモデルファイル

あるプロジェクトで、5GBのAIモデルファイルをモデル管理サーバーとして使っているNode.js v20 LTSを経由して保存しようとした際、以下のコードを使用しました：

save_file(target_dir, file_name, file_buffer) {
  try {
    // 保存先ディレクトリが存在しない場合は作成
    if (!fs.existsSync(target_dir)) {
      fs.mkdirSync(target_dir, { recursive: true });
    }

    const file_path = path.join(target_dir, file_name);
    fs.writeFileSync(file_path, file_buffer);
    return true;
  } catch (error) {
    console.error(`ファイル保存エラー: ${error.message}\n${error.stack}`);
    return false;
  }
}

すると、以下のようなエラーが発生しました

ファイル保存エラー: The value of "length" is out of range. It must be >= 0 && <= 4294967295. Received 5368709120

このエラーは、Node.js v20LTSのバッファ制限が4GBであるのに対し、我々が扱おうとしていたファイルは5GB（5,368,709,120バイト）だったことを示しています。
こうやって無邪気なコードをかきましたが、巨大ファイルをこのような方法で保存するのはいただけないです。

エラーのとおり、5GBのファイルを一度に処理することはできないことが分かります。

（5GBならかわいいもんですが、素人が数百GBクラスのモデルデータをあつかうと、通常のコードは何でもなかったコードが一斉に不具合に見舞われたりします。）

解決策：ストリーム処理と非同期I/O

さて、この問題を解決するために、ストリーム処理と非同期I/Oを採用したアプローチに切り替えました

async save_file(target_dir, file_name, input_data) {
  try {
    // 保存先ディレクトリが存在しない場合は作成（非同期版）
    await fs.promises.mkdir(target_dir, { recursive: true });

    const file_path = path.join(target_dir, file_name);
    
    // ストリームを使用してファイルを書き込む
    const writeStream = fs.createWriteStream(file_path);
    
    // Bufferの場合
    if (Buffer.isBuffer(input_data)) {
      // チャンクに分割して書き込む
      const chunkSize = 1024 * 1024; // 1MBずつ
      for (let i = 0; i < input_data.length; i += chunkSize) {
        const chunk = input_data.slice(i, Math.min(i + chunkSize, input_data.length));
        writeStream.write(chunk);
      }
      writeStream.end();
    } 
    // ストリームの場合
    else if (typeof input_data.pipe === 'function') {
      input_data.pipe(writeStream);
    }
    // その他の場合（文字列など）
    else {
      writeStream.write(input_data);
      writeStream.end();
    }

    // 完了または失敗を待機する
    await new Promise((resolve, reject) => {
      writeStream.on('finish', resolve);
      writeStream.on('error', reject);
    });
    
    return true;
  } catch (error) {
    console.error(`ファイル保存エラー: ${error.message}\n${error.stack}`);
    throw error; // asyncメソッドなのでthrowを使う
  }
}

この改善版コードを使って5GBのモデルファイルを問題なく保存できるようになりました。

主な改善点は以下の通りです

ストリーム処理
データを小さなチャンク（1MB）に分割して処理することで、バッファサイズの制限を回避しました。
非同期処理
async/awaitを使用することで、ファイル処理中もサーバーが他のリクエストに応答できるようになりました。
プログレス表示の実装
大きなファイルの転送過程を監視するために、チャンク単位のプログレス表示も組み込みました（コード例では省略）。

ということで、巨大ファイルを扱い、安定性を向上するためには、キャッシュ・ストリーミング・非同期での処理が非常に重要となります。

（おまけ）さらに、マルチコアを活かすことで、パフォーマンス向上・最適化

Node.jsは単一スレッドで動作するため、CPUバウンドな処理を行う場合、マルチコアのパフォーマンスを活かしきれません。これを解決するのがclusterモジュールです。

今回のように単純なファイル保存の場合、基本的に単一ファイルへの書き込みはI/Oバウンドな処理で、OSのファイルシステムによって直列化されますので、複数のプロセスからの保存には実はそんなに意味がありません。まして、同じファイルに同時に書き込むと、ファイルシステムのロックやシークポインタの競合が発生し、むしろパフォーマンスが低下する可能性すらあります。

ただ、ファイルに対して一定の処理を行ったりする場合には、マルチコアにすることで、パフォーマンスを向上できる可能性もありますので、ご紹介します。

cluster モジュールの基本的な使い方

import cluster from 'node:cluster';
import http from 'node:http';
import { cpus } from 'node:os';
import process from 'node:process';

const numCPUs = cpus().length;

if (cluster.isPrimary) {
  console.log(`メインプロセス ${process.pid} 実行中`);
  
  // CPUコア数分のワーカーを起動
  for (let i = 0; i < numCPUs; i++) {
    cluster.fork();
  }
  
  cluster.on('exit', (worker, code, signal) => {
    console.log(`ワーカー ${worker.process.pid} が終了しました`);
    // 必要に応じてワーカーを再起動
    cluster.fork();
  });
} else {
  // ワーカーは同じポートでHTTPサーバーを起動
  http.createServer((req, res) => {
    res.writeHead(200);
    res.end('Hello World\n');
  }).listen(8000);
  
  console.log(`ワーカー ${process.pid} 起動完了`);
}

大容量ファイル処理での最適化の組み合わせ

大容量ファイル＋何等かな処理（CPUバウンドな）を扱う場合は、ストリーム処理とclusterモジュールを組み合わせることで、さらに効率的な処理が可能になります

CPUコア数の最適利用
clusterモジュールでCPUコア数分のプロセスを起動
ストリーム処理
各ワーカープロセス内でチャンク単位のストリーム処理を実装
負荷分散
大きなファイルをワーカー間で分割処理（例: 範囲ごとに担当を分ける）

まとめ

AIモデルのような大容量ファイルを扱うNode.jsアプリケーションのストリーム処理についてご紹介しました。巨大ファイルはストリーム処理と非同期I/O操作を組み合わせることで効率的に扱うことができます

それではまた次回おあいしましょう！

Kimi K3 徹底リサーチ — 2.8兆パラメータ、「史上最大のオープンウェイト」は実現するか

こんにちは！ 2026年7月16日、中国・北京の Moonshot AI が新しいフラッグシップモデル Kimi K3 を発表し、APIやWebサービスでの提供を開始しました。総パラメータ2.8兆という規模、100万トークンのコンテキスト、そして「史上最大のオープンウェイトモデルになる」という宣言がAI界隈をにぎわせています。当ブログでは今年5月の記事「Mythos（ミュトス）レベルのオープンモデルはいつ出るのか」で、オープンモデルがクローズドのフロンティアにいつ追いつくのかを予測しました。 Kimi K3 は、まさにその問いに対する現時点での最新の「回答」のひとつです。一方で、この記事を書いている7月20日時点では、モデルのウェイトも技術レポートもまだ公開されていません。ただし、XなどSNSかいわいでは、「ガードレールが弱めで、Fable5では拒否されるようなプロンプトでも対応してくれる」「すぐにOpus4.8にフォールバックする Fable5より使い勝手がいい」といった声が散見されており、米国産のガードレール強め方針にたいして、ガードレール

PII 非識別化の本質——「誰か」は偽ってよい、「何が起きたか」は偽ってはならない

こんにちは！Qualitegプロダクト開発部です！本日は、PII（ Personally Identifiable Information→個人情報）の非識別化に関する内容を解説いたします。当社ではこれまで、高精度なPII検出技術やLLM利用時の段階的PIIマスキング、PII検出のテスト設計など、個人情報検出とAIセキュリティに関する技術解説をお届けしてきました。現在、当社では、PII検出マスキング技術「PII-FIエンジン」と、それを活用したPIIのマスキング・非識別化サービス「PII-FI Scan」「PII-FI API」を開発・提供しています。本記事では、「PIIを検出したあと、それをどう書き換えるか」の設計原則を、1つの例文を試金石にして、私たちが実際のプロダクトで採用している整理をご紹介します。先にことわっておきますと、本記事でいう「非識別化(de-identification)」は、文書やログを安全に共有・分析するための技術的な加工(個人を特定できないように加工する処理)のお話です。個人情報保護法上の「仮名加工情報」「匿名加工情報」に該当することを

日本語対応 LLMランキング2026　～ベンチマーク分析レポート～（7月10日版）

はじめに本レポートは、Nejumi Leaderboard 4のベンチマークデータ（2026/7/10版）に基づいて、日本語対応LLMの性能を総合的に分析したものです。前回は 2026/3/6 版の分析レポートを公開しましたが、約4か月ぶりとなる今回も、上位勢の顔ぶれが大きく入れ替わる激動の回となりました！（定期的に最新LLMランキングを更新してまいります。当社のX(旧Twitter)をフォローいただくことで更新情報を受け取り可能です） Nejumi Leaderboard 4は、日本語タスクにおけるLLMの性能を多角的に評価する信頼性の高いベンチマークとして知られています。汎用的言語性能（GLP）とアラインメント（ALT）の2軸で構成され、翻訳・要約・推論・コーディングから毒性・バイアス・真実性まで、幅広い観点をカバーしているのが特徴です。本分析では、商用APIモデルとオープンモデルの両方を対象に、それぞれの特徴や傾向を詳しく見ていきます。まず、今回の3大トピックを先にご紹介します。 * Claude Opus 4.8がリーダーボード史上初の総合スコア0.8

Claude Fable5 完全ガイド — 公式ドキュメントから読み解くモデル仕様とClaude Code運用ポイント

こんにちは！ 2026年6月に登場した Claude Fable 5 は、公開直後の輸出規制による一時停止、グローバル再展開、そしてサブスクリプション枠からの離脱と、わずか1か月でめまぐるしい動きを見せています。当ブログでもその時々の状況を追ってきました。まず全体像はついに一般公開、Claude Mythos 5 / Fable 5 を実務視点で読み解くで、公開直後の停止騒動は公開から3日で停止──Fable 5／Mythos 5 をめぐる米政府指令が示した、AI の新しい可用性リスクで、料金と今後の見通しは Claude Fable 5 はこれからどうなる？経緯・コスト・今後の見通しで扱っています。本記事は、それらを踏まえた「実務で使うための決定版ガイド」です。とくに 2026年7月12日（日本時間7月13日）を境にサブスクリプション枠から外れ、使用クレジットを有効化しないと使えなくなる (この期限は当初2026年7月7日とされていましたが、のちに5日間延長されて7月12日になりました。

Node.jsで大容量ファイルを扱う：AIモデルのような大きなデータ保存はストリーム処理使いましょう

Qualiteg プロダクト開発部

Node.jsのバッファサイズ制限の変遷

実際に遭遇した問題：5GBのAIモデルファイル

解決策：ストリーム処理と非同期I/O

最新のNode.js(2025年4月時点でv.23)でも注意が必要

（おまけ）さらに、マルチコアを活かすことで、パフォーマンス向上・最適化

cluster モジュールの基本的な使い方

大容量ファイル処理での最適化の組み合わせ

まとめ

Read more

Kimi K3 徹底リサーチ — 2.8兆パラメータ、「史上最大のオープンウェイト」は実現するか

PII 非識別化の本質——「誰か」は偽ってよい、「何が起きたか」は偽ってはならない

日本語対応 LLMランキング2026　～ベンチマーク分析レポート～（7月10日版）

Claude Fable5 完全ガイド — 公式ドキュメントから読み解くモデル仕様とClaude Code運用ポイント

Node.jsのバッファサイズ制限の変遷

実際に遭遇した問題：5GBのAIモデルファイル

解決策：ストリーム処理と非同期I/O

最新のNode.js(2025年4月時点でv.23)でも注意が必要

（おまけ）さらに、マルチコアを活かすことで、パフォーマンス向上・最適化

cluster モジュールの基本的な使い方

大容量ファイル処理での最適化の組み合わせ

まとめ

Read more

Kimi K3 徹底リサーチ — 2.8兆パラメータ、「史上最大のオープンウェイト」は実現するか

PII 非識別化の本質——「誰か」は偽ってよい、「何が起きたか」は偽ってはならない

日本語対応 LLMランキング2026 ～ベンチマーク分析レポート～（7月10日版）

Claude Fable5 完全ガイド — 公式ドキュメントから読み解くモデル仕様とClaude Code運用ポイント

日本語対応 LLMランキング2026　～ベンチマーク分析レポート～（7月10日版）