日々の開発Tips

Node.jsで大容量ファイルを扱う：AIモデルのような大きなデータ保存はストリーム処理使いましょう

Qualiteg プロダクト開発部

2025年4月24日 — 5 min read

こんにちは！今日はAIシステムのフロントサーバーとしてもよく使用するNode.jsについてのお話です。

AIモデルの普及に伴い、大容量のデータファイルを扱う機会が急増しています。LLMなどのモデルファイルやトレーニングデータセットは数GB、場合によっては数十、数百GBにも達することがあります。

一方、Node.jsはWebアプリケーションのフロントサーバーとして広く採用されており、データマネジメントやPythonで書かれたAIバックエンドとの橋渡し役としてもかなりお役立ちな存在です。

本記事では、Node.js v20LTSで5GB程度のファイルを処理しようとして遭遇した問題と、その解決方法について解説します。

Node.jsのバッファサイズ制限の変遷

Node.jsのバッファサイズ制限は、バージョンによって大きく変化してきました

Node.jsバージョン	サポート終了日	バッファサイズ上限	備考
Node.js 0.12.x	2016年12月31日	~1GB	初期のバッファサイズ制限（smalloc.kMaxLength使用）
Node.js 4.x (Argon)	2018年4月30日	~2GB	V8 4.4での書き換えにより制限が拡大
Node.js 6.x (Boron)	2019年4月30日		32ビット符号付き整数の最大値
Node.js 8.x (Carbon)	2019年12月31日		OpenSSL 1.0.2のEOLに合わせて早期終了
Node.js 10.x (Dubnium)	2021年4月30日		32ビット符号付き整数の最大値
Node.js 12.x (Erbium)	2022年4月30日		32ビット符号付き整数の最大値
Node.js 14.x (Fermium)	2023年4月30日		途中から4GBに拡大
Node.js 16.x	2023年9月11日	~4GB	OpenSSL 1.1.1のサポート終了に合わせてEOLが早まった
Node.js 17.x	2022年6月1日		奇数バージョンは短期サポート
Node.js 18.x	2025年4月30日		現在メンテナンスLTSフェーズ
Node.js 19.x	2023年6月1日		奇数バージョンは短期サポート
Node.js 20.x	2026年4月30日		現在アクティブLTSフェーズ
Node.js 21.7.2	2024年6月1日
Node.js 21.7.3	2024年6月1日	~8TB	v21.7.3でバッファサイズ上限が大幅拡大
Node.js 22.x (Jod)	2027年4月30日		2024年10月29日にLTSに移行
Node.js 23.x	2025年6月1日		奇数バージョンは短期サポート

Node.js v20LTSでは理論上は4GBまでのバッファを扱えるようになっていますが、I/O操作（ファイルの読み書き）における制限が依然として存在します。これはNode.js自体ではなく、その下層で動作するlibuv（非同期I/Oライブラリ）の制限によるものです。

実際に遭遇した問題：5GBのAIモデルファイル

あるプロジェクトで、5GBのAIモデルファイルをモデル管理サーバーとして使っているNode.js v20 LTSを経由して保存しようとした際、以下のコードを使用しました：

save_file(target_dir, file_name, file_buffer) {
  try {
    // 保存先ディレクトリが存在しない場合は作成
    if (!fs.existsSync(target_dir)) {
      fs.mkdirSync(target_dir, { recursive: true });
    }

    const file_path = path.join(target_dir, file_name);
    fs.writeFileSync(file_path, file_buffer);
    return true;
  } catch (error) {
    console.error(`ファイル保存エラー: ${error.message}\n${error.stack}`);
    return false;
  }
}

すると、以下のようなエラーが発生しました

ファイル保存エラー: The value of "length" is out of range. It must be >= 0 && <= 4294967295. Received 5368709120

このエラーは、Node.js v20LTSのバッファ制限が4GBであるのに対し、我々が扱おうとしていたファイルは5GB（5,368,709,120バイト）だったことを示しています。
こうやって無邪気なコードをかきましたが、巨大ファイルをこのような方法で保存するのはいただけないです。

エラーのとおり、5GBのファイルを一度に処理することはできないことが分かります。

（5GBならかわいいもんですが、素人が数百GBクラスのモデルデータをあつかうと、通常のコードは何でもなかったコードが一斉に不具合に見舞われたりします。）

解決策：ストリーム処理と非同期I/O

さて、この問題を解決するために、ストリーム処理と非同期I/Oを採用したアプローチに切り替えました

async save_file(target_dir, file_name, input_data) {
  try {
    // 保存先ディレクトリが存在しない場合は作成（非同期版）
    await fs.promises.mkdir(target_dir, { recursive: true });

    const file_path = path.join(target_dir, file_name);
    
    // ストリームを使用してファイルを書き込む
    const writeStream = fs.createWriteStream(file_path);
    
    // Bufferの場合
    if (Buffer.isBuffer(input_data)) {
      // チャンクに分割して書き込む
      const chunkSize = 1024 * 1024; // 1MBずつ
      for (let i = 0; i < input_data.length; i += chunkSize) {
        const chunk = input_data.slice(i, Math.min(i + chunkSize, input_data.length));
        writeStream.write(chunk);
      }
      writeStream.end();
    } 
    // ストリームの場合
    else if (typeof input_data.pipe === 'function') {
      input_data.pipe(writeStream);
    }
    // その他の場合（文字列など）
    else {
      writeStream.write(input_data);
      writeStream.end();
    }

    // 完了または失敗を待機する
    await new Promise((resolve, reject) => {
      writeStream.on('finish', resolve);
      writeStream.on('error', reject);
    });
    
    return true;
  } catch (error) {
    console.error(`ファイル保存エラー: ${error.message}\n${error.stack}`);
    throw error; // asyncメソッドなのでthrowを使う
  }
}

この改善版コードを使って5GBのモデルファイルを問題なく保存できるようになりました。

主な改善点は以下の通りです

ストリーム処理
データを小さなチャンク（1MB）に分割して処理することで、バッファサイズの制限を回避しました。
非同期処理
async/awaitを使用することで、ファイル処理中もサーバーが他のリクエストに応答できるようになりました。
プログレス表示の実装
大きなファイルの転送過程を監視するために、チャンク単位のプログレス表示も組み込みました（コード例では省略）。

ということで、巨大ファイルを扱い、安定性を向上するためには、キャッシュ・ストリーミング・非同期での処理が非常に重要となります。

（おまけ）さらに、マルチコアを活かすことで、パフォーマンス向上・最適化

Node.jsは単一スレッドで動作するため、CPUバウンドな処理を行う場合、マルチコアのパフォーマンスを活かしきれません。これを解決するのがclusterモジュールです。

今回のように単純なファイル保存の場合、基本的に単一ファイルへの書き込みはI/Oバウンドな処理で、OSのファイルシステムによって直列化されますので、複数のプロセスからの保存には実はそんなに意味がありません。まして、同じファイルに同時に書き込むと、ファイルシステムのロックやシークポインタの競合が発生し、むしろパフォーマンスが低下する可能性すらあります。

ただ、ファイルに対して一定の処理を行ったりする場合には、マルチコアにすることで、パフォーマンスを向上できる可能性もありますので、ご紹介します。

cluster モジュールの基本的な使い方

import cluster from 'node:cluster';
import http from 'node:http';
import { cpus } from 'node:os';
import process from 'node:process';

const numCPUs = cpus().length;

if (cluster.isPrimary) {
  console.log(`メインプロセス ${process.pid} 実行中`);
  
  // CPUコア数分のワーカーを起動
  for (let i = 0; i < numCPUs; i++) {
    cluster.fork();
  }
  
  cluster.on('exit', (worker, code, signal) => {
    console.log(`ワーカー ${worker.process.pid} が終了しました`);
    // 必要に応じてワーカーを再起動
    cluster.fork();
  });
} else {
  // ワーカーは同じポートでHTTPサーバーを起動
  http.createServer((req, res) => {
    res.writeHead(200);
    res.end('Hello World\n');
  }).listen(8000);
  
  console.log(`ワーカー ${process.pid} 起動完了`);
}

大容量ファイル処理での最適化の組み合わせ

大容量ファイル＋何等かな処理（CPUバウンドな）を扱う場合は、ストリーム処理とclusterモジュールを組み合わせることで、さらに効率的な処理が可能になります

CPUコア数の最適利用
clusterモジュールでCPUコア数分のプロセスを起動
ストリーム処理
各ワーカープロセス内でチャンク単位のストリーム処理を実装
負荷分散
大きなファイルをワーカー間で分割処理（例: 範囲ごとに担当を分ける）

まとめ

AIモデルのような大容量ファイルを扱うNode.jsアプリケーションのストリーム処理についてご紹介しました。巨大ファイルはストリーム処理と非同期I/O操作を組み合わせることで効率的に扱うことができます

それではまた次回おあいしましょう！

ログをちょこっと grep するツール "ちょこぐれっぷ" つくりました

こんにちは！今日はちょこっとしたツールをつくりました。ログをちょこっとgrepするツールです。もちろん無料。 chocoGrep - ちょこっとgrep！ログフィルタツールちょこっとgrepするならchocoGrep！「error or warning」と書くだけの簡単or/and検索。AIエージェントに渡す前にログを最適化。正規表現不要、インストール不要。chocoGrepQualiteg Inc. Cursor、Devin、Claude Code、ChatGPT——AIコーディングエージェントにエラーログを渡してデバッグを手伝ってもらう。もう日常ですよね。でも、 * ログを全部貼り付けたら、AIの応答がやたら遅い * 「トークン制限を超えました」と怒られる * 大量のログの中から、AIが的外れな部分に注目してしまうそこで、つくったちょこっとgrepするためのツールです名付けて　ちょこぐれっぷ！chogoGrep！ chocoGrepって何？ブラウザで動く、ゆるいgrepツールです。ログを貼り付けて、検索ワードを入れるだけ。インストール不要

GPUを使った分散処理で見落としがちなCPUボトルネックとtasksetによる解決法

こんにちは！複数枚のGPUをつかった並列処理システムを設計しているときCPUについてはあまり考えないでシステムを設計してしまうことがあります。「機械学習システムの主役はGPUなんだから、CPUなんて、あんまり気にしなくてよいのでは」いいえ、そうでもないんです。推論中のあるタイミングに急に動作が遅くなったりするときCPUが原因であることがけっこうあります。概要（5分で分かる要点）先日GPUを使った並列処理システムで、予期しないCPUボトルネックが発生し、パフォーマンスが大幅に低下する問題に遭遇しました。複数のプロセスが異なるGPUを使用しているにも関わらず、処理が極端に遅くなる現象の原因は、処理パイプラインの一部に含まれるCPU集約的な計算処理でした。問題の症状 * 単一プロセス実行時：正常な速度 * 複数プロセス並列実行時：処理時間が数倍に増加 * GPUリソースに競合なし（nvidia-smiで確認済み）根本原因処理パイプラインにGPUに適さないCPU集約的な計算（データ前処理、統計変換など）が含まれており、複数プロセスが同じCP

Model Context Protocol完全実装ガイド 2025- 仕様変遷から最新Streamable HTTPまでの全て

こんにちは！現在、LLM業界で破竹の勢いでひろまっているMCPについて、本日はとくに実装面について解説していきたいとおもいます。 MCP、MCPとひとくちにいっていますが、実は短期間でけっこう「標準」とよばれる仕様が変化しておりますので、仕様のバリエーションを順を追って解説しつつ、実際に実装をしていきたいとおもいます。さて、MCPですが、2024年後半、Anthropicが発表したModel Context Protocol（MCP）は、AI分野における重要な転換点となりました。従来、各AIベンダーが独自に実装していたツール呼び出し機能(tool useと呼びます）を標準化し、AIモデルと外部システムの連携を統一的に扱える仕組みを提供しました本記事で、MCPの誕生から現在に至るまでの技術的変遷を詳細に追いながら、2025年時点での最適な実装方法を完全なソースコードと共に解説します。特に、仕様の変化に振り回されがちな実装者の視点から、なぜ現在の形に収束したのか、そして今後どのような実装アプローチを取るべきかを明確にしていきます。第1章 MCPが解決しようとした問題

【出展報告】ASCII STARTUP TechDay 2025

こんにちは！本日、「ASCII STARTUP TechDay 2025」に出展してまいりましたのでレポートさせていただきます！ ASCII STARTUP TechDay 2025 ASCII STARTUP TechDay 2025は、2025年11月17日（月）に東京・浅草橋ヒューリックホール&カンファレンスで開催された、ディープテック・スタートアップのエコシステム構築をテーマにした展示交流・カンファレンスイベントです。秋の展示会は本当にいいですね本日はとてもよいお天気で、涼しくて、展示会にはピッタリの気候で朝からルンルンでした。しかも午後からの展示会ということで、気持ちに余裕をもって朝の業務をこなしていたところ、けっこうすぐに昼前になり、あわてて現場へ。浅草橋は当社からもわりと近いという立地の良さを甘く見ておりましたが💦、なんとか予定時刻前に到着しました。やっぱり、都心開催は本当にありがたいですね。会場へ急いでいると、おなかが「ぐ～」と鳴り「そういえば、朝食まだだったわ」とおもったところに、なんと私の大好きなエッセンさん🍞のトラックがあるで

Node.jsで大容量ファイルを扱う：AIモデルのような大きなデータ保存はストリーム処理使いましょう

Qualiteg プロダクト開発部

Node.jsのバッファサイズ制限の変遷

実際に遭遇した問題：5GBのAIモデルファイル

解決策：ストリーム処理と非同期I/O

最新のNode.js(2025年4月時点でv.23)でも注意が必要

（おまけ）さらに、マルチコアを活かすことで、パフォーマンス向上・最適化

cluster モジュールの基本的な使い方

大容量ファイル処理での最適化の組み合わせ

まとめ

Read more

ログをちょこっと grep するツール "ちょこぐれっぷ" つくりました

GPUを使った分散処理で見落としがちなCPUボトルネックとtasksetによる解決法

Model Context Protocol完全実装ガイド 2025- 仕様変遷から最新Streamable HTTPまでの全て

【出展報告】ASCII STARTUP TechDay 2025

Node.jsのバッファサイズ制限の変遷

実際に遭遇した問題：5GBのAIモデルファイル

解決策：ストリーム処理と非同期I/O

最新のNode.js(2025年4月時点でv.23)でも注意が必要

（おまけ）さらに、マルチコアを活かすことで、パフォーマンス向上・最適化

cluster モジュールの基本的な使い方

大容量ファイル処理での最適化の組み合わせ

まとめ

Read more

ログを ちょこっと grep するツール "ちょこぐれっぷ" つくりました

GPUを使った分散処理で見落としがちなCPUボトルネックとtasksetによる解決法

Model Context Protocol完全実装ガイド 2025- 仕様変遷から最新Streamable HTTPまでの全て

【出展報告】ASCII STARTUP TechDay 2025

ログをちょこっと grep するツール "ちょこぐれっぷ" つくりました