現場で迷わない失敗しない古文書【スキャンサービスの基準と手順】

原本保護と準備の基本

古い和紙や巻物、帳簿は紙質や綴じ方が多様で、状態も一様ではありません。まずは「非破壊(切断しない)」を最優先とし、作業環境と手順を整えてから設定検討に進みます。温度は18~22℃、湿度は40~55%を目安にし、直射日光と強い送風は避けます。作業台は清掃し、袖口やアクセサリーのひっかかりを防ぎます。綿手袋は繊維が引っかかる場合があるため、微細な紙では素手+手洗いか薄手のニトリル手袋を検討します。作業前後で状態を簡易撮影し、破れや欠損の位置を記録しておくと、後工程での責任分界や再処理の判断が容易になります。

損傷評価と扱い方の基準(和紙・虫損・退色の見極め)

最初に「どこを押さえれば安全か」を見極めます。和紙が柔らかく波打っている場合は、繊維方向に沿ってそっとなで、硬化や脆化が強い箇所には直接の力を加えないようにします。虫損が点在するページは、穴の連結部が裂けやすいので、下に厚めの支持紙を敷いて面で支えます。退色が進んだ彩色は光への耐性が低いため、照明は必要最小限とし、連続照射時間を短く区切ります。評価の着眼点は、紙の硬さ、波打ち、裂け目の方向、糊・綴じの強度の4点です。各ページの「開ける・開けない」を都度判断し、難所は見返しや遊び紙など比較的丈夫な部分からアプローチします。迷う場合は全ページを一度に進めず、代表ページで安全に再現可能かをテストし、結果を基に手順を微調整します。

清掃・押さえ道具・開き角度の考え方(和綴じ・巻物・帳簿)

表面の軽い埃はブロワーで吹き、粉末が固着している場合は柔らかい刷毛で一方向に払います。消しゴム類は紙表面を荒らす恐れがあるため多用しません。押さえには無反射アクリル(表面に干渉縞が出にくいタイプ)や薄い和紙越しのウエイトを使い、「点で押さえず面で支える」ことを原則にします。和綴じ冊子は背が脆いことが多いため、開き角度は90°未満を目安にし、ページ端の支持を厚紙で補助します。巻物は必ず巻き戻し方向を確認し、左右に小さなウエイトを置いて少しずつ送り、常に張力が均等になるようにします。帳簿は見開き中央の山が高い場合、V字保持で角度を60~110°の範囲で安定させると、背への負荷を抑えられます。いずれも「無理に平らにしない」「押さえる位置を頻繁に変える」を意識し、紙の癖に合わせて微調整します。

品質基準と最適なスキャン設定(最長ブロック)

画質は「解像度(画像の細かさ)」「カラーモード(色情報の扱い方)」「光の当て方」の3点の掛け算で決まります。解像度はdpi(1インチあたりの点の数)、カラーモードは色や濃淡の表現方法、光の当て方は反射や陰影の制御に関わります。最初に用途を決め、テストショットを比較し、必要最小限の設定で安定再現できるかを確かめます。テストは同一ページで設定だけを変え、拡大表示で筆致や繊維、裏写りの出方を比較します。判断は「読めるか」「再現できるか」「後工程で使えるか」の3基準に分け、どれか1つでも満たない場合は設定を見直します。

解像度と原稿サイズの目安(用途別の考え方)

解像度は高ければ良いとは限らず、原稿サイズと用途で決めます。閲覧や文字判読が主目的なら600dpi前後、彩色の細部観察や拡大印刷を視野に入れるなら800dpi以上が候補です。一方で長尺巻物の全体把握は、画角優先で300~400dpiの連結ワークフローが現実的です。dpiは「出力サイズに対する余裕」を確保するための目安で、原寸から2倍以上に拡大して使う予定があるなら、原寸時に600~800dpiを選びます。迷う場合は300dpiと600dpiを同条件で撮り比べ、筆致のにじみや罫線のエッジを拡大して目視評価します。以下は原稿タイプと用途別の目安一覧です。

原稿タイプ用途推奨解像度備考
和綴じ冊子の本文(小さめ文字)文字判読・校訂600dpi裏写り対策を併用
和紙一葉・手紙長期保存・閲覧400~600dpi繊維感の再現を優先
絵図・彩色資料詳細観察・拡大印刷600~800dpi斜光や反射に注意
長尺巻物(全体)構図全体の把握300~400dpi分割撮影+連結
長尺巻物(部分)筆致や印の精査600~800dpi押さえの跡に注意
貼付写真入り帳簿トーン重視の保存600dpiガラスの反射対策

カラーモードと階調(色/濃淡の段階)の判断基準

カラーモードは「モノクロ2値」「グレースケール」「カラー」から選びます。モノクロ2値はファイルが軽くなりますが、薄い筆致や紙面の地合いが失われやすく、歴史資料には非推奨です。グレースケールは濃淡の表現に適し、文字主体の資料で有効です。彩色や朱印、紙色の違いを残したい場合はカラーを選びます。階調(濃淡の段階)は、グレースケールなら8ビット以上、カラーなら8ビット×3を基本とし、濃い墨と淡いかすれが同居する場合は可能なら高階調設定を検討します。白黒のしきい値は固定せず、最も薄い画線が消えない基準で調整し、背景ノイズは後処理で軽減する方が安全です。ホワイトバランスは紙色に引きずられやすいため、基準面を1枚目に写し込むか、ページごとにグレー基準を短時間で合わせると色の揺れが抑えられます。

機材選びと反射対策(フラットベッド/カメラ、補助照明)

フラットベッド(原稿をガラスに置く方式)は平面の一葉物に向き、位置決めが容易で再現性が高い一方、厚冊や背の高い資料では無理が生じます。ブックスキャナーのV字保持は綴じ本に有効で、背の負荷を抑えつつ見開きが安定します。カメラ複写(カメラで撮影する方式)は大判や長尺に柔軟で、照明と保持が整えば高解像の取得が可能です。照明は左右45°から均等に当て、紙のテカりや墨の艶で白飛びしないようにします。偏光フィルター(反射光を遮る道具)を照明とレンズに併用すると、光沢や擦れの反射が軽減します。シャッター速度は1/100秒以上を目安にし、三脚や複写台でカメラを固定、セルフタイマーやリモートで振動を避けます。アクリル押さえを用いる場合は無反射タイプを選び、角は丸めて紙を傷つけないようにします。いずれの機材でも、同一ページで設定だけを変えて3通りほどテストし、拡大表示で筆致、地合い、裏写りの3点をチェックして最適値を決めます。

データ整備と保存設計

スキャン後の価値は、画像の美しさだけでなく「探せる・戻せる・再利用できる」ことにあります。まずは作業の単位を小さく区切り、記録と検証を習慣化します。撮影日や担当、使用機材、設定値を簡単な記録に残し、同じ条件で再現できるようにします。次に、名前の付け方やフォルダの並べ方をチームで共有し、迷わない共通ルールに落とし込みます。最後に、保存形式とバックアップの設計を合わせて決めると、後工程の手戻りが減ります。判断は「後から探せるか」「次の処理に渡せるか」「将来の変更に耐えられるか」の3観点で行い、例外は必ずメモを残します。

ファイル名ルールとメタデータ(属性情報)の付与

ファイル名は「並べた時に意味が通る」ことが第一です。例として、年代_資料種別_作成者_識別ID_頁番号の順を基本にし、桁は0埋めで統一します。具体例は1897-06-12_書簡_山田太郎_0001_p01.tif、同一資料の2ページ目は..._p02.tifのようにします。半角英数・ハイフン・アンダースコアに限定し、空白と全角記号は避けます。差し込みや欠番が出る可能性を見越し、識別IDは4桁以上にします。すべてをファイル名に抱え込まず、メタデータ(属性情報)も併用します。作成年、筆者、所蔵者、公開レベル、関連資料ID、撮影条件(例:600dpi/カラー/レンズ名)などは表計算で台帳に記入し、将来の検索語になるキーワードを日本語とローマ字で併記します。改訂や追記が発生した時は「変更理由」「変更者」「変更日」を台帳に残し、誰が見ても履歴が追える状態を保ちます。

フォルダ整理と版・差分管理の手順

フォルダは性質ごとに分けると混乱が減ります。例として、00_raw(無加工)/10_master(保存マスター)/20_access(閲覧用)/90_docs(手順・記録)の4系統に分けます。00_rawは撮影直後の無加工データをそのまま置き、10_masterは色調整や傾き補正を行った保存用TIFFを入れます。20_accessは閲覧や共有向けに軽量化したJPEGやPDFを置きます。版管理は_v01、_v02のように末尾で管理し、上書きは避けます。差分は「何を直したか」を短文でchange-log.csvに追記し、1件1行で残します。チェックサム(改ざん検知の識別値)はハッシュ値を台帳の行に紐づけ、長期保存する10_masterのみで構いません。作業は「受領→点検→無加工保存→マスター作成→閲覧用変換→検品→台帳反映」の順に小さく回し、1セッションあたり最大100~200ファイル程度に区切ると、確認漏れが減ります。

バックアップ設計(3-2-1ルール)の実装例

バックアップは3-2-1ルール(コピーを3つ、異なる媒体に2つ、オフサイトに1つ)を基本にします。例として、10_masterは外付けSSDとNAS(社内ストレージ)に複製し、さらに暗号化してクラウドに同期します。00_rawは作業完了後10_masterが安定してから段階的に整理し、重要原本の該当分は最低2系統を残します。スケジュールは日次の増分バックアップ、週次の完全バックアップ、月次のオフライン退避(取り外しSSD)を目安にし、四半期に1回は復元テストを行います。復元テストはランダムに3資料を選び、別環境で「台帳参照→検索→取得→開封→チェックサム一致」を確認します。媒体はSSD/HDD/クラウドで性質が異なるため、温度・湿度や通電頻度の管理も記録に残すと、将来の再生率が安定します。

形式特長圧縮典型容量(A4・600dpi)用途の目安注意点
TIFF可逆・高再現、長期保存向き非圧縮/LZWなどグレースケール約20MB、カラー約50MB保存マスターメタデータ記入に対応、容量は大きめ
PNG可逆、画面表示に強い可逆圧縮グレースケール約10MB、カラー約25MBウェブ閲覧・図版多頁連結は不得手、印刷運用は検討
JPEG軽量、共有が容易非可逆圧縮グレースケール約2~5MB、カラー約3~8MB閲覧用・校閲回覧圧縮再保存で劣化、保存原本には非推奨
PDF配布・束ねやすい可逆/非可逆混在可画像数に依存(数MB~)冊子の見開き共有解像度と圧縮設定の記録を残す

検索性と読み取りの向上

画像をきれいに残しても、探し出せなければ活用は進みません。検索性は「台帳(一覧表)の設計」「読み取り(OCR/HTR)の品質」「関連づけの仕組み」で決まります。最初に、検索語として実際に使う言葉を想定します。たとえば「人名」「地名」「年号(西暦・元号)」「資料種別(書簡・帳簿・絵図)」などです。台帳の列と命名規則はこの検索語から逆算し、入力の揺れ(例:齋藤/斎藤)を減らすために選択式のリストを用意します。画像と台帳は同じ識別IDで結び、資料単位・ページ単位の双方で検索できるようにしておくと、校訂や展示準備のスピードが上がります。

台帳(一覧表)とキャプション(説明文)の設計

台帳は「識別ID/資料名/通し番号/年代(西暦・元号)/作成者/所蔵者/形態(和綴じ・巻物など)/サイズ(縦×横mm)/頁数/主な内容語/公開レベル(非公開・限定・公開)/権利メモ/関連ID/撮影条件/チェックサム」のように、実務で使う列を最小限から始めます。入力は10~15列程度に絞り、負担が増えない範囲で拡張します。キャプション(短い説明文)は「誰が・いつ・何を・どこで・なぜ重要か」を120~200字程度で統一し、展示やウェブ公開への転用を想定して語尾や表記をそろえます。年代表記は「1897(明治30)年」のように併記し、地名は旧称と現行名を両方入れると検索ヒットが安定します。入力時は2名でスポットチェックを行い、固有名詞の揺れを一覧で修正します。迷った語はキーワード欄に予備語として登録し、将来の検索漏れを防ぎます。

OCR/HTRの活用と限界、精度確認の方法

OCR(文字の自動読み取り)やHTR(手書き文字の自動読み取り)は検索性を高めますが、万能ではありません。版面が曲がっている、裏写りが強い、行間が狭い、くずし字が多いと精度が下がります。前処理として、傾き補正、明るさとコントラストの軽微な調整、余白の統一を行うと改善が見込めます。精度確認は「母集団からランダムに20頁を抽出→各頁100文字を目視で照合→正答率(正しく読めた割合)を算出」という手順が現実的です。検索用途なら正答率90~95%を一応の目安とし、校訂や全文検索を重視する場合は辞書(用語リスト)を追加し、地名・人名・年号を重点的に学習させます。誤りが頻出する箇所は、画像側の改善(解像度を600~800dpiへ、グレースケール→カラーなど)の方が効果的なこともあります。結果は台帳に「OCR版の有無」「作成日」「想定用途」を記録し、再処理の要否を判断できるようにします。公開時は読み取りテキストをそのまま確定情報と見なさず、閲覧者が原画像を参照できる導線を確保すると誤読リスクが下がります。

委託運用とリスク配慮

外部に委託する場合は、作業品質だけでなく、やり取りの記録、輸送・保管、安全管理を含めて全体を設計します。初回は小さな単位(例:冊子なら先頭から10~20頁、巻物なら代表的な3区間)でテスト委託し、結果を台帳と見比べて合意の基準を詰めます。以降は、同じ基準で再現できるかを確認しながら段階的に拡大します。判断の柱は「再現性(同じ条件で同じ品質が出るか)」「可逆性(後からやり直せるか)」「追跡性(履歴が残っているか)」の3点です。費用は単価だけでなく、再撮ややり直しの発生率、連絡の手間、納期の確度まで含めて比較すると、総コストの差が見えやすくなります。

見積もりの読み方と品質検品の観点

見積書では「作業範囲(非破壊・断裁の可否)」「解像度(画像の細かさ)とカラーモード」「ファイル形式」「命名規則」「台帳記入」「納品媒体」「輸送・保険」「検品・再撮条件」を分けて確認します。数値は具体的に合意します(例:和綴じ冊子は600dpi・グレースケール、朱印を含む頁はカラー/保存マスターはTIFF・LZW、閲覧用はJPEG、見開きPDFも付与)。検品は代表ページを決め、筆致のエッジ、裏写り、色の転び、傾き、周辺落ち、モアレ、ファイル破損の有無などをチェックします。初回は各資料ごとに10頁程度の抜き取り検査に加え、1資料あたり1頁は等倍以上に拡大して微細部を確認します。合格・要再撮の判断基準は文書化し、再撮は無償/有償の境界(例:基準未達は無償、発注側の条件変更は有償)も先に握っておくと後の齟齬が減ります。

セキュリティと搬送手順(受け渡し・追跡・保管)

輸送は「耐圧・防湿・耐振動」の3条件を満たす梱包を基本にし、資料はサイズ別に硬質ボードで補強します。巻物は芯材に緩衝を入れ、横揺れを抑えるように固定します。受け渡し時は点数と状態を双方で記録し、写真を2~3枚ずつ残します。搬送は追跡可能な手段を選び、万一に備えて資料の識別IDと点数を別経路(メール等)で共有します。保管は温度18~22℃、湿度40~55%を目安にし、開封後はできるだけ当日中に点検します。委託先の作業室では入退室の管理、作業中の飲食禁止、原本と複写データの紐づけ記録の整備があるかを確認します。データの授受は暗号化ファイルか専用クラウドを用い、パスワードは別経路通信にします。外付け媒体を使う場合は封緘シールや改ざん痕の分かる梱包を併用し、受領後はチェックサムで整合を取ります。

公開・権利・個人情報の一般的注意と運用更新

公開前には、権利関係と公開レベル(非公開・限定・公開)を台帳に記録します。肖像や第三者情報が含まれる場合、モザイクや公開範囲の限定など、過度に踏み込まない対応を選びます。くずし字の翻刻や注記を付す場合は、原画像と区別できる表示を心がけ、混同を避けます。二次利用方針は「出典表記の方式」「改変可否」「商用可否」を簡潔にまとめ、依頼側・受託側で同じ文言を使うと混乱が減ります。運用は一度決めて終わりではなく、年に1回程度の見直しで、検索語や台帳項目の拡張、バックアップ媒体の更新、公開ポリシーの表現の明確化を行うと、将来の活用が安定します。

項目確認観点推奨基準例証跡(残すもの)
作業範囲非破壊・断裁の可否非破壊前提、開き角度の上限合意仕様書、同意メモ
解像度・色用途別の設定冊子600dpi/朱印頁カラーテスト画像、設定票
形式・命名保存・閲覧の使い分け保存TIFF、閲覧JPEG/PDF、命名ルール固定サンプル、命名表
台帳検索・追跡の可否15列前後で最小構成から開始台帳テンプレ
検品・再撮基準と費用境界基準未達は無償再撮、変更時は協議検査記録、合否表
輸送・保険追跡と補償追跡便+保険付与、別経路で点数共有受領書、梱包写真
セキュリティデータ保護暗号化送受信、媒体は封緘・チェックサム送信ログ、ハッシュ
バックアップ3-2-1の実装SSD+NAS+クラウド、復元テスト四半期実施テスト記録
納期・体制担当・連絡経路担当2名体制、遅延時の代替手順合意連絡網、進捗表

※権利・個人情報・同意に関する記述は一般的な注意喚起であり、特定の事情への法的助言は行いません。必要に応じて専門家への確認をおすすめします。

まとめ

委託の成功は、原本保護の手順と品質基準、データ整備、バックアップ、公開ポリシーまでを一続きの流れとして設計できるかにかかります。最初から完璧を狙うより、テスト委託で合意基準を固め、台帳とセットで再現性を高めると、後工程の手戻りが減ります。判断は必ず具体数で示し、例外は記録に残します。年度ごとに見直しを行い、環境や機材の更新、公開方針の改定を反映させると、長期の運用でも品質が揺らぎにくくなります。

再確認チェックポイント

最初に見るべきポイントは次のとおりです。作業環境(温度18~22℃・湿度40~55%)が保たれているか、資料ごとの開き角度と押さえ方法が合意されているか、用途別の解像度・カラーモードが具体数で固定されているか、保存マスターの形式と命名規則が台帳と一致しているか、3-2-1バックアップと復元テストの計画があるか、再撮・やり直しの境界が見積書で明文化されているか、公開レベルと権利メモが台帳に入っているかを、受注前に一覧で確認します。抜けがあれば小さくテストしてから本番に進みます。

小さく始めて見直す手順

初回は代表資料でテスト委託→検品で合否表を作成→合意基準を更新→小ロット本番→四半期で復元テストと公開導線の点検、というサイクルを回します。各サイクルで「不具合の再現条件」「改善後の再現性」「台帳と画像の突合」を確認し、次回の見積条件に反映します。担当は最低2名で相互チェックし、判断に迷う箇所は「保留→記録→後日検討」の流れを用意すると、作業が止まらず前に進みます。年度末には、失敗例と成功例を各3件ずつ振り返り、次年度の基準値(解像度、照明、命名、公開方針)を更新します。

コメント

この記事へのコメントはありません。

CAPTCHA


関連記事

文書を長く活かす PDF/A 保存 方法 アーカイブの実務基準と手順

資料を正確に残すためのOCR

現場で迷わない図面、大判スキャン実務ガイド【保存と展示の品質基準】

PAGE TOP