For more information, see our Privacy Statement. We use optional third-party analytics cookies to understand how you use GitHub.com so we can build better products.

Copyright THE MAINICHI NEWSPAPERS. Instantly share code, notes, and snippets. お使いのブラウザがJavaScriptがオフになっている場合、正しく閲覧できない場合があります。, 防衛省が過去に国会で「不存在」と説明していた、陸上自衛隊のイラク派遣時の日報が見つかった問題をまとめます。, 防衛省が国会で「不存在」としていた陸上自衛隊イラク派遣時の日報が見つかった問題で、制服組トップの河野克俊統合幕僚長は24日の記者会見で「シビリアンコントロール…, 23日に公表された陸上自衛隊のイラク派遣部隊の日報を巡る内部調査報告書を受けて、防衛省は事務方と制服組のトップを含む17人を処分し、一定のけじめをつけた。しか…, 防衛省が国会で「不存在」としていた陸上自衛隊イラク派遣時の日報が見つかった問題で、同省は23日、陸自研究本部(現在の教育訓練研究本部)が昨年3月に発見した日報…, 防衛省が国会で「不存在」としていた陸上自衛隊イラク派遣時の日報が見つかった問題を巡り、同省は23日、陸自研究本部(現在の教育訓練研究本部)の教訓課で昨年3月に…, 公明党の山口那津男代表は21日、東京都内の講演で、防衛省が23日に陸上自衛隊の日報問題に関する調査結果を公表する予定だと明かした。自民党幹部も「23日に公表さ…, ◇「非戦闘地域」 膨らむ疑念 防衛省が16日に公開した陸上自衛隊イラク派遣時の日報は、宿営地への攻撃が相次ぐなど現地の治安情勢が悪化した2004年春~05年初…, イラクの日報と同様に「ない」とされていた南スーダンの日報を情報公開請求し、隠蔽(いんぺい)問題が発覚するきっかけを作ったジャーナリストの布施祐仁(ゆうじん)さ…, 防衛省が16日に公表した陸上自衛隊イラク派遣時の日報。計435日分に記載された事案の多くは当時から報道されてきた内容が中心だが、陸自部隊が活動していた南部サマ…, 防衛省が公開した陸上自衛隊イラク派遣部隊の日報(435日分、1万4929ページ)の重要部分のPDFを掲載します。, 毎日新聞のニュースサイトに掲載の記事・写真・図表など無断転載を禁止します。著作権は毎日新聞社またはその情報提供者に属します。 PDFからJPGへの変換はMacで複数ページのpdfを一括でjpegにコマンドラインで変換する – 或る阿呆の記の方法で行いました。 OCRにはGoogle Cloud Vision APIを使いました。 イラク復興支援群の日報370日分約8000ページをOCRにかけたコストは約1,000円でした。 イラク日報のpdfについて ページサイズとしてはほぼA4。 どうやらA4画像を200dpiでスキャンした画像(1640x2339 pixel)を含んでいる。 The Python. Clone with Git or checkout with SVN using the repository’s web address. 防衛省が公開した陸上自衛隊イラク派遣部隊の日報(435日分、1万4929ページ)の重要部分のPDFを掲載します。 (2018年04月16日 21:42) |< トップ

they're used to log you in. GitHub Gist: instantly share code, notes, and snippets. | 陸自イラク日報ファイル別ページ数一覧.

Learn more. JSONデータはDBにぶち込むほうが使い勝手がいいだろうとは思いますが、どっちにしろ出遅れているので違う方向で。, 現状のGoogle Cloud Vision APIのOCR機能は認識結果データとして2種類のデータを返してくる。, 文書構造の情報なし(textAnnotations)とあり(fullTextAnnotation)の2パターン。, 問題はOCR結果に含まれる位置情報の座標系は左上原点系だけど、PDF内部では左下原点系であること。, もう一点は単位の違い。画像はピクセル単位だけどPDF内部ではポイント(pt、72dpi相当なので1ポイント=1/72inch)またはcmなどの用紙サイズ由来の単位になる。, 文字サイズについても考慮してやらないと位置がずれてしまう。PDF側は72dpi、OCR結果は画像に変換するためのpdf2imageというライブラリのデフォルトが200dpiなのでそのまま200dpi。, 文字サイズの換算は 、OCR結果のJSONデータから確認式領域の左上と左下の頂点座標の差を取って、200dpi / 72dpiの比率を掛ければそこそこ良い値になっている。, ページサイズとしてはほぼA4。どうやらA4画像を200dpiでスキャンした画像(1640x2339 pixel)を含んでいる。, PDFのサイズ情報としては593.3x842.04という中途半端な値(単位はポイント)。標準的なPDFは595x842というケースが多いんだけど……。, スキャンする時に微妙に用紙がはみ出したのか。MediaBoxの値が複数あるのも気持ち悪いけど。, PDFを画像化したもの(200dpi, 1640x2339)をGoogle Cloud Vision APIでOCR処理している。OCR結果のJSONデータは文字の認識位置を1640x2339の画像上で左上が原点の座標データとなっている(過去記事参照)。, 座標系の変換処理としてy座標の原点が上下逆なので変換した上で比率をあわせる必要がある。, 既存のPDFの分割やつなぎ合わせであればPyPDF2でもできるみたいだけど、文字を追加したり画像を追加するにはReportLabが一番確実。, Python 2.xのページが結構引っかかるが、概ねメソッドの名称などは同じなのであまり気にしなくてもなんとかなる。, ReportLabの画像埋め込みメソッドが画像データではなく画像ファイルのパスを要求する点がネック。, デバッグ用に文字色を赤色にしているので実際に使うなら透明度の値(alpha=)を0に。, プログラムの解説は流石に力尽きましたってことで。元データのPDFをpdfディレクトリに、JSOSNデータをjsonディレクトリにそれぞれ対応するサブディレクトリ、ファイル名で格納しておく必要があります。, 簡単に見えて地味にめんどい。文字認識の取りこぼしのチェック手段としてはやはり画像に文字を重ねてやるのが一番。, やっかいなのは文字と文字の間の空白が除去されている箇所と、逆に文字列としては認識されずに分離している箇所。分離されて認識しているケースの場合、そういう箇所は検索してもヒットしない。また、まとめてテキストを選択できるんだけど間にスペースが入ってしまう。, 某社のOCR製品のAmazonのレビュー欄にもテキスト間のスペースの問題はしてきされていたのでGoogleのAPIだけの問題ではないんだけど。 Learn more. they're used to gather information about the pages you visit and how many clicks you need to accomplish a task. 画像データは(株)フォーカスシステムズの電子透かし「acuagraphy」により著作権情報を確認できるようになっています。.

All rights reserved. 文字を検出した領域同士の距離によってはグループ化する処理をいれてもいいかも。その場合、用紙の傾きの補正とかちゃんとやる必要がある。, 文字と文字の間の空白が除去されるパターンは、N-gramデータの辞書か何かにある単語の場合だけスペースを除去するロジックが入ってるんだろうと思う。, OCRのミスのある状態でPDFにテキストを埋め込んでもしょうがないのでひとまず休止予定。, atuyosiさんは、はてなブログを使っています。あなたもはてなブログをはじめてみませんか?, Powered by Hatena Blog