光学的文字認識は、画像処理およびマシンインテリジェンスにおいて未だに最も困難な分野の 1 つに数えられています。考えられる文字と、文字を各種の表面に印刷する手法が多岐にわたるということだけから、どれほどの困難を伴うかがうかがえます。このような複雑な視覚データを構造化された鮮明なテキストに変換するには、埃、反射、固体材料上のキズ、エンボス加工、レーザー刻印による形状エラーなどの困難が伴います。さらに、重なった文字や不完全な文字、全般的にピクセルが低解像度の画像データがあると、文字同士を相互に区別することが困難になります。たとえば、8 を 3 と誤認してしまいます。画像処理市場は、テキスト認識の精度と信頼性を向上させようと常に進化しています。では、OCR システムを選択する際の決め手とは何でしょうか。

再現可能な精度を持つ包括的なデータベース

決定力を得るには、OCR は最初から簡単に機能し、高い読み取り性能を発揮しなければなりません。これには、多数の多様なトレーニング画像で事前トレーニングされた、適切に開発されたネットワークアーキテクチャが必要です。ここでは、実世界の用途からの状況が、合成データの使用と同様に欠かせません。これにより、多数の特殊ケースとバリエーションを学習できるだけでなく、関連する特徴をより確実に認識できるようになります。つまり、特に産業オートメーションにおいては、すべてが確実でなくてはならないのです。

そこで登場するのが、産業用画像分析向け AI ビジョンソリューションである DENKnet です。主な AI テクノロジーに加えて、ユーザーは極めて高性能で常に進化する OCR モデルを利用できます。すべての開発ステップは厳格にバージョン管理されているので、アプリケーション開発者は定義されたバージョンにフォールバックできます。さらに、改良された新しいバージョンにアップデートして、汎用で確実な読み取り機能を常に利用することもできます。品質管理のために、トレーニングされたネットワークのパフォーマンスと再現性を、本番システムを新しいソフトウェアでアップグレードする前に、品質センターにおいてサンプルデータセットでテストおよび検証できます。

DENKnet OCRの使用事例

DENKnet OCR は、微調整をしなくても、多数の用途で非常に高い信頼性で読み取ります。たとえば、コントラストの低いタイヤ番号、王冠上のゆがみの強い小さな数字、表面が不均一で重なりの多いセパレーティングディスク上の情報などを読み取れます。

瓶のコルク栓上の生産番号は、総型工具によって不均一にゆがめられているので、機械での読み取りが困難です。
瓶のコルク栓上の生産番号は、総型工具によって不均一にゆがめられているので、機械での読み取りが困難です。
車のタイヤの DOT 番号の OCR
タイヤの DOT 番号にはほぼコントラストがありませんが、それでも 91% の信頼度で読み取ります
セパレーティングディスク上の文字列の OCR
プリント品質が低いため、セパレーティングディスク上のテキストは人間でも読み取りが困難です

Transformer と大規模言語モデルについて

優れた OCR のもう 1 つの特長は、個々の文字のみを認識するのではなく、文字間の関係を認識できることです。シリアル番号や単語など、文字列の場合、文字認識の際にこの知識を利用します。優れた OCR は後続する文字を予測して、それに従って結果の重み付けできるので、より確実で正確な特殊用途に対応できます。ChatGPT で使用されているような、Transformer ネットワークまたは大規模言語モデル (LLM) の生成と組み合わせの特性は、このような予測に多大な影響力を持ち、読み取り品質にも影響します。しかし、このようなアーキテクチャは実行が遅くなり、多数のシステムリソースが必要であることを考慮しなければなりません。このため、顧客の使用例の要件を最大限にサポートするためにこのような最先端のテクノロジーを正しい範囲で使用することが、一層重要になります。特にオートメーションの分野では、画像処理は秒単位ではなく、ミリ秒単位で行う必要があります。トレーニングされたニューラルネットワークは高速でありながら軽量を維持し、「通常」のハードウェアで実行できなければなりません。実用的な使用で高い認識精度と速度を得るためにほとんど無限のシステムパフォーマンスが必要なら、アプリケーションはコスト面で実現がほぼ不可能です。

「AI を小型化することで、実行速度を高速化し、コストを抑えるというトレンドがあります」

— Daniel Routschka、人工知能担当セールスマネージャー、IDS Imaging Development Systems GmbH —

シンプルな修正と再トレーニング

OCR が文字の読み取りに失敗すると、その理由がエラーでも未知の文字、フォント、言語であっても、ユーザーが読み取り結果を修正できる、または新しい文字があれば簡単にトレーニングできることが重要です。しかし、このような微調整は単にネットワークの「トレーニング継続」の問題ではありません。たとえば、OCR モデルがすでに 2 万枚の画像でトレーニング済みで、ユーザーが OCR モデルにさらに数枚の画像で新しいものを学習させたいとします。すべてを変えてしまわずに違いを出すには、このような情報にモデルでどのような重みを付与すべきでしょうか。このとき、以前の安定した認識がこのような調整の悪影響を受けないように AI を拡張するためにプロバイダーの専門知識が必要とされます。例:ある理由から OCR には数字の読み取りに問題があり、トレーニングプロセス中にユーザーは数字に注釈を付けますが、文字には付けません。目標は、インテリジェントな「知識のバックアップ」を使用して、文字の読み取りが不要だと認識することでこのネットワークが数字を正常に読み取るだけにしないことです。

そこで DENK Vision AI Hub は、DENKnet OCR を微調整するときに、ネットワークを再トレーニングして適切な重み付けをするため、すべての新しい画像に対して適切な合成データを生成します。これにより、トレーニングの継続期間にかかわらず、OCR の以前の能力は損われません。同時に、クラウドベースのトレーニングをバックグラウンドで実行するので、「再トレーニング」は Vision AI Hub のユーザーにとって容易かつ高速で、パフォーマンスが高いままです。最適なシナリオでは、OCR の基本スキルが高く、ユーザーは再トレーニングする必要はまったくありません。

ラベル訂正と OCR モデルの再トレーニングのプロセス
DENK Vision AI Hub での DENKnet OCR の微調整にはユーザー操作はほぼ不要で、読み取り品質をすばやく向上できます。

クラウドでのトレーニングのメリット

DENK Vision AI Hub のすべての機能とサービスは、すべてクラウドテクノロジーに基づいています。そのため、ユーザー固有の画像データの微調整は常に更新されて制御されるソフトウェアをベースに行われます。ローカルハードウェアシステム上のソフトウェアバージョンには依存しません。ここで使用できる OCR モデルは、技術的なバックエンドでの継続的な開発のおかげで、すでに解決されている問題への対応力が強まっていきます。この結果、多大な調整や追加トレーニングを行わなくても、使用できるカスタムアプリケーションが増えていきます。「Play を押す」は DENKcloud のジョブで、さまざまなアーキテクチャの多数の適切なネットワークモデルをバックグラウンドでトレーニングし、最適な結果をユーザーに提供します。

クラウドソリューションにはサポートケースでユーザーにとって付加価値もあります。未知の文字など、ユースケースでデータに問題がある場合、バックエンドの技術サポートがすばやく修正を提供し、認識パフォーマンスを改善できます。データのエクスポートやインポートが不要で、別のビルドシステムやソフトウェアバージョンによる異なる結果を招くリスクがなく、ネットワークアーキテクチャに変更を施したり、追加の合成データの生成を最適化したりすることができます。これを顧客のユースケースで直接実行でき、時間を無駄にしません。機密データを送付する必要がないことも、不正アクセスのリスクの最小化に役立ちます。

単一のソースから得られるシンプルで優れたコスト効率の OCR

AI ビジョン環境の OCR ソリューションのプロバイダーは数多く、最適なネットワークに向けた競争は熾烈です。熟練したユーザーにとって、多数のオープンソースツールと公開されたネットワークアーキテクチャもあり、初期エクスペリエンスをすばやく実現して結果をすばやく達成するために使用できます。ただし、AI テクノロジーや最新のネットワークおよび大規模ビジョンモデルをどのように低コストで効率的に使用して組み合わせるかについて詳細な技術的知識がなければ、多数の OCR タスクは未解決のままです。

産業用カメラメーカー IDS はそうではありません。AI ビジョンソリューション DENKnet とともに、高速で信頼できるコスト効率に優れた OCR タスク向けのすべての画像処理コンポーネントを、単一のソースから提供できます。これがうまく機能するので、お客様にとってメリットになります。そして、試すのは無料です。[PLAY] を押すだけです。

DENKnet OCR - 違いを生み出す

  • 合成データ - 新しい画像がアップロードされるたびに、画像のバリエーションが自動的に生成され、体系的にモデルの機能を拡張して強化します。
  • 使いやすさ + 時間短縮 - 「自動予測」や「ワンクリックアノテーション」などの直感的なツールは事前知識が不要で、テスト、準備、メンテナンスの時間が短縮されます。
  • 最先端のテクノロジー - Transformer や大規模言語モデルなど、最新のネットワークアーキテクチャの知識を継続的に DENKnet OCR の開発に取り入れます。
  • スマートアーキテクチャ - 完全に自動化されたトレーニングで、タスクに最も適切なアーキテクチャを独立して選択します。
  • クラウドトレーニング - 最先端のテクノロジーとネットワークベースの継続的な改善で、常に最新の状態です。
  • 高速でコスト効果の高いローカル実行 - 目標は、閉じたアプリケーション環境のローカル実行のための、最適化された正確かつリーンで、高速なモデルです。