Flitto DataLab

OCRエンジンの性能、人間の目により近く

Flitto DataLabのグローバルネットワークにより収集されたデータセットを通じて、OCRエンジンの読み取り能力をより完璧に向上させられます。手記で作成されたメニューブック画像と、カリグラフィーからプリントされた画像、そして道路上の標示板まで、Flitto DataLabがご提供するデータセットがOCRエンジンに無限の可能性をお届けします。

データサンプルをご覧になりたい方はこちら

手書き画像のデータセット
Flitto DataLabは、多様な背景と媒体、鮮明度、多様な言語に対する手書き(ハンドライティング)画像のデータセットをご提供し、特定のサービスに必要な実際の事例条件を考慮し、カスタマイズしてご提供いたします。Flitto独自のプラットフォーム上のユーザーたちの活動により構築された多様な手書きとカリグラフィーデータセットを通じて、OCRエンジンの性能に飛躍的な向上をもたらすことができます。
保有データを確認する
印刷されたテキスト画像のデータセット
印刷されたテキスト画像は随所に存在します。したがって、これを完璧に識別できれば、OCR基盤のサービスは大きな力を得ることになるでしょう。Flitto DataLabがご提供するデータセットなら、OCRエンジンの印刷テキスト検出及び認識率を大幅に向上できます。テキストの抽出、文書の分析及び情報検索が求められる多様なサービスに適用できます。
保有データを確認する
カスタマイズ型テキスト画像のデータセット
特定の目的の製品及びサービスに適用されるOCRエンジンの場合、その目的に適した条件のカスタマイズ型画像の構築を含めたAIエンジンの学習過程を通じて、幾何級数的に成長させられます。Flitto DataLabは、曲線型のテキスト看板、電子機器のテキスト、各種チラシと看板、食品包装材、レストランのメニューブックなどの高品質の非定型テキスト画像のデータセットを構築し、ご提供いたします。
バウンディングボックス作業
Flitto DataLabは、OCRシステムで生成された画像を精密に分割し、分析できるバウンディングボックスのプロセスをご提供いたします。バウンディングボックス処理は画像分析の自動化を可能にし、データ処理の速度と効率性を大幅に向上できます。サービスに不可欠なOCR読み取りの正確性と信頼性を保証するにあたって非常に重要な要素となります。
トランスクリプション&メタデータ
Flitto DataLabがご提供するトランスクリプションとメタデータには、テキストに関する追加情報及び前後の文脈が全て含まれるため、OCRアルゴリズムの性能向上を通じた正確な認識及び処理につながります。トランスクリプションとメタデータの組み合わせは、画像や非標準のフォントなどの不明確なテキストに対するインデックス化及び検索を容易にし、情報をより迅速かつ効率的に検索できるようにします。
OCR学習用アラビア語データ
Flitto DataLabは、1300万人のユーザーを持つ統合プラットフォームを通じて、手書きまたは印刷されたアラビア語のテキストイメージ、アラビア語の手書き、シーンテキストイメージデータ、筆記体のテキストイメージなど、幅広いテキストイメージデータを提供しています。Flittoの画像データの収集は、アラビア語圏のFlittoのグローバルプラットフォームのユーザーと社内のアラビア語言語学者の協力によって支えられており、OCR用の高品質なアラビア語の画像データを提供しています。また、Flitto DataLabは、ベトナム語、ヒンディー語、タイ語、スワヒリ語など、人工知能のトレーニングデータプールでしばしば見落とされがちな他の言語のニーズにも対応しています。現在利用可能な量を超えて、多様な言語データを活用してAIのトレーニングを豊かにすることを目指しています。

Flitto DataLabとともに、ポテンシャルを最大限に引き出してみませんか。

翻訳コーパス(並列コーパス)
Flitto DataLabのデータセットで機械翻訳エンジンのポテンシャルを引き出してみませんか。
詳しく見る
その他自然言語処理(NLP)サービス
Flitto DataLabの自然言語処理サービスについて、より詳しくご確認いただけます。
詳しく見る

より詳しく知りたい方はこちらへ

保有データ
Flitto DataLabのデータセットライブラリーがどのように人工知能サービスに革新をもたらすことができるかその違いをお確かめください。
詳しく見る
データ構築プロジェクト
ターゲット層の顧客をピンポイントにターゲティングするカスタマイズ型のデータ構築プロジェクトをFlitto DataLabとともに始めてみませんか。

OCRエンジンの性能、人間の目により近く

手書き画像のデータセット

印刷されたテキスト画像のデータセット

カスタマイズ型テキスト画像のデータセット

バウンディングボックス作業

トランスクリプション&メタデータ

OCR学習用アラビア語データ

Flitto DataLabとともに、ポテンシャルを最大限に引き出してみませんか。

翻訳コーパス(並列コーパス)

その他自然言語処理(NLP)サービス

より詳しく知りたい方はこちらへ

保有データ

データ構築プロジェクト