손글씨 이미지 데이터셋
플리토 데이터랩은 다양한 배경과 매체, 선명도, 다양한 언어에 대한 손글씨(핸드라이팅) 이미지 데이터셋을 제공하며, 특정 서비스에 필요한 실제 사례 조건을 고려하여 맞춤식으로 제공합니다. 플리토 자체 플랫폼 유저들의 활동으로 구축된 다양한 손글씨와 캘리그래피 데이터셋을 통해 OCR 엔진 성능에 비약적인 향상을 가져올 수 있습니다.
인쇄된 텍스트 이미지 데이터셋
인쇄된 텍스트 이미지는 도처에 존재합니다. 따라서 이를 완벽하게 식별할 수 있다면 OCR 기반의 서비스는 큰 힘을 얻게 될 것입니다. 플리토 데이터랩이 제공하는 데이터셋으로 OCR 엔진의 인쇄 텍스트 감지 및 인식율을 크게 향상시킬 수 있습니다. 텍스트 추출, 문서 분석 및 정보 검색이 필요한 다양한 서비스에 적용될 수 있습니다.
맞춤형 텍스트 이미지 데이터셋
특정 목적의 제품 및 서비스에 적용되는 OCR 엔진의 경우 그에 필요한 조건의 맞춤형 이미지 구축을 포함한 AI 엔진 학습 과정을 통해 기하급수적으로 성장시킬 수 있습니다. 플리토 데이터랩은 곡선형 텍스트 간판, 전자 기기의 텍스트, 각종 전단지와 상점 간판, 식품 포장재, 레스토랑 메뉴판 등 고품질의 비정형 텍스트 이미지 데이터셋을 구축하고 제공합니다.
바운딩 박스 작업
플리토 데이터랩은 OCR 시스템에서 생성된 이미지를 정밀하게 분할하고 분석할 수 있는 바운딩 박스 과정을 제공합니다. 바운딩 박스 처리는 이미지 분석의 자동화를 가능하게 하고 데이터 처리의 속도와 효율성을 크게 향상시킬 수 있습니다. 서비스에 필수적인 OCR 판독의 정확성과 신뢰성을 보장하는 데 매우 중요한 요소입니다.
트랜스크립션 & 메타데이터
플리토 데이터랩이 제공하는 트랜스크립션과 메타데이터는 텍스트에 대한 추가 정보 및 전후 상황을 모두 제공함으로써 OCR 알고리즘의 성능 향상을 통한 정확한 인식 및 처리로 이어집니다. 트랜스크립션과 메타데이터의 조합은 이미지나 비표준 폰트 등 불명확한 텍스트에 대한 색인화 및 검색을 용이하게 하여 정보를 더 빠르고 효율적으로 검색할 수 있게 해 줍니다.
OCR 학습용 아랍어 데이터
플리토 데이터랩은 전 세계 1300만 유저들과 함께 하는 플랫폼을 기반으로, 아랍어 손글씨와 인쇄물을 포함한 텍스트 이미지, 아랍어 캘리그라피, 사진 속 텍스트 이미지, 필기체 이미지 등 다양한 이미지 데이터를 제공합니다. 플리토 플랫폼 유저들과 아랍어 링귀스트 간 협업을 통해 고품질 아랍어 이미지 데이터 제공을 약속합니다. 또, 플리토 데이터랩에서는 베트남어, 힌디어, 태국어, 스와힐리어 등 AI 학습용 데이터셋에서 상대적으로 부족한 저자원 언어들의 데이터 구축이 가능합니다. 현재 가용한 데이터 이상으로 다양한 언어 데이터를 구축함으로써 언어 인공지능의 성능 향상에 기여하고자 합니다.
플리토 데이터랩과 함께 잠재력을 무한 확장하세요
번역 말뭉치(병렬 코퍼스)
플리토 데이터랩의 데이터셋으로 기계번역 엔진의 잠재력을 확장해 보세요
기타 자연어 처리(NLP) 서비스
플리토 데이터랩의 자연어 처리 서비스에 대해 더 많은 정보를 얻어보세요.
더 많은 정보를 찾고 계세요?
보유 데이터
플리토 데이터랩의 데이터셋 라이브러리가 인공지능 서비스의 혁신을 어떻게 가져올 수 있는지 그 차이를 확인해 보세요.
데이터 구축 프로젝트
원하는 고객을 정확히 타겟팅하는 맞춤형 데이터 구축 프로젝트를 플리토 데이터랩과 함께 시작해 보세요.