데이터 세트 분할 방법 및 절차 pdf

C++ 을 사용하여 Word, PDF 분할

이 소프트웨어 라이브러리는 C++ 개발자에게 Word, PDF, EPUB, HTML, DOCX 문서를 부분으로 분할하는 기능 세트를 제공합니다. 텍스트를 별도의 파일로 분할하면 문서 섹션으로 더 쉽게 작업할 수 있습니다. 문서 분할 절차는 데이터를 자동화된 정보 시스템 또는 데이터베이스에 통합하는 기술의 일부일 수 있습니다.

우리 라이브러리는 C++ 개발자에게 문서에 필요한 모든 기능을 제공하고 지정된 모드에 따라 문서 페이지를 추출합니다. 이것은 Microsoft Word, Acrobat Reader 또는 기타 응용 프로그램을 설치할 필요가 없는 독립 실행형 C++ 솔루션입니다.

C++ 코드에서 다른 기준을 사용하여 문서 내용을 분할합니다. '제목으로 분할', '섹션으로 분할', '페이지별로 분할', '페이지 범위별로 분할'과 같은 페이지 추출 모드를 사용할 수 있습니다.

문서를 분할한 후 'Document.Save' 메소드를 사용하여 필요한 파일 형식으로 결과를 내보낼 수 있습니다. 출력 스트림을 리디렉션할 수 있는 'DocumentPartSavingCallback' 속성을 사용하여 문서 부분을 HTML 또는 EPUB 형식으로 내보내는 방법을 제어할 수도 있습니다.

C++ 용 솔루션으로 문서를 쉽게 분할하세요. 다음 예는 C++:

C++에서 Word, PDF, HTML 및 기타 파일 형식을 분할하는 방법

  1. 프로그래밍 방식으로 문서를 분할하려면 C++ 라이브러리를 설치하세요.
  2. C++ 프로젝트에 라이브러리 참조를 추가합니다(라이브러리 가져오기).
  3. C++에서 소스 문서를 엽니다.
  4. 문서에서 특정 페이지를 추출하려면 'ExtractPages()' 메서드를 호출하세요.
  5. 문서 분할 결과를 별도의 파일로 가져옵니다.

파일을 분할하는 C++ 라이브러리

개발자 환경에 Aspose.Words for C++ 를 설치하는 세 가지 옵션이 있습니다. 귀하의 요구 사항과 유사한 것을 선택하고 단계별 지침을 따르십시오.

  • NuGet 패키지를 설치합니다. 문서 참조
  • Visual Studio IDE 내에서 Package Manager Console 사용하여 라이브러리 설치
  • Windows Installer를 사용하여 수동으로 라이브러리 설치

시스템 요구 사항

이 C++ 라이브러리를 사용하여 Microsoft Windows, Linux 및 macOS 운영 체제에서 소프트웨어를 개발할 수 있습니다:

  • GCC >= 6.3.0 및 Clang >= 3.9.1 이 필요합니다.
  • Xcode >= 12.5.1, Clang 및 libc++ 가 필요합니다.

Linux 또는 macOS용 소프트웨어를 개발하는 경우 제품 설명서 fontconfig 및 mesa-glu 오픈 소스 패키지)에 대한 정보를 확인하십시오.

데이터 세트 생성

데이터세트에는 모델을 학습시키고 테스트하는 데 사용하는 이미지와 할당된 레이블이 포함되어 있습니다. Lookout for Vision 콘솔이나CreateDataset작업 데이터셋 이미지는 생성하려는 모델 유형 (이미지 분류 또는 이미지 분할) 에 따라 라벨을 지정해야 합니다.

주제

  • 데이터셋용 이미지 준비
  • 데이터 세트 생성
  • 로컬 컴퓨터에 저장된 이미지를 사용하여 데이터세트 만들기
  • Amazon S3 버킷에 저장된 이미지를 사용하여 데이터 세트 생성
  • Amazon을 사용하여 데이터 세트 만들기 SageMakerGround Truth 매니페스트

데이터셋용 이미지 준비

데이터세트를 만들려면 이미지 컬렉션이 필요합니다. 이미지는 PNG 또는 JPEG 형식 파일이어야 합니다.

단일 데이터세트 프로젝트를 사용하는 경우 학습을 시작하려면 다음이 필요합니다.

  • 일반 물체의 이미지가 20개 이상

  • 변칙 객체 이미지 10개 이상

  • 이미지 분할 모델의 경우 각 예외 항목 유형의 이미지가 20개 이상 필요합니다. 각 이미지에는 한 가지 유형의 이상 현상만 포함되어야 합니다.

별도의 훈련 및 테스트 데이터 세트를 사용하는 경우 학습을 시작하려면 다음이 필요합니다.

  • 훈련 데이터세트의 일반 객체 이미지가 10개 이상 있어야 합니다.

  • 테스트 데이터셋의 일반 객체 이미지 10개 이상 및 변칙 객체 이미지 10개 이상

  • 세분화 모델을 만드는 경우 각 데이터셋에는 각 이상 항목 유형의 이미지가 10개 이상 필요합니다. 각 이미지에는 한 가지 유형의 이상 현상만 포함되어야 합니다.

더 높은 품질의 모델을 만들려면 최소 이미지 수보다 많은 이미지를 사용하십시오. 세분화 모델을 만드는 경우 여러 가지 이상 유형이 있는 이미지를 포함하는 것이 좋지만 이러한 이미지가 Lookout for Vision Vision이 학습을 시작하는 데 필요한 최소값에는 포함되지 않습니다.

이미지는 단일 유형의 객체여야 합니다. 또한 카메라 위치, 조명 및 객체 포즈와 같은 일관된 이미지 캡처 조건을 갖추어야 합니다.

프로젝트의 모든 이미지는 크기가 같아야 합니다.

모든 훈련 및 테스트 이미지는 고유한 이미지여야 하며, 가급적이면 고유한 물체의 이미지여야 합니다. 일반 이미지는 분석 대상 물체의 일반적인 변형을 캡처해야 합니다. 변칙 이미지는 다양한 이상 징후 샘플을 캡처해야 합니다.

Amazon Lookout for Vision Vision에서는 사용자가 사용할 수 있는 예제 이미지를 제공합니다. 자세한 내용은 예제 이미지 준비을 참조하세요.

이미지 제한은 단원을 참조하십시오.Amazon Lookout for Vision Vision의 할당량.

데이터 세트 생성

프로젝트의 데이터세트를 만들 때 프로젝트의 초기 데이터세트 구성을 선택합니다. 또한 Lookout for Vision Vision에서 이미지를 가져올 위치를 선택할 수도 있습니다.

프로젝트의 데이터세트 구성 선택

프로젝트에서 첫 번째 데이터 세트를 생성할 때 다음 데이터 세트 구성 중 하나를 선택합니다.

  • 단일 집합— 단일 데이터셋 프로젝트는 단일 데이터세트를 사용하여 모델을 학습하고 테스트합니다. 단일 데이터 세트를 사용하면 Amazon Lookout for Vision Vision에서 학습 및 테스트 이미지를 선택할 수 있으므로 학습이 간소화됩니다. Amazon Lookout for Vision 교육 중에 내부적으로 데이터 세트를 교육 데이터 세트와 테스트 데이터 세트로 분할합니다. 분할된 데이터 집합에는 액세스할 수 없습니다. 대부분의 시나리오에서 단일 데이터세트 프로젝트를 사용하는 것이 좋습니다.

  • 별도의 학습 및 테스트 데이터 세트— 교육, 테스트 및 성능 튜닝을 더 세밀하게 제어하려는 경우 별도의 교육 및 테스트 데이터 세트를 포함하도록 프로젝트를 구성할 수 있습니다. 테스트에 사용되는 이미지를 제어하려는 경우 또는 사용할 벤치마크 이미지 집합이 이미 있는 경우에는 별도의 테스트 데이터세트를 사용하십시오.

기존 단일 데이터세트 프로젝트에 테스트 데이터세트를 추가할 수 있습니다. 그러면 단일 데이터셋이 학습 데이터셋이 됩니다. 별도의 학습 및 테스트 데이터세트가 있는 프로젝트에서 테스트 데이터세트를 제거하면 해당 프로젝트는 단일 데이터셋 프로젝트가 됩니다. 자세한 내용은 데이터 세트 삭제을 참조하세요.

이미지 가져오기

데이터세트를 생성할 때 이미지를 가져올 위치를 선택합니다. 이미지를 가져오는 방법에 따라 이미지에 이미 레이블이 지정되어 있을 수 있습니다. 데이터세트를 만든 후 이미지에 레이블이 지정되지 않은 경우 을 참조하십시오.LABeling.

데이터세트를 생성하고 다음 방법 중 하나로 데이터세트를 생성합니다.

  • 로컬 컴퓨터에서 이미지 가져오기. 이미지에는 라벨이 붙어 있지 않습니다. Lookout for Vision 콘솔을 사용하여 추가하거나 레이블을 지정할 수 있습니다.

  • S3 버킷에서 이미지 가져오기. Amazon Lookout for Vision 폴더 이름을 사용하여 이미지에 레이블을 지정하여 이미지를 분류할 수 있습니다. 사용normal일반 이미지의 경우. 사용anomaly변칙 이미지용. 세그먼트 레이블을 자동으로 할당할 수는 없습니다.

  • 아마존 가져오기 SageMaker Ground Truth 매니페스트여기에는 레이블이 지정된 이미지가 포함됩니다. 자체 매니페스트 파일을 만들고 가져올 수 있습니다. 이미지가 많으면 이미지 사용을 고려해 보세요. SageMaker Ground Truth 트루스 라벨링 서비스. 그런 다음 Amazon에서 출력 매니페스트 파일을 가져옵니다. SageMaker Ground Truth S 필요에 따라 Lookout for Vision 콘솔을 사용하여 레이블을 추가하거나 변경할 수 있습니다.

데이터세트를 만든 후 이미지에 레이블이 지정되면 다음을 수행할 수 있습니다.모델 학습. 이미지에 라벨이 붙어 있지 않은 경우 만들려는 모델 유형에 따라 라벨을 추가하세요. 자세한 내용은 LABeling을 참조하세요.

기존 데이터셋에 더 많은 이미지를 추가할 수 있습니다. 자세한 내용은 데이터세트 업데이트을 참조하세요.