/
모델 생성/평가/테스트/적용

문서 최신화를 위해서 변경된 부분 또는 수정할 부분이 발견되면 발견자가 꼭! 수정해주시기 바랍니다. !!!

모델 생성/평가/테스트/적용

개요
모델

목차

 

모델 생성 (= 분류모델 = 자동분류모델 = 비교학습)

  • 비교학습 프로세스
    : 불용어 제어 → Tokenizer로 토픽 추출 → 비교학습점수 생성

  • 비교학습 생성 옵션

하이퍼파라미터 유형

설명

추천값

하이퍼파라미터 유형

설명

추천값

1

단어 추출건수

 

 

2

복합단어 추출건수

 

 

3

복합단어 내 단어 추출여부

 

 

4

불용카테고리그룹 사용여부

  • Y는 모든 모델에 공통적으로 적용되는 불용어를 반영한다.

 

5

불용카테고리그룹

  • 해당 모델에만 개별적으로 적용되는 불용어를 반영한다.

 

6

사용카테고리그룹

 

 

7

온톨로지 포함

 

 

8

동일 레벨 카테고리 비교 학습

 

 

9

변형어 추출여부

 

 

10

포함할 상세품사

 

 

11

포함할 추천단어

 

 

12

음절 최소 길이

 

 

13

최소 추출건수

 

 

14

온톨로지 제외

 

 

  • 불용카테고리그룹 사용여부 : Y는 모든 모델에 공통적으로 적용되는 불용어를 반영한다.
    - 불용어 설정(1) : 사전관리 - 분석그룹관리 - 불용단어그룹
    - 불용어 설정(2) : 시스템 - 공통설정관리 - stop.compound.word.category.codes

  • 불용카테고리그룹 : 해당 모델에만 개별적으로 적용되는 불용어를 반영한다.

 

 

해당 업무를 특정할 수 있는 키워드

(개발팀 confluence 링크 삽입 필요)

 

[TF-IDF]

사실 자동분류모델은 단어들과 문서들의 분포를 고려하기 때문에, 분류체계별 학습문서 개수가 달라도 큰 차이는 없습니다.
예를 들어, 자동학습모델에서 분류체계1의 '변경' 과 분류체계2의 '변경'은 평규단어출현수(=분포)가 동일해도 비교학습점수가 다를 것입니다.

  • 전체모수 : 해당 카테고리에 나타났던 단어의 숫자.

  • sum : 단어전체개수.

 

 

모델 생성

등록일시 : 모델생성된 일시로 업데이트 됨.

수정일시 : 1) 분류모델 변경, 2) 분류제한건수 변경 했을때만 업데이트 됨.

평가일시 : 평가버튼 클릭한 일시로 업데이트 됨.

 

[자동분류모델 평가 원리]

: 원문에 해당되는 단어가 대분류들 중에서 해당 단어가 포함되어있는 대분류만 타고들어가서, 중분류들 중에서 해당 단어가 포함되어있는 중분류만 타고들어가서, 소분류 중에서 해당 단어가 포함되어있는 소분류만 타고들어간다.

  • 단어 미사용 시, 모든 대,중분류에 $하다, $고객님을 추가해야함. 그래야 자동분류모델 평가할때 올바르게 대-중-소분류를 타고들어감.

 

 

 

모델 평가

모델 평가 전 주의사항

아래의 그림처럼 분류모델결합을 설정 및 확인한 후 평가해야함.

(기본값: 자동분류모델)

유효분류점수(좌) : ‘결합 후 최종점수'에 대한 유효분류점수
유효분류점수(우) : '각 분류방법’에 대한 유효분류점수

그리드 안에 평가 버튼 클릭

평가 상세 화면

만약 평가 중 엔진 재기동해서 평가엔진이 멈췄다면, 우측상단 ‘이상내역삭제’ 버튼 클릭하면, 해당 평가ID는 삭제됨.

 

 

<평가N인 경우>
전제 : 모델생성 시, 주요단어사전만 사용함.

  1. 단어가 사전에 존재하는지 확인

  2. 온톨로지규칙 수정
    2.1. 기등록 온톨로지규칙 수정
    2.1.1. 온톨로지 표현식의 구조를 수정
    2.1.2. NLP 단어테스트를 통해 온톨로지 표현식의 단어들이 올바르게 나타나는지 확인
    2.2. 미등록 온톨로지규칙 추가

  3. 평가결과 점수를 조정
    3.1. 온톨로지규칙 점수 수정. 온톨로지 5점 외 다른점수도 실험하기. 1~10점 랜덤점수 입력. 온톨로지 정확할수록 점수 올리기.
    3.2. 자동분류모델 단어의 분류체계별 비교학습점수 비교

  • 목적 : 어떠한 온톨로지규칙도 잡히지 않았고, 자동분류모델로만 분류를 했는데, 평가가 잘못 됐을때. 자동분류모델 비교학습점수를 바탕으로 1) 온톨로지규칙추가 2) 온톨로지규칙점수변경 해야 함.

  • 자동분류모델 단어란? (모델 테스트 후 모델에서 잡힌 자동분류모델키워드)
    ex. 카드한도
    (레이블 : [한도] 한도 상향)
    (평가결과 : 1위 [한도] 가족한도 지정)

  • [한도] 한도 상향 : 비교학습점수 2.5855

  • [한도] 가족한도 지정 : 비교학습점수 3.7836

 

 

분류율 높이는 방법
(전제 : 결합조건은 자동분류모델만 설정한다)

  1. 학습지가 틀린 경우를 고려한다
    ex. 비특징단어가 한 분류체계에만 있는 경우 : 비특징단어를 불용어로 등록

  2. 분류체계별 학습/테스트 문서수가 비슷해야 한다

  3. 분류제한건수 증가시키기
    ex. 1 → 3

  4. 공통설정관리에서 classification.model.cl.hierarchyScoreAppend.option 를 변경한다. level별 weight를 바꿔보며 실험하기

  5. 모델 단어추출건수를 줄인다 (ex. 2000 → 1000)

  6. 단어 미사용 설정 혹은 온톨로지 추가는 도움이 크게 되지 않는다

  7. 깨끗한 학습문서만 모아서 새 모델을 생성한다.

    1. 분류체계 별로 확실한 문서들만 추가한다.

 

모델 테스트

STT 원문 조회를 통한 모델 테스트

맨 오른쪽 테스트 버튼 클릭(모델별로 테스트결과는 달라질 수 있음)

 

본문 안에 stt 원문을 입력한 후 중앙에 있는 실행버튼 클릭.

4. 적용

4.1.

그리드 > 모델적용 컬럼안에 있는 적용 버튼을 클릭.

4.2. 주의사항

4.2.1. 타 분류모델로 적용 변경 시, 공통설정관리 업데이트 필요

[분류모델 관리]에서 모델 적용을 타 분류모델로 변경될 경우, 공통설정관리에서 해당 분류모델의 key값을 찾아서 value값을 변경해야 함.

ex. ‘현대카드_상담분류’ 모델에서 '현대카드_상담분류_(0506)' 모델로 적용을 변경하려는 경우

  1. 현대카드_상담분류_(0506)에서 모델 적용 버튼 클릭한다.
    - 분류체계명 왼편 색깔이 초록색인 모델이 적용된 모델임

2. hcc.alt.model.id에 현대카드_상담분류_0506 모델의 코드 업데이트

 

3. 엔진 재기동 필요. ( 방법 참고 )

Related content

Copyright(c) WIGO Corp. All rights reserved.