jdk1.8, mecab 설치

open jdk 1.8 이상
mecab-0.996-ko-0.9.2
mecab-ko-dic-2.1.1-20180720
mecab-java-0.996

의존성 추가

gradle
- implementation ‘org.moara.yido:tokenizer:0.1.1’
기타
- https://mvnrepository.com/artifact/org.moara.yido/tokenizer/0.1.1

tokenizer 가져오기

기본

Tokenizer tokenizer = TokenizerManager.getInstance().getTokenizer();

선택

Tokenizer tokenizer = TokenizerManager.getInstance().getTokenizer("mecab");

mecab 부분에 사용할 tokenizer id를 입력하여 선택

token 결과 얻기

import org.moara.yido.tokenizer.Token;
import org.moara.yido.tokenizer.TokenizerManager;
import org.moara.yido.tokenizer.word.CompoundToken;
import org.moara.yido.tokenizer.word.WordToken;

public class TokenizerExample {
    public static void main(String[] args) {
        Token[] tokens = TokenizerManager.getInstance().getTokenizer().getTokens("시내버스가 위고에 다녀요");
        for(Token token : tokens){
            WordToken wordToken = (WordToken)token;

            System.out.print(token.getText() +", " + wordToken.getPartOfSpeech());

            if(wordToken instanceof CompoundToken){
                CompoundToken compoundToken =(CompoundToken) wordToken;
                String [] wordIds = compoundToken.getWordIds();
                for (String wordId : wordIds) {
                    System.out.print(" " + wordId);
                }
            }
            System.out.println();
        }
    }
}

token 종류

Token (기본형)

/**
 * token id
 * 단어 같은 경우에는 위고/NNG
 * 위오 같은 형태처럼 특정 아이디를 지정하여 쓰기 위한 기능
 * 초기 구상단계이므로 바뀔 수 있음
 * @return token id
 */
String getId();


/**
 * 토근 텍스트
 * @return token text
 */
String getText();

/**
 * 시작위치
 * @return begin index
 */
int getBegin();

/**
 * 끝위치
 * @return end index + 1  substring(begin,end)
 */
int getEnd();

WordToken
- token 기본형에서 품사정보가 추가됨

    /**
     * 품사 얻기
     * @return 품사
     */
    public String getPartOfSpeech() {
        return partOfSpeech;
    }

CompoundToken
- WordToken 에서 단어 구성정보가 포함됨

    /**
     * 구성 단어 아이디 배열 얻기
     * 복합어 일댸
     * @return 구성단어 아이디 배열
     */
    public String[] getWordIds() {
        return wordIds;
    }

WIGO 공개

tokenizer 사용 가이드

jdk1.8, mecab 설치

의존성 추가

tokenizer 가져오기

기본

선택

token 결과 얻기

token 종류

Related content

Copyright(c) WIGO Corp. All rights reserved.