/
tokenizer 사용 가이드

문서 최신화를 위해서 변경된 부분 또는 수정할 부분이 발견되면 발견자가 꼭! 수정해주시기 바랍니다. !!!

tokenizer 사용 가이드

 

jdk1.8, mecab 설치

  • open jdk 1.8 이상

  • mecab-0.996-ko-0.9.2

  • mecab-ko-dic-2.1.1-20180720

  • mecab-java-0.996

의존성 추가

tokenizer 가져오기

기본

Tokenizer tokenizer = TokenizerManager.getInstance().getTokenizer();

선택

Tokenizer tokenizer = TokenizerManager.getInstance().getTokenizer("mecab");

mecab 부분에 사용할 tokenizer id를 입력하여 선택

 

token 결과 얻기

import org.moara.yido.tokenizer.Token; import org.moara.yido.tokenizer.TokenizerManager; import org.moara.yido.tokenizer.word.CompoundToken; import org.moara.yido.tokenizer.word.WordToken; public class TokenizerExample { public static void main(String[] args) { Token[] tokens = TokenizerManager.getInstance().getTokenizer().getTokens("시내버스가 위고에 다녀요"); for(Token token : tokens){ WordToken wordToken = (WordToken)token; System.out.print(token.getText() +", " + wordToken.getPartOfSpeech()); if(wordToken instanceof CompoundToken){ CompoundToken compoundToken =(CompoundToken) wordToken; String [] wordIds = compoundToken.getWordIds(); for (String wordId : wordIds) { System.out.print(" " + wordId); } } System.out.println(); } } }

 

token 종류

  • Token (기본형)

/** * token id * 단어 같은 경우에는 위고/NNG * 위오 같은 형태처럼 특정 아이디를 지정하여 쓰기 위한 기능 * 초기 구상단계이므로 바뀔 수 있음 * @return token id */ String getId(); /** * 토근 텍스트 * @return token text */ String getText(); /** * 시작위치 * @return begin index */ int getBegin(); /** * 끝위치 * @return end index + 1 substring(begin,end) */ int getEnd();

 

  • WordToken

    • token 기본형에서 품사정보가 추가됨

/** * 품사 얻기 * @return 품사 */ public String getPartOfSpeech() { return partOfSpeech; }

 

  • CompoundToken

    • WordToken 에서 단어 구성정보가 포함됨

/** * 구성 단어 아이디 배열 얻기 * 복합어 일댸 * @return 구성단어 아이디 배열 */ public String[] getWordIds() { return wordIds; }

Related content

Copyright(c) WIGO Corp. All rights reserved.