/
tokenizer 사용 가이드
문서 최신화를 위해서 변경된 부분 또는 수정할 부분이 발견되면 발견자가 꼭! 수정해주시기 바랍니다. !!!
tokenizer 사용 가이드
jdk1.8, mecab 설치
open jdk 1.8 이상
mecab-0.996-ko-0.9.2
mecab-ko-dic-2.1.1-20180720
mecab-java-0.996
의존성 추가
gradle
implementation ‘org.moara.yido:tokenizer:0.1.1’
기타
tokenizer 가져오기
기본
Tokenizer tokenizer = TokenizerManager.getInstance().getTokenizer();
선택
Tokenizer tokenizer = TokenizerManager.getInstance().getTokenizer("mecab");
mecab 부분에 사용할 tokenizer id를 입력하여 선택
token 결과 얻기
import org.moara.yido.tokenizer.Token;
import org.moara.yido.tokenizer.TokenizerManager;
import org.moara.yido.tokenizer.word.CompoundToken;
import org.moara.yido.tokenizer.word.WordToken;
public class TokenizerExample {
public static void main(String[] args) {
Token[] tokens = TokenizerManager.getInstance().getTokenizer().getTokens("시내버스가 위고에 다녀요");
for(Token token : tokens){
WordToken wordToken = (WordToken)token;
System.out.print(token.getText() +", " + wordToken.getPartOfSpeech());
if(wordToken instanceof CompoundToken){
CompoundToken compoundToken =(CompoundToken) wordToken;
String [] wordIds = compoundToken.getWordIds();
for (String wordId : wordIds) {
System.out.print(" " + wordId);
}
}
System.out.println();
}
}
}
token 종류
Token (기본형)
/**
* token id
* 단어 같은 경우에는 위고/NNG
* 위오 같은 형태처럼 특정 아이디를 지정하여 쓰기 위한 기능
* 초기 구상단계이므로 바뀔 수 있음
* @return token id
*/
String getId();
/**
* 토근 텍스트
* @return token text
*/
String getText();
/**
* 시작위치
* @return begin index
*/
int getBegin();
/**
* 끝위치
* @return end index + 1 substring(begin,end)
*/
int getEnd();
WordToken
token 기본형에서 품사정보가 추가됨
/**
* 품사 얻기
* @return 품사
*/
public String getPartOfSpeech() {
return partOfSpeech;
}
CompoundToken
WordToken 에서 단어 구성정보가 포함됨
/**
* 구성 단어 아이디 배열 얻기
* 복합어 일댸
* @return 구성단어 아이디 배열
*/
public String[] getWordIds() {
return wordIds;
}
, multiple selections available,
Related content
tokenizer 설정
tokenizer 설정
More like this
yido (한국어 자연어처리)
yido (한국어 자연어처리)
More like this
모델 생성/평가/테스트/적용
모델 생성/평가/테스트/적용
More like this
Sentence, Word API
Sentence, Word API
More like this