본문 바로가기
  • ㄹㅇ

분류 전체보기37

최신 NLP 연구에서 사용되는 단어 표현 방법: FastText, ELMo, BERT, GPT, T5, RoBERTa 자세히 알아보기 이번 글에서는 최신 NLP 연구에서 사용되는 다양한 단어 표현 방법에 대해 알아봅니다. FastText, ELMo, BERT, GPT, T5, RoBERTa 등 다양한 기술을 예시와 함께 자세히 설명합니다. 이를 통해 각 기술의 특징과 활용 방법을 이해하고, 텍스트 데이터를 효과적으로 처리하는 방법을 배워봅시다. 1.4 최신 NLP 연구에서 사용되는 단어 표현 방법1.4.1 FastTextFastText는 페이스북 AI 연구팀이 개발한 단어 임베딩 방법입니다. Word2Vec과 유사하게 단어를 저차원 벡터로 표현하지만, FastText는 단어 자체뿐만 아니라 그 단어를 구성하는 문자 n-gram도 고려하여 더 정교한 임베딩을 생성합니다. 이로 인해 드문 단어와 철자가 비슷한 단어들 간의 관계를 더 잘 반.. 2024. 6. 6.
단어 표현 방법의 이해 1.3 단어 표현 방법단어를 컴퓨터가 이해할 수 있는 형태로 변환하는 방법은 크게 이산 표현 방법(Discrete)과 연속 표현 방법(Continuous)으로 나뉩니다. Word RepresentationDiscrete (이산 표현 방법)One-hot Vector (원-핫 벡터)N-gram (엔-그램)Bag of Words (BoW, 단어 가방)Continuous (연속 표현 방법)Word2VecGloVeLSA (Latent Semantic Analysis, 잠재 의미 분석)이산 표현 방법One-hot Vector (원-핫 벡터)One-hot 벡터는 단어를 고차원 벡터로 표현하는 방법입니다. 예를 들어, 어휘 목록(vocabulary)에 "사과", "바나나", "오렌지"라는 세 개의 단어가 있다면, 각 .. 2024. 6. 6.
텍스트 마이닝: 데이터 분석의 새로운 길 1.1 텍스트 마이닝의 개념텍스트 마이닝이란?텍스트 마이닝(Text Mining)은 비정형 텍스트 데이터를 분석하여 유의미한 정보를 추출하는 기술입니다. 데이터 마이닝(Data Mining)의 한 분야로, 주로 자연어 처리(NLP) 기술을 사용하여 문서나 웹 페이지 등의 텍스트에서 패턴, 트렌드, 관계를 찾아냅니다. 이는 기업의 의사 결정 지원, 고객 피드백 분석, 소셜 미디어 트렌드 파악 등 다양한 분야에서 활용됩니다.DTM에 대한 설명DTM(Document-Term Matrix, 문서-용어 행렬)은 텍스트 마이닝에서 중요한 역할을 하는 표현 방식입니다. 각 문서를 행으로, 각 용어를 열로 구성하여 문서 내에 특정 용어가 등장하는 빈도를 나타내는 행렬입니다. 이를 통해 텍스트 데이터를 수치화하여 기계 .. 2024. 6. 6.
가설 검정과 유의확률 가설 검정데이터 분석에서 가설 검정은 중요한 절차입니다. 가설 검정은 주어진 데이터로부터 특정 주장이나 이론을 검정하기 위한 방법론입니다. 이번 글에서는 가설 검정의 기본 개념과 주요 방법론에 대해 알아보겠습니다.통계적 가설귀무가설과 대립가설가설 검정에서 가장 먼저 설정해야 할 것은 귀무가설(Null Hypothesis)과 대립가설(Alternative Hypothesis)입니다.귀무가설 (H₀): 연구자가 증명하고자 하는 주장과 반대되는 가설로, 보통 "효과가 없다" 또는 "차이가 없다"라는 진술입니다.대립가설 (H₁ 또는 Ha): 귀무가설에 반대되는 가설로, "효과가 있다" 또는 "차이가 있다"라는 진술입니다.예를 들어, 새로운 약의 효과를 테스트할 때:귀무가설 (H₀): 새로운 약은 효과가 없다.대.. 2024. 5. 31.