대규모 언어 모델(LLM)이란 무엇인가?
대규모 언어 모델 정의
대규모 언어 모델(LLM)의 핵심은 딥 러닝 알고리즘을 사용하여 훈련된 모델로서, 정서 분석, 대화형 질문 응답, 텍스트 번역, 분류, 생성과 같은 다양한 자연어 처리(NLP) 작업을 수행할수 있습니다. 신경망(NN)의 일종인 LLM은 트랜스포머 아키텍처를 사용합니다. 트랜스포머 아키텍처는 데이터 시퀀스에서 서로 다른 부분 간의 종속성을 거리와 상관없이 감지하도록 설계된 모델입니다. 이러한 신경망은 종종 뇌의 뉴런과 비교되는 처리 단위 계층으로 구성됩니다. 대규모 언어 모델도 많은 수의 매개 변수를 가지고 있는데, 이것은 모델이 훈련을 통해 배울 때 수집하는 기억과 유사합니다. 이 매개 변수들을 모델의 지식 저장소라고 생각하세요.
이 처리 능력 덕분에 LLM은 소프트웨어 코드 작성, 언어 생성 등과 같은 작업에 대해 훈련될 수 있고 특수 모델은 단백질 구조 이해 같은 작업을 처리할 수 있습니다.1 대규모 언어 모델은 사전 훈련을 거친 다음 텍스트 분류, 질문 답변, 문서 요약, 텍스트 생성 문제 및 기타 작업을 해결하도록 미세 조정해야 합니다. 그들의 문제 해결 능력은 번역, 챗봇, AI 어시스턴트와 같은 다양한 NLP 애플리케이션을 제공하는 LLM이 활용되는 의료, 금융, 엔터테인먼트와 같은 분야에 적용될 수 있습니다.
이 동영상을 시청하고 LLM에 대해 깊이 있게 탐구해 보세요.
LLM은 어떻게 작동합니까?
기본적으로 대규모 언어 모델은 입력을 받아 인코딩하고, 디코딩하여 다음 단어, 문장 또는 특정 답변과 같은 출력 예측을 생성하는 방식으로 작동합니다. 모든 머신 러닝 모델이 그렇듯, 대규모 언어 모델은 예상되는 결과를 출력하기 전에 훈련과 미세 조정이 필요합니다. 프로세스가 조정되는 방법은 다음과 같습니다.
- 훈련: 대규모 언어 모델은 Wikipedia 및 GitHub와 같은 사이트에서 대규모 텍스트 데이터 세트를 사용해 사전 훈련됩니다. 이러한 데이터 세트는 수조 개의 단어로 구성되며 그 품질은 언어 모델의 성능에 영향을 미칩니다. 이 단계에서, 대규모 언어 모델은 비지도 학습에 참여하는데, 이는 특정 명령 없이 자신에게 제공된 데이터 세트를 처리한다는 것을 의미합니다. 이 과정에서 알고리즘은 단어와 그 맥락 간의 통계적 관계를 학습합니다. 예를 들어, "right"이 "올바른"을 의미하는지 "왼쪽"의 반대인지 이해하는 방법을 배울 수 있습니다.
- 미세 조정: 대규모 언어 모델이 번역과 같은 특정 작업을 수행하려면 그 작업에 맞게 미세 조정되어야 합니다. 미세 조정은 추가로 레이블이 지정된 데이터로 모델을 훈련시켜 특정 작업에서 모델의 성능을 최적화하기 위해 모델의 매개변수를 조정하는 과정입니다.
- 프롬프트 조정은 미세 조정과 유사한 기능을 수행합니다. 즉, 퓨샷 프롬프트(few-shot prompting) 또는 제로샷 프롬프트(zero-shot prompting)를 통해 특정 작업을 수행하도록 모델을 훈련시킵니다. 퓨샷 프롬프트는 모델이 출력을 예측할 수 있도록 예제를 제공합니다. 예를 들면 다음과 같습니다.
| 고객 리뷰 | 고객 심리 |
|---|---|
| "이 식물은 너무 아름답습니다!" | Positive |
| "이 식물은 정말 끔찍합니다!" | Negative |
여기에서 모델은 'hideous(끔찍한)'의 의미를 이해합니다. 이는 반대 예시(beautiful)가 제공되었기 때문입니다.
제로샷 프롬프트는 예제를 사용하지 않습니다. 대신, 다음과 같이 모델에 작업을 수행하도록 직접 요청합니다.
, "'This plant is so hideous(이 식물은 너무 끔찍하다)'에서의 정서는…"
모델은 이전의 훈련을 바탕으로, 제공된 예제 없이 감정을 예측해야 합니다.대규모 언어 모델의 주요 구성 요소
대규모 언어 모델은 여러 신경망 레이어로 구성됩니다. 임베딩 레이어, 어텐션 레이어, 피드포워드 레이어는 함께 동작하여 입력 텍스트를 처리하고 출력 콘텐츠를
- 임베딩 레이어(embedding layer)는 벡터 임베딩을 생성합니다. 모델의 이 부분은 입력 텍스트 또는 입력된 단어의 수학적 표현에서 입력의 의미론적 및 구문론적 의미를 포착하여 모델이 단어와 그 관계를 문맥적으로 이해할 수 있도록 합니다.
- 어텐션 메커니즘(attention mechanism)은 모델이 현재 작업과의 관련성을 기반으로 입력 텍스트의 모든 부분에 집중할 수 있게 하므로 장거리 종속성을 캡처할 수 있습니다.
- 피드포워드 레이어(feedforward layer)는 데이터에 비선형 변환을 적용하는 여러 개의 완전히 연결된 레이어로 구성됩니다. 이 프로세스들은 어텐션 메커니즘에 의해 인코딩된 정보를 처리합니다.
대규모 언어 모델에는 크게 세 가지 종류가 있습니다.
- 일반 또는 원시 언어 모델은 학습 데이터의 언어를 기반으로 다음 단어를 예측합니다. 이러한 언어 모델은 정보 검색 작업을 수행합니다.
- 지시 학습 언어 모델(Instruction-tuned language model)은 입력에 제공된 지시에 대한 응답을 예측하도록 훈련되며, 이를 통해 정서 분석을 수행하거나 텍스트 또는 코드를 생성할 수 있습니다.
- 대화 조정 언어 모델(Dialog-tuned language model)은 다음 응답을 예측하여 대화가 가능하도록 훈련됩니다. 챗봇이나 대화형 AI를 생각해보세요.
대규모 언어 모델과 생성형 AI의 차이점은 무엇인가?
생성형 AI 는 콘텐츠를 생성할 수 있는 인공지능 모델을 포괄적으로 지칭하는 용어입니다. 이러한 모델은 텍스트, 코드, 이미지, 비디오 및 음악을 생성할 수 있습니다. 또한 텍스트 생성(예: ChatGPT)이나 이미지 생성(예: DALL-E, MidJourney)과 같은 다양한 콘텐츠 유형에 특화될 수 있습니다.
대규모 언어 모델은 대규모 텍스트 데이터 세트에 대해 특별히 훈련된 생성형 AI의 일종으로, ChatGPT의 경우와 같이 텍스트 콘텐츠를 생성하도록 설계되었습니다.
모든 LLM은 생성형 AI이지만, 모든 생성형 AI 모델이 LLM인 것은 아닙니다. 예를 들어, DALL-E와 MidJourney는 텍스트가 아닌 이미지를 생성합니다.
트랜스포머 모델이란 무엇인가?
트랜스포머 모델은 대규모 언어 모델의 가장 일반적인 아키텍처입니다. 일반적으로 인코더와 디코더로 구성되지만 GPT와 같은 일부 모델은 디코더만 사용합니다. 트랜스포머 모델은 입력된 정보를 토큰화한 다음, 토큰 간의 관계를 발견하기 위해 동시에 수학 방정식을 수행함으로써 데이터를 처리합니다. 이를 통해 컴퓨터는 동일한 쿼리가 주어졌을 때 인간이 볼 수 있는 패턴을 볼 수 있습니다.
트랜스포머 모델은 셀프 어텐션(self-attention) 메커니즘과 함께 작동하는데, 이 메커니즘은 모델이 장단기 기억 모델(long short-term memory models)과 같은 전통적인 모델보다 더 빨리 학습할 수 있도록 합니다. 셀프 어텐션은 트랜스포머 모델이 문장 내에서 멀리 떨어져 있는 단어들 간의 관계까지도 이전 모델보다 더 잘 포착할 수 있도록 해주는 핵심 메커니즘으로, 이는 주로 정보를 병렬로 처리하기 때문에 가능합니다.
관련 항목: 검색 애플리케이션에 트랜스포머 적용
대규모 언어 모델의 예제와 사용 사례
대규모 언어 모델은 다음과 같이 여러 용도로 사용될 수 있습니다.
- 정보 검색: Bing이나 Google을 생각해 보세요. LLM은 검색 엔진에 통합되어 쿼리 응답을 개선할 수 있습니다. 전통적인 검색 엔진은 주로 색인 알고리즘에 의존하지만, LLM은 쿼리에 기반하여 더 대화형이거나 맥락을 이해하는 답변을 생성하는 능력을 향상시킵니다.
- 정서 분석: 자연어 처리를 적용하면, 대규모 언어 모델을 통해 기업이 텍스트 데이터의 정서를 분석할 수 있습니다.
- 텍스트 생성: 대규모 언어 모델은 ChatGPT와 같은 생성형 AI의 이면에 있으며, 주어진 프롬프트를 기반으로 일관성 있고 맥락에 맞는 텍스트를 생성할 수 있습니다. 예를 들어, "에밀리 디킨슨 스타일로 야자수에 대한 시를 써줘."와 같은 프롬프트를 LLM에 입력할 수 있습니다.
- 코드 생성: 텍스트 생성과 마찬가지로 LLM은 생성형 AI 애플리케이션으로 코드를 생성할 수 있습니다. LLM은 다양한 언어로 작성된 방대한 양의 프로그래밍 코드를 통해 학습하여 입력된 프롬프트에 따라 문법적으로 및 논리적으로 정확한 코드를 생성할 수 있습니다.
- 챗봇과 대화형 AI: 대규모 언어 모델은 고객 서비스 챗봇과 대화형 AI를 지원합니다. 이러한 모델은 고객의 문의 사항을 해석하고 의도를 이해하며, 인간과 유사한 대화를 모방한 응답을 생성합니다.
관련: 챗봇을 만드는 방법: 개발자가 해야 할 일과 하지 말아야 할 일
이러한 사용 사례 외에도 대규모 언어 모델은 문장을 완성하고 질문에 답하며 텍스트를 요약할 수 있습니다.
이렇게 다양하게 응용되기 때문에, 다음과 같이 다양한 분야에서 LLM을 찾아볼 수 있습니다.
- 기술: 대규모 언어 모델은 검색 엔진 쿼리 응답을 개선하고, 개발자가 코드를 작성하는 것을 지원하는 등 다양한 애플리케이션에 사용됩니다.
- 의료 및 과학: 대규모 언어 모델은 단백질, 분자, DNA, RNA와 관련된 데이터를 분석하여 연구를 지원하고, 백신 개발, 질병의 잠재적 치료법 찾기, 예방 치료 의약품 개선 등에 기여할 수 있습니다. LLM은 환자 접수 또는 기본 진단을 수행하기 위한 의료 챗봇으로도 사용되지만, 일반적으로 인간의 감독이 필요합니다.
- 고객 서비스: LLM은 챗봇이나 대화형 AI 등 고객 서비스 목적으로 산업 전반에 걸쳐 사용됩니다.
- 마케팅: 마케팅 팀은 LLM을 정서 분석, 콘텐츠 생성, 캠페인 아이디어 브레인스토밍에 활용할 수 있으며, 피치, 광고, 기타 자료에 사용할 텍스트를 생성하는 데 도움을 받을 수 있습니다.
- 법률: 방대한 법률 데이터 세트를 검색하는 것부터 법률 문서 작성에 이르기까지, 대규모 언어 모델은 변호사, 사무장 및 법무 담당 직원을 지원할 수 있습니다.
- 은행업: 대규모 언어 모델(LLM)은 금융 거래와 고객 커뮤니케이션을 분석하여 잠재적 사기를 탐지하는 데 도움을 줄 수 있으며, 더 광범위한 사기 탐지 시스템의 일부로 사용되는 경우도 많습니다.
엔터프라이즈에서 생성형 AI를 시작해 보세요. 이 웨비나를 시청하고 엔터프라이즈 환경에서 생성형 AI의 과제 및 기회를 탐색하세요.
LLM의 한계와 과제
대규모 언어 모델은 우리에게 의미를 이해하고 정확하게 반응할 수 있다는 인상을 줄 수 있습니다. 하지만 여전히 인간의 감독이 필요한 도구이며 다양한 도전 과제에 직면해 있습니다.
- 환각: 환각은 LLM이 거짓이거나 사용자의 의도와 일치하지 않는 결과를 생성하는 경우입니다. 예를 들어, 인간이라고 주장하거나 감정이 있다고 주장하거나 사용자를 사랑하고 있다고 주장하는 것입니다. 대규모 언어 모델은 구문적으로 올바른 다음 단어나 문구를 예측하기 때문에, 인간의 의미를 완전히 해석할 수는 없습니다. 그 결과는 때때로 '환각'이라고 하는 것일 수 있습니다.
- 보안: 대규모 언어 모델은 적절하게 관리되거나 모니터링되지 않으면 중요한 보안 위험을 초래합니다. 훈련 데이터에서 또는 상호작용 과정에서 개인정보를 의도치 않게 유출할 수 있으며, 이 정보가 피싱이나 스팸 생성 같은 악의적인 목적으로 악용될 수 있습니다. 악의적인 의도를 가진 사용자가 LLM을 악용하여 편향된 이데올로기, 잘못된 정보, 또는 유해한 콘텐츠를 퍼뜨릴 수도 있습니다.
- 편향: 언어 모델을 훈련하는 데 사용되는 데이터는 주어진 모델이 산출하는 결과에 영향을 미칠 것입니다. 훈련 데이터가 다양성이 부족하거나 특정 인구 통계에 편향되어 있으면, 모델이 이러한 편향을 재현하여 편향되고 좁은 관점을 반영하는 출력을 생성할 수 있습니다. 모델 출력 결과의 편향을 줄이려면 다양한 배경과 특성을 반영한 대표성 있는 훈련 데이터셋을 확보하는 것이 중요합니다.
- 동의: 대규모 언어 모델은 방대한 데이터 세트로 훈련을 받는데, 일부는 명시적인 동의 없이 혹은 저작권 계약을 준수하지 않고 수집되었을 수 있습니다. 이로 인해 적절한 출처 표시 또는 허가 없이 콘텐츠가 복제되는 지적 재산권 침해가 발생할 수 있습니다. 또한, 이러한 모델은 개인 데이터를 수집할 수 있으며, 이는 개인정보 보호 문제를 야기합니다.2 LLM은 저작권 침해로 인해 Getty Images3 와 같은 기업으로부터 소송을 당하는 등 법적 문제에 직면한 사례가 있습니다.
- 확장: LLM의 확장에는 상당한 계산 능력이 필요하며, 매우 많은 자원을 소모할 수 있습니다. 이러한 모델을 유지하려면 지속적인 업데이트, 최적화, 및 모니터링이 필요하며, 이는 시간과 비용이 많이 소요되는 과정입니다. 이러한 모델을 지원하기 위해 필요한 인프라 역시 상당합니다.
- 배포: 대규모 언어 모델을 배포하려면 딥러닝과 트랜스포머 아키텍처에 대한 전문 지식, 특수 하드웨어 및 분산 소프트웨어 시스템이 필요합니다.
LLM의 이점
대규모 언어 모델은 사용자가 이해하기 쉬운 명확하고 대화적인 방식으로 정보를 제공하기 때문에 다양한 응용 분야에서 문제 해결에 매우 유용합니다.
- 다양한 응용 분야: 언어 번역, 문장 완성, 정서 분석, 질문 답변, 수학 방정식 등에 사용할 수 있습니다.
- 항상 개선 중: 대규모 언어 모델의 성능은 추가 데이터와 매개 변수가 통합됨에 따라 지속적으로 개선되고 있습니다. 이 개선은 모델 아키텍처 및 추가된 훈련 데이터의 품질과 같은 요인에 의존합니다. 즉, 더 많이 학습할수록 향상된다는 것을 의미합니다. 더욱이, 대규모 언어 모델은 '인컨텍스트 러닝(in-context learning)'이라는 것이 가능합니다. 이는 모델이 추가적인 훈련이나 매개변수 없이 프롬프트에 제공된 예시를 기반으로 작업을 수행할 수 있는 것입니다. 이는 모델이 소수의 예시만으로도(퓨샷 학습) 다양한 작업에 일반화하고 적응할 수 있게 하며, 심지어 사전 예시가 전혀 없는 경우(제로샷 학습)에도 수행할 수 있도록 합니다. 이러한 방식으로, 대규모 언어 모델은 지속적으로 학습합니다.
- 빠르게 학습: LLM은 인컨텍스트 러닝을 통해 최소한의 예시만으로 새로운 작업에 적응할 수 있습니다. 추가적인 훈련이나 매개 변수가 없어도 프롬프트의 맥락에 빠르게 반응하여 예시가 적은 상황에서도 효율적으로 작동합니다.
인기 있는 대규모 언어 모델의 예
인기 있는 대규모 언어 모델들이 세계를 놀라게 했습니다. 많은 대규모 언어 모델들이 산업 전반에 걸쳐 사람들에 의해 채택되었습니다. 여러분은 분명히 생성형 AI 챗봇의 한 형태인 ChatGPT에 대해 들어보셨을 것입니다.
다른 인기 있는 LLM 모델은 다음과 같습니다.
- PaLM: Google의 PaLM(Pathways Language Model)은 상식적이고 산술적인 추론, 농담 설명, 코드 생성 및 번역이 가능한 트랜스포머 언어 모델입니다.
- BERT: BERT(Bidirectional Encoder Representations from Transformers) 언어 모델도 Google에서 개발되었습니다. 자연어를 이해하고 질문에 답할 수 있는 트랜스포머 기반 모델입니다.
- XLNet: 순열 언어 모델인 XLNet은 입력 토큰의 모든 가능한 순열을 학습하지만, 추론 시에는 표준적인 왼쪽에서 오른쪽으로 예측을 생성합니다.
- GPT: 사전 훈련된 생성형 트랜스포머는 아마도 가장 잘 알려진 대규모 언어 모델일 것입니다. OpenAI에서 개발한 GPT는 이전 모델(GPT-3, GPT-4 등)을 개선하여 반복 횟수를 늘리는 인기 있는 기본 모델입니다. GPT 모델은 특정 작업에 맞게 미세 조정할 수 있습니다. 또한, 다른 조직들은 기반 LLM에서 영감을 받아 도메인 특화 모델을 개발하기도 했습니다. 예를 들면 CRM 애플리케이션을 위한 Salesforce의 EinsteinGPT, 재무 데이터용 BloombergGPㅅT가 있습니다.
대규모 언어 모델의 향후 발전
ChatGPT의 등장으로 대규모 언어 모델이 전면에 등장했으며 미래가 어떤 모습일지에 대한 추측과 열띤 논쟁이 활성화되었습니다.
대규모 언어 모델이 계속 성장하고 자연어 구사력이 향상됨에 따라 이러한 모델의 발전이 취업 시장에 어떤 영향을 미칠지에 대한 많은 우려가 있습니다.
대규모 언어 모델은 적절히 사용하면 생산성과 프로세스 효율성을 높일 수 있지만, 이로 인해 인간 사회에서 사용하는 데 윤리적 문제가 제기되었습니다.
Elasticsearch Relevance Engine에 대해 알아보기
LLM의 현재 한계를 해결하기 위해, Elasticsearch Relevance Engine(ESRE)은 인공 지능 지원 검색 애플리케이션용으로 구축된 정확도 엔진입니다. ESRE를 통해 개발자는 자신만의 시맨틱 검색 애플리케이션을 구축하고, 자체 트랜스포머 모델을 활용하고, NLP 및 생성형 AI를 결합하여 고객의 검색 경험을 향상시킬 수 있습니다.
Elasticsearch Relevance Engine으로 정확도 극대화

더 많은 대규모 언어 모델 리소스 살펴보기
- LLM 통합 가시성
- Elastic 생성형 AI 도구 및 기능
- 벡터 데이터베이스를 선택하는 방법
- 챗봇을 만드는 방법: 해야 할 일과 하지 말아야 할 일
- LLM 선택: 오픈 소스 LLM 시작 안내서
- Elasticsearch의 언어 모델
- 2025년 기술 트렌드: 선택의 시대를 수용해 생성형 AI를 생산에 도입하기
- Elastic Stack의 자연어 처리(NLP) 개요
- Elastic Stack과 호환되는 서드파티 모델
- Elastic Stack에서 훈련된 모델 안내서
- LLM 안전성 평가
각주
- Sarumi, Oluwafemi A. 및 Dominik Heider. "Large Language Models and Their Applications in Bioinformatics." Computational and Structural Biotechnology Journal, vol. 23, April 2024, pp. 3498–3505.
https://www.csbj.org/article/S2001-0370(24)00320-9/fulltext. - Sheng, Ellen. “In generative AI legal Wild West, the courtroom battles are just getting started(아직도 서부 개척 시대에 있는 생성형 AI 법적 분야에서 이제 막 법정 싸움이 시작되다),” CNBC, 2023년 4월 3일, https://www.cnbc.com/2023/04/03/in-generative-ai-legal-wild-west-lawsuits-are-just-getting-started.html(2023년 6월 29일 접속)
- Getty Images 성명서, Getty Images, 2023년 1월 17일 https://newsroom.gettyimages.com/en/getty-images/getty-images-statement (2023년 6월 29일에 접속).