제로샷(Zero-Shot) 및 퓨샷(Few-Shot) 학습: 사용 사례 및amp; 제한 사항

기계 학습 모델이 발전함에 따라 데이터 효율적인 기술에 대한 수요가 계속해서 증가하고 있습니다. 기존의 지도 학습에는 막대한 양의 레이블이 지정된 데이터가 필요하며, 이는 비용이 많이 들고 시간이 많이 걸리며 종종 틈새 도메인에서는 실행 불가능할 수 있습니다. 모델이 레이블이 지정된 예가 거의 또는 전혀 없는 새로운 작업이나 클래스에 일반화될 수 있도록 지원하는 제로샷 및 퓨샷 학습 패러다임을 입력하세요. 이 기사에서는 실제 AI 시스템에서 제로샷 및 퓨샷 학습의 개념, 사용 사례, 아키텍처 및 중요한 제한 사항을 살펴봅니다.

1. 소개

1.1 제로샷 학습(ZSL)이란 무엇입니까?

제로샷 학습은 훈련 중에 라벨이 붙은 예시 없이 보이지 않는 카테고리나 도메인에서 작업을 인식하거나 수행하는 모델의 능력을 의미합니다. 대신 의미론적 관계, 임베딩 또는 텍스트 설명이나 속성과 같은 보조 정보를 활용합니다.

1.2 FSL(Few Shot Learning)이란 무엇입니까?

퓨샷 학습을 통해 모델은 일반적으로 1에서 100까지의 매우 제한된 수의 레이블이 지정된 예제로 작업을 수행할 수 있습니다. FSL은 의료 영상이나 저자원 언어와 같이 레이블이 지정된 데이터가 부족한 경우에 특히 유용합니다.

1.3 왜 중요한가

대규모 레이블이 지정된 데이터 세트에 대한 의존도 감소
새로운 도메인에 더 빠르게 적응할 수 있습니다.
주석 비용 및 시간 절감
드물거나 극단적인 학습 시나리오 지원

2. 핵심 개념 및 기법

2.1 임베딩과 의미 공간

ZSL에서는 입력 데이터와 레이블이 모두 임베딩을 사용하여 공유 의미 공간에 투영됩니다. 보이지 않는 데이터 포인트와 레이블 표현(예: 단어 벡터) 사이의 유사성이 계산됩니다.

2.2 전이학습

FSL은 대규모 데이터세트(예: ImageNet, GPT)에서 사전 훈련된 모델을 활용하고 정규화 및 매개변수 효율적인 조정 전략을 사용하여 소규모 대상 데이터세트에서 미세 조정하는 경우가 많습니다.

2.3 메타 학습("학습을 위한 학습")

메타 학습 알고리즘은 몇 가지 예를 사용하여 새로운 작업에 빠르게 적응할 수 있도록 여러 작업에 대해 훈련됩니다. 널리 사용되는 접근 방식은 다음과 같습니다.

MAML(모델에 구애받지 않는 메타 학습)
프로토타입 네트워크
샴 네트워크
관계 네트워크

2.4 신속한 엔지니어링

GPT-4 및 PaLM과 같은 대형 언어 모델(LLM)은 프롬프트 기반 조건화를 통해 몇 번의 학습을 수행합니다. 여기서 예제는 입력 텍스트에 포함됩니다(상황 내 학습).

3. 제로샷 및 퓨샷 학습을 지원하는 아키텍처

3.1 대규모 언어 모델(LLM)

GPT-3, GPT-4, LLaMA, Claude 및 PaLM과 같은 모델은 텍스트 생성, 분류, 번역 및 요약과 같은 작업에서 놀라운 제로샷 및 퓨샷 능력을 보여주었습니다.

3.2 CLIP(대조적 언어-이미지 사전 훈련)

CLIP은 시각적 및 텍스트 임베딩을 공동으로 학습하여 이미지 특징을 레이블 텍스트 설명과 일치시켜 제로샷 이미지 분류를 가능하게 합니다.

3.3 T5 및 FLAN-T5

이러한 텍스트-텍스트 모델은 모든 작업을 텍스트 생성으로 처리하며 멀티태스크 및 명령 조정을 통해 강력한 퓨샷 및 제로샷 성능을 보여주었습니다.

3.4 다중 모드 변압기

Flamingo 및 Gato와 같은 모델은 제로샷/퓨샷 기능을 비전, 텍스트 및 로봇 동작과 같은 다양한 양식으로 확장합니다.

4. 실제 사용 사례

4.1 제로샷 텍스트 분류

새 텍스트 범주에 수동으로 레이블을 지정하는 것은 비용이 많이 듭니다. LLM은 재교육 없이 레이블 이름이나 설명을 조건으로 제로샷 분류를 수행할 수 있습니다.

4.2 희귀 클래스의 시각적 인식

야생 동물 모니터링에서 제로샷 기술은 텍스트 종 설명과 시각적 임베딩을 활용하여 희귀종을 식별할 수 있습니다.

4.3 의료 영상

주석이 달린 데이터가 부족한 의료 분야에서는 퓨샷 학습이 매우 중요합니다. 프로토타입 네트워크는 몇 가지 예만 사용하여 희귀 질환을 분류할 수 있습니다.

4.4 교차 언어 작업

mT5 및 XLM-R과 같은 다국어 LLM을 통해 리소스가 부족한 언어에 대한 제로샷 번역 및 질문 답변이 가능합니다.

4.5 고객 지원 자동화

챗봇은 몇 번의 메시지만으로 새로운 의도를 처리할 수 있으므로 전체 재교육 없이도 사용자 경험을 향상시킬 수 있습니다.

4.6 코드 생성

상황 내 학습을 통해 GitHub Copilot과 같은 도구는 최소한의 예제나 설명에서 상용구 코드를 생성할 수 있습니다.

5. 한계와 과제

5.1 일반화 외부 교육 배포 불량

보이지 않는 작업이나 클래스가 훈련 분포와 의미상 너무 다른 경우 제로샷 방법이 실패할 수 있습니다.

5.2 프롬프트 디자인에 대한 민감도

Few-Shot LLM의 성능은 프롬프트 문구, 순서 및 형식에 따라 크게 달라집니다. 프롬프트가 좋지 않으면 정확성이 크게 저하될 수 있습니다.

5.3 해석 가능성 부족

제로샷 설정에서 모델이 특정 예측을 수행한 이유를 이해하는 것은 어렵기 때문에 법률이나 의료와 같은 민감한 영역에서 우려를 불러일으킵니다.

5.4 평가의 어려움

제로샷 모델의 성능을 측정하는 것은 쉽지 않습니다. 특히 라벨 공간이나 작업이 동적으로 발전하는 경우에는 더욱 그렇습니다.

5.5 퓨샷 과적합

낮은 데이터 체제에서는 제공된 소수의 예제에 과적합하는 것이 심각한 문제입니다. 특히 좋은 정규화 기술이 없으면 더욱 그렇습니다.

5.6 환각과 조작

LLM은 제로샷/퓨샷 모드에서 그럴듯하게 들리지만 실제로는 잘못된 출력을 생성할 수 있습니다.

6. 모범 사례 및 완화 전략

6.1 신속한 엔지니어링 지침

명확하고 일관된 지침 형식을 사용하세요.
Few-Shot 프롬프트의 클래스 간 균형 예
모호한 작업이나 다의적 레이블을 피하세요.

6.2 교정 기술 사용

온도 스케일링, 라벨 평활화 또는 신뢰도 기반 임계값 사용과 같은 방법은 제로 샷 편향 또는 과신을 완화하는 데 도움이 됩니다.

6.3 더 나은 Few-Shot 샘플링을 위한 능동 학습

정보성을 극대화하기 위해 불확실성 샘플링이나 클러스터링과 같은 능동 학습 전략을 사용하여 몇 장의 사례를 선택합니다.

6.4 사후 평가 및 순위 재지정

위험도가 높은 시나리오의 정확성을 높이기 위해 제로 샷 출력에 순위 모델 또는 재분류를 적용합니다.

6.5 지식 베이스와 결합

상징적 지식 또는 도메인별 규칙을 통합하여 사실 기반을 통해 제로/퓨샷 예측을 강화합니다.

7. 향후 방향

7.1 명령어 조정 및 정렬 모델

다양한 지침(예: FLAN, InstructGPT)에 따라 미세 조정된 모델은 제로/몇 샷 설정에서 향상된 일반화를 보여줍니다.

7.2 하이브리드 기호-신경 접근법

신경 모델을 기호 논리 및 규칙과 결합하면 일관성, 투명성 및 견고성이 향상될 수 있습니다.

7.3 지속적 및 평생 학습

새로운 작업에서 지속적으로 학습하고 최소한의 감독으로 점진적으로 적응하는 시스템으로 발전합니다.

7.4 퓨샷 강화 학습

신속한 작업 적응을 위해 강화 학습 에이전트에서 퓨샷 및 메타 학습 기술을 사용하는 데 대한 관심이 높아지고 있습니다.

8. 결론

제로샷(Zero-shot) 및 퓨샷(Few-shot) 학습을 통해 AI 시스템이 초기 훈련 데이터를 훨씬 뛰어넘어 일반화할 수 있는 가능성이 열렸습니다. 텍스트 이해 및 이미지 인식부터 코드 생성 및 저자원 언어 처리에 이르기까지 이러한 기술은 주석이 달린 대규모 데이터 세트에 대한 의존도를 줄이고 실제 환경에서 모델 배포를 가속화합니다. 그러나 일반화, 해석 가능성 및 신뢰성의 한계로 인해 신중한 취급과 지속적인 연구가 필요합니다. 모델의 규모와 기능이 성장하고 신속한 엔지니어링 및 지침 조정과 같은 기술이 성숙해짐에 따라 제로샷 및 퓨샷 학습은 유연하고 적응 가능한 차세대 AI 시스템의 기반이 될 것입니다.