강화학습(model free방법)
- 최초 등록일
- 2022.07.30
- 최종 저작일
- 2022.07
- 2페이지/ 한컴오피스
- 가격 3,000원
소개글
"강화학습(model free방법)"에 대한 내용입니다.
목차
I. 서론
II. 본론
1. 강화학습 개요
2. Model Free 강화학습
3. Policy Gradient Algorithm
4. Value-base Algorithm
5. Actor Critic Algorithm
6. TRPO(Trust Region Policy Optimization, 2015)
7. PPO(Proximal Policy Optimization, 2017)
8. DDPG(Deep Deterministic Policy Gradient, 2016)
9. Deep RL(Rainbow, 2017)
10. TD3(Twin Delayed Deep Deterministic Policy Gradient, 2018)
11. SAC(Soft Actor Critic, 2018)
III. 결론
본문내용
I. 서론
강화학습은 순차적인 의사결정 문제를 다루는 방법이다. 강화학습 방법은 신경망에 의한 방법과 다른 차원의 학습 방법이라고 할 수 있다. 강화학습 방법에는 Model Free방법과 Model 기반 방법이 있는데 본 보고서에서는 Model Free방법에 대해서 다루어보도록 하겠다.
II. 본론
1. 강화학습 개요
- 강화학습은 순차적인 의사결정 문제를 다루는 방법이다.
- 에이전트가 환경 안에서 최적의 행동을 취하는 것을 목표로 한다.
- 강화학습에서 핵심요소는 에이전트와 환경이라고 할 수 있다.
2. Model Free 강화학습
- Actor에 대한 정책을 직접 생성한다.
참고 자료
https://brunch.co.kr/@chris-song/102