메뉴 건너뛰기
.. 내서재 .. 알림
소속 기관/학교 인증
인증하면 논문, 학술자료 등을  무료로 열람할 수 있어요.
한국대학교, 누리자동차, 시립도서관 등 나의 기관을 확인해보세요
(국내 대학 90% 이상 구독 중)
로그인 회원가입 고객센터 ENG
주제분류

추천
검색
질문

논문 기본 정보

자료유형
학술저널
저자정보
이미희 (삼성전자) 강윤철 (이화여자대학교)
저널정보
한국전자거래학회 한국전자거래학회지 한국전자거래학회지 제29권 제4호
발행연도
2024.11
수록면
167 - 183 (17page)
DOI
10.7838/jsebs.2024.29.4.167

이용수

표지
📌
연구주제
📖
연구배경
🔬
연구방법
🏆
연구결과
AI에게 요청하기
추천
검색
질문

초록· 키워드

오류제보하기
일반적으로 강화학습에서 사용되는 복수개의 보상 함수의 경우 서로 다른 단위를 사용할 수 없는 문제로 인해 각 보상 함수들의 단위를 통일한 후 가중합 형태로 하나의 함수로 변환하여 사용한다. 이때, 단위를 통일하거나 가중합 형태로 변환 시 각 보상함수의 개별 특성들을 제대로 고려하지 못할 수 있으며, 각 보상함수 별 가중치 값을 결정해야하는 문제도 발생할 수 있다. 이에 본 연구는 복수개의 보상함수가 사용되는 강화학습 문제에서 성격이 다른 보상 요소를 분리하여 개별적으로 학습하는 강화학습 방법론을 제안한다. 특히 Actor-Critic 계열의 강화학습 알고리즘에서 복수개의 Critic 네트워크를 갖는 Multi-Critic 네트워크 구조를 활용한다. 구체적으로는 Actor-Critic 계열의 알고리즘에서 행동을 평가하는 Critic 네트워크가 다양한 보상 요소에 대해 각각 학습할 수 있도록 구성하고, 이를 통해 Actor 네트워크에서 출력한 정책을 다각적으로 평가할 수 있도록 한다. 해당 방법론을 검증하기 위해 다양한 보상 함수를 종합적으로 고려해야하는 추천시스템 문제를 활용하였다. 특히, 추천시스템의 추천 과정을 순차적 의사결정으로 간주하고 DDPG (Deep Deterministic Policy Gradient) 방법론을 사용하여 광범위한 행동 공간을 갖는 추천시스템 문제를 해결하고자 하였다. 실험 결과, 제안하는 다회 학습 형태의 Multi-Critic 네트워크 모델이 기존의 일회 학습 형태의 Single-Critic 네트워크 모델 및 타 추천 시스템 모델에 비해 높은 추천 성능을 보였다.

목차

초록
ABSTRACT
1. 서론
2. 선행연구
3. 제안 모형
4. 모델 검증
5. 실험 결과 및 해석
6. 결론 및 논의
References

참고문헌 (0)

참고문헌 신청

함께 읽어보면 좋을 논문

논문 유사도에 따라 DBpia 가 추천하는 논문입니다. 함께 보면 좋을 연관 논문을 확인해보세요!

이 논문과 함께 이용한 논문

최근 본 자료

전체보기

댓글(0)

0

UCI(KEPA) : I410-151-25-02-091197213