동적 색인화는 Direct3D 12에만 존재하는 새로운 기법이다.

Texture2DArray와는 달리 크기와 형식이 서로 다른 텍스처들을 담을 수 있다.

 

15.2 Camera 클래스

right 벡터, lookat 벡터, up 벡터

카메라 위치 벡터

시야 행렬, 투영 행렬

수직 시야각, 종횡비, 가까운 평면 거리, 먼 평면 거리

ㄴ 멤버 변수로 모두 저장하고 있음

 

setLens() // 투영 행렬 갱신

UpdateViewMatrix() // 시야 행렬 갱신

ㄴ 멤버 변수 값들을 사용하여 행렬 변수에 계산된 값을 저장

 

함수 이름

yaw = 좌우 둘러보기 (y축 회전)pitch = 위아래 끄덕 (카메라 right축 회전)roll = 갸웃갸웃 (카메라 lookat축 회전)

 

15.5 동적 색인화

1. 상수 버퍼의 한 요소를 색인으로 사용할 수 있다.

2. SV_PrimitiveID와 같은 시스템 ID를 색인으로 사용할 수 있다.

3. 셰이더 프로그램 안에서 수행한 어떤 계산의 결과를 색인으로 사용할 수 있다.

4. 텍스처에서 추출한 표본의 값을 색인으로 사용할 수 있다.

5. 정점 구조체의 한 성분을 색인으로 사용할 수 있다.

 

예제에서의 사용법

모든 재질 자료를 담은 재질 구조체의 배열 (구조적 버퍼 자원) 

텍스처 배열 (서술자 테이블)

객체 별 상수 버퍼에 재질 인덱스 정보만 넘기면 셰이더 파일에서 텍스처와 재질에 접근할 수 있다. (1번 사용법) 

 

연습문제

2.

Q와 E키로 회전하도록 만들었다.

mLook ( 카메라 기준 Z 축 )에 대한 회전행렬을 만들고

mRight 벡터와 mUp 벡터에 회전 행렬을 곱해 값을 갱신한다.

연습문제 파일

https://github.com/lemonyun/Directx12_study/tree/main/15

 

GitHub - lemonyun/Directx12_study: 2022/06/10

2022/06/10. Contribute to lemonyun/Directx12_study development by creating an account on GitHub.

github.com

 

 

테셀레이션을 사용하는 이유

1. GPU상의 동적 LOD

 

2. 효율적인 물리 및 애니메이션 계산

ㄴ 물리와 애니메이션을 저다각형 메시에 대해 수행하고, 그 저다각형 메시를 테셀레이션해서 고다각형 버전을 만들면 물리 및 애니메이션 계산을 낮은 세부도에서 수행함으로써 계산량을 줄일 수 있다.

 

3. 메모리 절약

ㄴ 메모리에는 저다각형 버전을 담아두고 GPU 테셀레이션으로 즉석에서 고다각형 버전을 생성하는 방식을 사용하면 메모리를 절약할 수 있다.

 

테셀레이션 단계들은 정점 셰이더 단계와 기하 셰이더 단계 사이에 위치할 수 있으며, 생략 가능하다.

1. 덮개 셰이더 단계

2. 테셀레이터 단계

3. 영역 셰이더 단계

 

14.1 테셀레이션 기본도형 위상구조

IASetPrimitiveTopology 메서드로 삼각형이 아닌 제어점들로 이루어진 패치를 입력으로 설정

D3D_PRIMITIVE_TOPOLOGY_N_CONTROL_POINT_PATCHLIST (N은 1부터 32 까지 있음)

제어점이 5개 이상인 패치는 보통 곡면을 구현하기 위해 사용된다.

 

14.2 덮개 셰이더

두 종류의 셰이더로 구성됨

1. 상수 덮개 셰이더

struct PatchTess
{
    float EdgeTess[4] :  SV_TessFactor;
    float InsideTess[2] : SV_InsideTessFactor;
}

사각형 패치에 대한 테셀레이션의 경우 6개의 테셀레이션 개수를 지정할 수 있다.

변 테셀레이션 계수 4개와 내부 테셀레이션 계수 2개

 

모든 테셀레이션 계수가 0이면 그 패치는 폐기된다.

 

테셀레이션 정도를 결정하는데 흔히 쓰이는 측정치

1. 카메라와의 거리

2. 화면 영역 포괄도 (물체가 화면의 픽셀을 몇개나 덮는지)

3. 방향 (시점에 따라 물체의 윤곽선으로 보이는 삼각형들은 다른 삼각형들보다 세분하면 자연스럽다.)

4. 표면 거칠기 (표면 거칠기가 높은 세부사항이 많은 표면은 테셀레이션 정도를 높일 필요가 있다.)

 

2. 제어점 덮개 셰이더

제어점을 받아서 제어점을 출력하는데, 제어점 개수를 증강할 수 있다.

struct HullOut
{
	float3 PosL : POSITION;
};

[domain("quad")] // 패치의 종류 tri, quad, isoline 중 하나
[partitioning("integer")] // 테셀레이션 단위가 정수 // 분수는 fractional_even 또는 fractional_odd
[outputtopology("triangle_cw")] // 세분으로 만들어지는 삼각형의 정점 감김 순서
[outputcontrolpoints(4)] // 하나의 입력 패치에 대해 출력할 제어점 개수 (= 덮개 셰이더의 실행 횟수)
[patchconstantfunc("ConstantHS")] // 상수 덮개 셰이더 함수의 이름
[maxtessfactor(64.0f)] // 셰이더가 사용할 테셀레이션 계수의 최댓값 (하드웨어는 이 정보로 최적화)
HullOut HS(InputPatch<VertexOut, 4> p,
	uint i : SV_OutputControlPointID,
        uint patchId : SV_PrimitiveID)
{
	HullOut hout;
    hout.PosL = p[i].PosL;
    return hout;
}

14.3 테셀레이터 단계

상수 덮개 셰이더가 출력한  테셀레이션 계수들에 기초해서 패치들을 테셀레이션하고 정점들을 생성해 출력한다.

 

14.4 영역 셰이더

테셀레이터 단계에서 출력된 정점마다 한 번씩 호출됨, 동차 절단 공간으로 변환하는 역할

세 가지 종류의 입력을 받는다.

1. 테셀레이션된 정점 위치의 매개변수화된 좌표 (u, v)

2. 제어점 덮개 셰이더가 출력한 제어점

3. 상수 덮개 셰이더가 출력한 테셀레이션 계수들

struct DomainOut
{
	float4 PosH : SV_POSITION;
};

[domain("quad")]
DomainOut DS(PatchTess patchTess, // 상수 덮개 셰이더가 출력한 테셀레이션 계수들
		float2 uv : SV_DomainLocation, // 테셀레이터 단계에서 얻은 정점의 매개변수화된 좌표
           	const OutputPatch<HullOut, 4> quad) // 제어점 덮개 셰이더가 출력한 제어점 패치
{
	DomainOut dout;
    
    float3 v1 = lerp(quad[0].PosL, quad[1].PosL, uv.x);
    float3 v2 = lerp(quad[2].posL, quad[3].PosL, uv.x);
    float3 p = lerp(v1, v2, uv.y);
    
    float4 posW = mul(float4(p, 1.0f), gWorld); //
    dout.PosH = mul(posW, gViewProj); 			// 동차 좌표계로 변환
    
    return dout;
}

14.6 삼차 베지에 사각형 패치

다수의 제어점을 이용해서 곡면을 생성하는 방법

삼차 베지어 매개변수 공식
삼차 베지에 곡선
삼차 베지에 곡선의 도함수 (곡선의 접선 벡터를 계산할 때 유용)

14.6.2. 삼차 베지에 곡면

영역 셰이더에서 계산이 일어남

 

테셀레이터 단계에서 만들어진 정점의 좌표 uv의 0과 1사이의 v.x 와 uv.y 값을 삼차 베지에 공식의 t에 집어 넣음

테셀레이션되어 생성된 정점들 각각의 위치 (정점 한 개) 를 계산하는데 16개의 제어점이 모두 쓰인다.

 

1.

사각형 패치 대신 삼각형 패치를 테셀레이션 한 결과
삼각형 패치를 입력으로 받는 영역 셰이더 함수
정점 버퍼에 넣을 정점 배열도 수정한다.

5.

2차 베지에 곡면에 대한 매개변수 방정식 p(u, v)

7. 8.

제어점이 아홉 개인 이차 베지에 곡면

베지에 곡면 예제를 제어점이 아홉 개인 이차 베지에 곡면을 사용하도록 만들고, 곡면에 색조와 조명을 적용했다.

기존 3차 베지에 곡면 구현을 위해 16개의 제어점이 사용되던 것을 9개로 줄였다.

베지에 곡면 관련 함수를 수정하였다.

픽셀 셰이더에서 조명을 계산하기 위해 법선 벡터를 u, v에 대한 편미분 계수를 외적함으로써 구했고, uv 값은 텍스처 좌표값에 대응되도록 하였다.

 

연습문제 파일

https://github.com/lemonyun/Directx12_study/tree/main/14

 

GitHub - lemonyun/Directx12_study: 2022/06/10

2022/06/10. Contribute to lemonyun/Directx12_study development by creating an account on GitHub.

github.com

 

 

GPU는 임의 메모리 접근을 염두에 두고 설계된 CPU와 대조적으로 하나의 저장 장소 또는 연속된 저장 장소들에서 대량의 메모리를 읽어서 처리하는 작업에 최적화되어 있다.

 

계산 셰이더는 렌더링 파이프라인 옆에 따로 존재하며, GPU 자원의 자료를 직접 읽어 들이거나 GPU 자원에 직접 자료를 기록할 수 있다.

 

페르미 아키텍처는 SM을 16개 사용

SM(Streaming Multiprocessor) = 다중 처리기

ㄴ SP 32개를 사용

 

SP(Streaming Processor) = CUDA 코어

ㄴ 코어 하나당 스레드하나 담당

 

GPGPU 프로그래밍 (general purpose GPU) 

ㄴ GPU를 비그래픽 분야에 응용하는 것

ㄴ GPU가 계산한 결과를 CPU에서 읽어야 하는 경우가 많다.

ㄴ 자료 병렬성이 있는 알고리즘을 사용해야 한다.

 

13.1 스레드와 스레드 그룹

다중 처리기당 적어도 두 개의 스레드 그룹을 두는 것이 바람직

각 스레드 그룹에는 그룹의 모든 스레드가 접근할 수 있는 공유 메모리가 주어짐

다중 처리기는 하나의 워프(32개 스레드)를 SIMD32 단위로 처리함.

스레드 그룹의 크기는 워프 크기(32)의 배수인 것이 바람직하다. (AMD의 경우 웨이브프런트(64)의 배수)

 

13.2 계산 셰이더

스레드 그룹을 격자 형태로 분배 (cmdlist->Dispatch)

스레드 그룹 하나의 스레드 개수 구성 (계산 셰이더)

계산 셰이더는 D3D12_COMPUTE_PIPELINE_STATE_DESC 구조체를 서술

 

텍스처자원은 cmdlist->SetGraphicsRootDescriptorTable

UAV자원은 cmdlist->SetComputRootDescriptorTable

 

계산 셰이더는 각 스레드에서 실행된다.

 

13.3 자료 입력 자원과 출력 자원

SRV는 읽기 전용 서술자이다.

출력 자원을 계산 셰이더에 묶으려면

UAV 자원을 ALLOW_UNORDERED_ACCESS 플래그를 지정해서 만들고 D3D12_UNORDERED_ACCESS_VIEW_DESC 구조체를 서술해 UAV 서술자를 만들어야 한다. 

 

출력 자원은 RW 접두사가 붙으며 출력 원소의 형식과 차원을 < > 으로 지정해야한다.

ㄴ 예시 : RWTexture2D<int2> gOutput;

 

 

텍스처 필터링을 거친 표본을 사용할 경우 문제점

1. Sample 메서드를 사용할 수 없어서 SampleLevel 메서드를 사용하여 텍스처 필터링을 통해서 텍스처의 표본을 추출해야 한다.

2. 정수 색인이 아닌 [0, 1] 구간으로 정규화된 텍스처 좌표를 사용해야 한다. [ x / 텍스처 너비, y / 텍스처 높이 ] 를 사용해야 한다.

 

13.3.4 구조적 버퍼 자원

SRV 버퍼 자원은 정점 버퍼 자원을 기본 힙에 만들어 올리는 것과 동일한 방법으로 하면 된다.

UAV 버퍼 자원은 생성할때 자원 상태와 플래그를 UNORDERED_ACCESS로 해줘야 한다

 

struct Data

{

float3 v1;

float2 v2;

}

 

(.hlsl)

StructuredBuffer<Data> gInputA : register(t0);

StructuredBuffer<Data> gInputB : register(t1);

StructuredBuffer<Data> gOutput : register(u0);

 

(응용 프로그램)

slotRootParameter[0].InitAsShaderResourceView(0);

slotRootParameter[1].InitAsShaderResourceView(1);

slotRootParameter[2].InitAsUnorderedAccessView(0);

 

루트 서술자들을 받는 루트 서명은 서술자 힙을 거치지 않고 자원의 가상 주소를 루트 인수로서 직접 전달할 수 있는데 이 방법은 텍스처가 아니라 버퍼 자원에 대한 SRV와 UAV에만 가능하다.

 

13.3.5 계산 셰이더의 결과를 시스템 메모리에 복사

계산 셰이더에서 UAV 버퍼 자원에 결과값을 저장하고 메모리에 복사하기 위해서는 힙 속성이 READBACK인 자원(UAV 버퍼와 자료 형식과 크기가 동일) 을 만든 뒤에 cmdlist->CopyResource 메서드를 이용해 자원을 READBACK 버퍼에 복사한다. 이후 Map 함수로 자료를 매핑하여 CPU에서 읽을 수 있도록 한다.

 

13.4 스레드 식별 시스템 값

그룹 ID (SV_GroupID) : 그룹 ID

그룹 스레드 ID (SV_GroupThreadID) : 그룹 내에서 각 스레드의 ID

배분 스레드 ID : SV_DispatchThreadID

3가지 식별 값 모두 int3의 자료형을 가진다.

 

13.5 추가 버퍼와 소비 버퍼

자료를 계산하는 순서가 중요하지 않은 경우 추가 버퍼와 소비 버퍼라고 불리는 종류의 구조적 버퍼를 사용하는 것이 좋다.

 

ConsumeStructuredBuffer<Particle> gInput;

AppendStructuredBuffer<Particle> gOutput;

 

Particle  p = gInput.Consume();

 

gOutput.Append(p);

 

13.6 공유 메모리와 동기화

groupshared float gCache[256]; // 스레드 그룹마다 하나씩 존재

공유 메모리의 흔한 용도는 텍스처 값을 저장하는 것이다. 동일한 텍스처를 여러 번 추출하는 것은 느리기 때문에 

 

스레드 그룹 내 각 스레드가 gCache (공유 메모리)에 값을 저장을 완료하기 전에 gCache 내용을 사용하려 하면 안되기 때문에, GroupMemoryBarrierWithGroupSync() 함수를 사용해 스레드가 모두 공유 메모리에 값을 기록하기 전까지 대기하도록 만들어야 한다.

 

13.7.2 텍스처 대상 렌더링 기법

원래 후면버퍼를 화면에 출력하는 방법

후면버퍼 = 텍스처

텍스처에 대한 rtv 서술자를 출력 병합기 단계에 묶고(OMSetRenderTargets) Present 함수 호출하여 화면에 후면 버퍼 용 출력

 

또 다른 텍스처를 생성하고 그에 대한 rtv 를 만들어서 똑같이 진행해도 가능함 (화면 밖 텍스처 대상 렌더링 방법)

텍스처 대상 렌더링 기법의 용도

1. 그림자 매핑

2. 화면 공간 주변광 차폐 (SSAO)

3. 입방체 맵을 이용한 동적 반사

 

연습문제

1. 2. 3.

1번 2번 문제는 해결했으나 3번 문제는 해결하지 못했다.

계산 셰이더와 출력 결과값 파일
UAV로 사용할 버퍼 자원을 만들고 입력 자료로 사용할 자료를 임시 업로드 버퍼를 사용하여 복사했다. (정점 버퍼 올리는 방법과 동일)
DX11의 UAV FLAG
DX12의 UAV FLAG

DX11에서는 버퍼에 대한 UAV를 만들 때 D3D11_BUFFER_UAV_FLAG_APPEND를 지정하면 해당 버퍼를 셰이더에서 추가 버퍼 혹은 소비 버퍼로 인식하게 만들 수 있는 거 같은데 책과 인터넷을 찾아봐도 DX12에서 추가 소비 버퍼의 사용 예제가 보이질 않는다. FLAG_NONE을 대체하여 사용해봤는데 계산 셰이더가 제대로 작동하지 않는다. 책에서도 이에 대한 설명이 부실하여 일단은 넘어가도록 해야겠다.

D3D12_BUFFER_UAV_FLAG_APPEND는 없다..?

UAV_FLAG_NONE으로 설정하고 셰이더 파일에서 추가 소비 버퍼를 사용하는 대신에 구조적 버퍼(RWStructuredBuffer)로 바꿔주기만 해도 정상적으로 결과가 나온다.

 

5.

예제가 이미 만들어져 있어서 성능 비교만 했다. 격자 크기 512x512 시뮬레이션 대신에 256x256으로 진행하였다.(512로 하면 CPU 버전에서 파도가 렌더링되지 않음)

CPU에서 파도를 처리하는 경우
계산 셰이더(GPU) 에서 파도를 처리하는 경우

GPU에서 계산을 수행하는 것이 CPU에서 수행하는 것보다 처리가 확연하게 빠름을 알 수 있었다.

CPU를 사용한 프로그램은 괜찮았는데 계산 셰이더를 사용한 프로그램을 돌리니 GPU에서 평소에 듣지 못하던 소음이 발생했다.

 

동작 과정:

Disturb가 발생할 때 mCurrsolUav 서술자가 가리키는 버퍼에 계산 셰이더를 이용해서 파도를 일으키면 (계산 셰이더1)

Update마다 mCurrsolUav와 mPrevSolUav를 이용해 mNextSolUav에 다음 정점 위치를 계산하여 기록한다 (계산 셰이더2)

Update가 끝나면 srv, uav, 자원을 서로바꿔준다. (prev를 next로 curr을 prev로 next를 curr로)

 

연습문제 파일

https://github.com/lemonyun/Directx12_study/tree/main/13

 

GitHub - lemonyun/Directx12_study: 2022/06/10

2022/06/10. Contribute to lemonyun/Directx12_study development by creating an account on GitHub.

github.com

'읽은 책 > DirectX 12를 이용한 3D 게임 프로그래밍 입문' 카테고리의 다른 글

15. 1인칭 카메라 구축과 동적 색인화  (1) 2022.06.29
14. 테셀레이션 단계들  (0) 2022.06.29
12. 기하 셰이더  (0) 2022.06.24
11. 스텐실 적용  (0) 2022.06.22
10. 혼합  (0) 2022.06.22

 

기하 셰이더는 기본도형을 입력받는다. 기본도형 마다 기하 셰이더가 실행된다.

기하 셰이더는 기하구조를 새로 생성하거나 폐기할 수 있다.

기하 셰이더에서 나오는 정점 위치들은 반드시 동차 절단 공간으로 변환된 것이어야 한다.

12.1 기하 셰이더 프로그래밍

기하셰이더 한번의 호출로 출력할 최대 정점의 개수를 함수 정의 앞에 붙여야 한다.

[maxvertexCount(N)]

ㄴ N이 지나치게 크면 성능상의 문제가 생길 수 있다.

 

기하 셰이더의 입력 매개변수

ㄴ 입력되는 기본도형의 종류를 명시해야 한다. (point, line, triangle, lineadj, triangleadj)

기하 셰이더의 출력 매개변수

ㄴ inout 붙여야 한다.

ㄴ 기하 셰이더가 출력하는 기본도형의 정점들을 담는 스트림 형식의 객체를 사용한다. 

ㄴ 스트림 형식에 따라 기하 셰이더에서 나온 정점들이 만드는 기본도형의 종류가 달라진다. (PointStream, LineStream, TriangleStream)

 

TriangleStream 같은 경우 삼각형 띠를 출력하는데, 삼각형 목록을 출력하고 싶으면 RestartStrip을 사용하여 흉내낼 수 있다.

 

12.2 빌보드 기법

멀리 있는 물체를 3차원으로 렌더링 하는 대신 2차원 텍스처로 렌더링하고 카메라를 바라보도록 만드는 방법

 

 

기하 셰이더의 입력으로 들어오는 부호 없는 정수 매개변수의 의미소 형식 SV_PrimitiveID

ㄴ 입력 조립기 단계에서 기본도형마다 ID를 부여한다. ( 0, 1, 2 ... )

ㄴ 기하 셰이더나 픽셀 셰이더에서 사용할 수 있다.

 

12.3 텍스처 배열

텍스처 배열은 하나의 자원이다. 자원 서술 구조체에 DepthOrArraySize라는 필드가 있는데 원하는 배열 크기를 여기에 적으면 된다.

 

일반 텍스처 (Texture2D)

gDiffuseMap.Sample(gsamAnisotropicWrap, pin.TexC) * gDiffuseAlbedo;

 

텍스처 배열 (Texture2DArray)

float3 uvw = float3(pin.TexC, pin.PrimID%3);
float4 diffuseAlbedo = gTreeMapArray.Sample(gsamAnisotropicWrap, uvw) * gDiffuseAlbedo;

 

한번의 텍스처 배열 설정과 한번의 그리기 호출로 여러 기본도형에 서로 다른 텍스처를 그릴 수 있다. 

 

12.3.3 텍스처 배열 적재

밉맵 수준이 하나인 dds들을 합쳐서 텍스처 배열을 담은 dds 파일 하나를 만든다. (texassemble 도구)

그 후에 밉맵 생성, 픽셀 형식 변경 할 수 있다. (texconv 도구)

 

12.3.4 텍스처 부분 자원

텍스처 배열의 부분자원에 부여된 색인의 순서는 이렇게 된다.

12.4 알파 포괄도 변환

혼합 설정에서 AlphaToCoverage을 켜게 되면 MSAA 포괄도 계산시에 다각형 기준의 부분픽셀 중심의 위치만 고려하는 것이 아니라 알파 채널도 고려하게 된다.

일반적으로 불규칙한 형태를 알파 채널로 오려내느 식으로 활용하는 텍스처에 대해 사용하는 것이 바람직하다.

기본적으로 MSAA가 활성화 되어있어야 한다.

 

연습문제

1.

7장 예제 프로그램을 변형하여 진행했다.

GeometryGenerator에 xz평면에 만들어지는 원 기하구조를 생성하는 함수를 만들었다.
Default.hlsl의 정점셰이더와 픽셀셰이더로 그린 원의 기하구조
circle.hlsl의 기하 셰이더 함수

기본도형으로 line을 입력받아 2개의 정점을 linestream(선 띠) 형태로 출력하도록 만들었다.

출력되는 정점의 첫 번째 정점은 입력받은 line이 이루는 두 정점의 가운데 점이고

두번째 정점은 그 점에 y 값을 + 4.0f 해준 값이다.

결과

2.

시점과의 거리에 따른 세부 수준(LOD) 변화 구현

기하구조의 중심의 위치는 원점

시점과 기하구조의 거리에 따라 다른 스트림을 출력하도록 기하 셰이더 내부에서 다른 함수들을 사용한다.

4.

메시의 정점 법선 시각화
모든 renderitem의 정점 법선을 시각화 한다.
정점 법선 시각화를 위한 pso
정점 법선 기하 셰이더

정점을 기본도형으로 입력받아 정점 두개로 이루어진 line (법선)을 출력하는 기하 셰이더이다.

 

연습문제 파일

https://github.com/lemonyun/Directx12_study/tree/main/12

 

GitHub - lemonyun/Directx12_study: 2022/06/10

2022/06/10. Contribute to lemonyun/Directx12_study development by creating an account on GitHub.

github.com

 

'읽은 책 > DirectX 12를 이용한 3D 게임 프로그래밍 입문' 카테고리의 다른 글

14. 테셀레이션 단계들  (0) 2022.06.29
13. 계산 셰이더  (0) 2022.06.28
11. 스텐실 적용  (0) 2022.06.22
10. 혼합  (0) 2022.06.22
9. 텍스처 적용  (0) 2022.06.21

+ Recent posts