qzdoom-gpl/src/tmap3.nas

%ifdef M_TARGET_WATCOM
  SEGMENT DATA PUBLIC ALIGN=16 CLASS=DATA USE32
  SEGMENT DATA
%else
  SECTION .data
%endif

%ifndef M_TARGET_LINUX
%define ylookup		_ylookup
%define vplce		_vplce
%define vince		_vince
%define palookupoffse	_palookupoffse
%define bufplce		_bufplce
%define dc_iscale	_dc_iscale
%define dc_colormap	_dc_colormap
%define dc_count	_dc_count
%define dc_dest		_dc_dest
%define dc_source	_dc_source
%define dc_texturefrac	_dc_texturefrac
%define dc_pitch	_dc_pitch

%define setupvlinetallasm	_setupvlinetallasm
%define vlinetallasm4		_vlinetallasm4
%define vlinetallasmathlon4	_vlinetallasmathlon4
%define vlinetallasm1		_vlinetallasm1
%define prevlinetallasm1	_prevlinetallasm1
%endif

EXTERN vplce
EXTERN vince
EXTERN palookupoffse
EXTERN bufplce

EXTERN ylookup
EXTERN dc_iscale
EXTERN dc_colormap
EXTERN dc_count
EXTERN dc_dest
EXTERN dc_source
EXTERN dc_texturefrac
EXTERN dc_pitch

GLOBAL vlt4pitch
GLOBAL vlt1pitch

%ifdef M_TARGET_WATCOM
  SEGMENT CODE PUBLIC ALIGN=16 CLASS=CODE USE32
  SEGMENT CODE
%else
  SECTION .text
%endif

ALIGN 16
GLOBAL setpitch3
setpitch3:
	mov	[vltpitch+2], eax
	mov	[vltpitcha+2],eax
	mov	[vlt1pitch1+2], eax
	mov	[vlt1pitch2+2], eax
	ret

ALIGN 16
GLOBAL setupvlinetallasm
setupvlinetallasm:
	mov	ecx, [esp+4]
	mov	[shifter1+2], cl
	mov	[shifter2+2], cl
	mov	[shifter3+2], cl
	mov	[shifter4+2], cl
	mov	[shifter1a+2], cl
	mov	[shifter2a+2], cl
	mov	[shifter3a+2], cl
	mov	[shifter4a+2], cl
	mov	[preshift+2], cl
	mov	[shift11+2], cl
	mov	[shift12+2], cl
	ret

	SECTION .rtext	progbits alloc exec write align=64

ALIGN 16

GLOBAL vlinetallasm4
vlinetallasm4:
	push	ebx
	mov	eax, [bufplce+0]
	mov	ebx, [bufplce+4]
	mov	ecx, [bufplce+8]
	mov	edx, [bufplce+12]
	mov	[source1+3], eax
	mov	[source2+3], ebx
	mov	[source3+3], ecx
	mov	[source4+3], edx
	mov	eax, [palookupoffse+0]
	mov	ebx, [palookupoffse+4]
	mov	ecx, [palookupoffse+8]
	mov	edx, [palookupoffse+12]
	mov	[lookup1+2], eax
	mov	[lookup2+2], ebx
	mov	[lookup3+2], ecx
	mov	[lookup4+2], edx
	mov	eax, [vince+0]
	mov	ebx, [vince+4]
	mov	ecx, [vince+8]
	mov	edx, [vince+12]
	mov	[step1+2], eax
	mov	[step2+2], ebx
	mov	[step3+2], ecx
	mov	[step4+1], edx
	push	ebp
	push	esi
	push	edi
	mov	ecx, [dc_count]
	mov	edi, [dc_dest]
	mov	eax, dword [ylookup+ecx*4-4]
	add	eax, edi
	sub	edi, eax
	mov	[write1+2],eax
	inc	eax
	mov	[write2+2],eax
	inc	eax
	mov	[write3+2],eax
	inc	eax
	mov	[write4+2],eax
	mov	ebx, [vplce]
	mov	ecx, [vplce+4]
	mov	esi, [vplce+8]
	mov	eax, [vplce+12]
	jmp	loopit

ALIGN	16
loopit:
		mov	edx, ebx
shifter1:	shr	edx, 24
source1:	movzx	edx, BYTE [edx+0x88888888]
lookup1:	mov	dl, [edx+0x88888888]
write1:		mov	[edi+0x88888880], dl
step1:		add	ebx, 0x88888888
		mov	edx, ecx
shifter2:	shr	edx, 24
source2:	movzx	edx, BYTE [edx+0x88888888]
lookup2:	mov	dl, [edx+0x88888888]
write2:		mov	[edi+0x88888881], dl
step2:		add	ecx, 0x88888888
		mov	edx, esi
shifter3:	shr	edx, 24
source3:	movzx	edx, BYTE [edx+0x88888888]
lookup3:	mov	dl, BYTE [edx+0x88888888]
write3:		mov	[edi+0x88888882], dl
step3:		add	esi, 0x88888888
		mov	edx, eax
shifter4:	shr	edx, 24
source4:	movzx	edx, BYTE [edx+0x88888888]
lookup4:	mov	dl, [edx+0x88888888]
write4:		mov	[edi+0x88888883], dl
step4:		add	eax, 0x88888888
vltpitch:	add	edi, 320
		jle	near loopit

	mov	[vplce], ebx
	mov	[vplce+4], ecx
	mov	[vplce+8], esi
	mov	[vplce+12], eax

	pop	edi
	pop	esi
	pop	ebp
	pop	ebx

	ret

	ALIGN	16

GLOBAL vlinetallasmathlon4
vlinetallasmathlon4:
	push	ebx
	mov	eax, [bufplce+0]
	mov	ebx, [bufplce+4]
	mov	ecx, [bufplce+8]
	mov	edx, [bufplce+12]
	mov	[source1a+3], eax
	mov	[source2a+3], ebx
	mov	[source3a+3], ecx
	mov	[source4a+3], edx
	mov	eax, [palookupoffse+0]
	mov	ebx, [palookupoffse+4]
	mov	ecx, [palookupoffse+8]
	mov	edx, [palookupoffse+12]
	mov	[lookup1a+2], eax
	mov	[lookup2a+2], ebx
	mov	[lookup3a+2], ecx
	mov	[lookup4a+2], edx
	mov	eax, [vince+0]
	mov	ebx, [vince+4]
	mov	ecx, [vince+8]
	mov	edx, [vince+12]
	mov	[step1a+2], eax
	mov	[step2a+2], ebx
	mov	[step3a+2], ecx
	mov	[step4a+1], edx
	push	ebp
	push	esi
	push	edi
	mov	ecx, [dc_count]
	mov	edi, [dc_dest]
	mov	eax, dword [ylookup+ecx*4-4]
	add	eax, edi
	sub	edi, eax
	mov	[write1a+2],eax
	inc	eax
	mov	[write2a+2],eax
	inc	eax
	mov	[write3a+2],eax
	inc	eax
	mov	[write4a+2],eax
	mov	ebp, [vplce]
	mov	ecx, [vplce+4]
	mov	esi, [vplce+8]
	mov	eax, [vplce+12]
	jmp	loopita

; Unfortunately, this code has not been carefully analyzed to determine
; how well it utilizes the processor's instruction units. Instead, I just
; kept rearranging code, seeing what sped it up and what slowed it down
; until I arrived at this. The is the fastest version I was able to
; manage, but that does not mean it cannot be made faster with careful
; instructing shuffling.

		ALIGN	64
		
loopita:	mov	edx, ebp
		mov	ebx, ecx
shifter1a:	shr	edx, 24
shifter2a:	shr	ebx, 24
source1a:	movzx	edx, BYTE [edx+0x88888888]
source2a:	movzx	ebx, BYTE [ebx+0x88888888]
step1a:		add	ebp, 0x88888888
step2a:		add	ecx, 0x88888888
lookup1a:	mov	dl, [edx+0x88888888]
lookup2a:	mov	dh, [ebx+0x88888888]
		mov	ebx, esi
write1a:	mov	[edi+0x88888880], dl
write2a:	mov	[edi+0x88888881], dh
shifter3a:	shr	ebx, 24
		mov	edx, eax
source3a:	movzx	ebx, BYTE [ebx+0x88888888]
shifter4a:	shr	edx, 24
step3a:		add	esi, 0x88888888
source4a:	movzx	edx, BYTE [edx+0x88888888]
step4a:		add	eax, 0x88888888
lookup3a:	mov	bl, [ebx+0x88888888]
lookup4a:	mov	dl, [edx+0x88888888]
write3a:	mov	[edi+0x88888882], bl
write4a:	mov	[edi+0x88888883], dl
vltpitcha:	add	edi, 320
		jle	near loopita

	mov	[vplce], ebp
	mov	[vplce+4], ecx
	mov	[vplce+8], esi
	mov	[vplce+12], eax

	pop	edi
	pop	esi
	pop	ebp
	pop	ebx

	ret

ALIGN 16
GLOBAL prevlinetallasm1
prevlinetallasm1:
		mov	ecx, [dc_count]
		cmp	ecx, 1
		ja	vlinetallasm1

		mov	eax, [dc_iscale]
		mov	edx, [dc_texturefrac]
		add	eax, edx
		mov	ecx, [dc_source]
preshift: 	shr	edx, 16
		push	ebx
		push	edi
		mov	edi, [dc_colormap]
		movzx	ebx, byte [ecx+edx]
		mov	ecx, [dc_dest]
		mov	bl, byte [edi+ebx]
		pop	edi
		mov	byte [ecx], bl
		pop	ebx
		ret

ALIGN 16
GLOBAL vlinetallasm1
vlinetallasm1:
		push	ebp
		push	ebx
		push	edi
		push	esi

		mov	ebp, [dc_count]
		mov	ebx, [dc_texturefrac]	; ebx = frac
		mov	edi, [dc_dest]
		mov	ecx, ebx
shift11:	shr	ecx, 16
		mov	esi, [dc_source]
		mov	edx, [dc_iscale]
vlt1pitch1:	sub	edi, 0x88888888
		mov	eax, [dc_colormap]

loop2:
		movzx	ecx, BYTE [esi+ecx]
		add	ebx, edx
vlt1pitch2:	add	edi, 0x88888888
		mov	cl,[eax+ecx]
		mov	[edi],cl
		mov	ecx,ebx
shift12:	shr	ecx,16
		dec	ebp
		jnz	loop2

		mov	eax,ebx
		pop	esi
		pop	edi
		pop	ebx
		pop	ebp
		ret
Directory restructuring to make it easier to version projects that don't build zdoom.exe. SVN r4 (trunk) 2006-02-24 04:48:15 +00:00			`%ifdef M_TARGET_WATCOM`
			`SEGMENT DATA PUBLIC ALIGN=16 CLASS=DATA USE32`
			`SEGMENT DATA`
			`%else`
			`SECTION .data`
			`%endif`

			`%ifndef M_TARGET_LINUX`
			`%define ylookup _ylookup`
			`%define vplce _vplce`
			`%define vince _vince`
			`%define palookupoffse _palookupoffse`
			`%define bufplce _bufplce`
			`%define dc_iscale _dc_iscale`
			`%define dc_colormap _dc_colormap`
			`%define dc_count _dc_count`
			`%define dc_dest _dc_dest`
			`%define dc_source _dc_source`
			`%define dc_texturefrac _dc_texturefrac`
			`%define dc_pitch _dc_pitch`

			`%define setupvlinetallasm _setupvlinetallasm`
			`%define vlinetallasm4 _vlinetallasm4`
			`%define vlinetallasmathlon4 _vlinetallasmathlon4`
			`%define vlinetallasm1 _vlinetallasm1`
			`%define prevlinetallasm1 _prevlinetallasm1`
			`%endif`

			`EXTERN vplce`
			`EXTERN vince`
			`EXTERN palookupoffse`
			`EXTERN bufplce`

			`EXTERN ylookup`
			`EXTERN dc_iscale`
			`EXTERN dc_colormap`
			`EXTERN dc_count`
			`EXTERN dc_dest`
			`EXTERN dc_source`
			`EXTERN dc_texturefrac`
			`EXTERN dc_pitch`

			`GLOBAL vlt4pitch`
			`GLOBAL vlt1pitch`

			`%ifdef M_TARGET_WATCOM`
			`SEGMENT CODE PUBLIC ALIGN=16 CLASS=CODE USE32`
			`SEGMENT CODE`
			`%else`
			`SECTION .text`
			`%endif`

			`ALIGN 16`
			`GLOBAL setpitch3`
			`setpitch3:`
			`mov [vltpitch+2], eax`
			`mov [vltpitcha+2],eax`
			`mov [vlt1pitch1+2], eax`
			`mov [vlt1pitch2+2], eax`
			`ret`

			`ALIGN 16`
			`GLOBAL setupvlinetallasm`
			`setupvlinetallasm:`
			`mov ecx, [esp+4]`
			`mov [shifter1+2], cl`
			`mov [shifter2+2], cl`
			`mov [shifter3+2], cl`
			`mov [shifter4+2], cl`
			`mov [shifter1a+2], cl`
			`mov [shifter2a+2], cl`
			`mov [shifter3a+2], cl`
			`mov [shifter4a+2], cl`
			`mov [preshift+2], cl`
			`mov [shift11+2], cl`
			`mov [shift12+2], cl`
			`ret`

			`SECTION .rtext progbits alloc exec write align=64`

			`ALIGN 16`

			`GLOBAL vlinetallasm4`
			`vlinetallasm4:`
			`push ebx`
			`mov eax, [bufplce+0]`
			`mov ebx, [bufplce+4]`
			`mov ecx, [bufplce+8]`
			`mov edx, [bufplce+12]`
			`mov [source1+3], eax`
			`mov [source2+3], ebx`
			`mov [source3+3], ecx`
			`mov [source4+3], edx`
			`mov eax, [palookupoffse+0]`
			`mov ebx, [palookupoffse+4]`
			`mov ecx, [palookupoffse+8]`
			`mov edx, [palookupoffse+12]`
			`mov [lookup1+2], eax`
			`mov [lookup2+2], ebx`
			`mov [lookup3+2], ecx`
			`mov [lookup4+2], edx`
			`mov eax, [vince+0]`
			`mov ebx, [vince+4]`
			`mov ecx, [vince+8]`
			`mov edx, [vince+12]`
			`mov [step1+2], eax`
			`mov [step2+2], ebx`
			`mov [step3+2], ecx`
			`mov [step4+1], edx`
			`push ebp`
			`push esi`
			`push edi`
			`mov ecx, [dc_count]`
			`mov edi, [dc_dest]`
			`mov eax, dword [ylookup+ecx*4-4]`
			`add eax, edi`
			`sub edi, eax`
			`mov [write1+2],eax`
			`inc eax`
			`mov [write2+2],eax`
			`inc eax`
			`mov [write3+2],eax`
			`inc eax`
			`mov [write4+2],eax`
			`mov ebx, [vplce]`
			`mov ecx, [vplce+4]`
			`mov esi, [vplce+8]`
			`mov eax, [vplce+12]`
			`jmp loopit`

			`ALIGN 16`
			`loopit:`
			`mov edx, ebx`
			`shifter1: shr edx, 24`
			`source1: movzx edx, BYTE [edx+0x88888888]`
			`lookup1: mov dl, [edx+0x88888888]`
			`write1: mov [edi+0x88888880], dl`
			`step1: add ebx, 0x88888888`
			`mov edx, ecx`
			`shifter2: shr edx, 24`
			`source2: movzx edx, BYTE [edx+0x88888888]`
			`lookup2: mov dl, [edx+0x88888888]`
			`write2: mov [edi+0x88888881], dl`
			`step2: add ecx, 0x88888888`
			`mov edx, esi`
			`shifter3: shr edx, 24`
			`source3: movzx edx, BYTE [edx+0x88888888]`
			`lookup3: mov dl, BYTE [edx+0x88888888]`
			`write3: mov [edi+0x88888882], dl`
			`step3: add esi, 0x88888888`
			`mov edx, eax`
			`shifter4: shr edx, 24`
			`source4: movzx edx, BYTE [edx+0x88888888]`
			`lookup4: mov dl, [edx+0x88888888]`
			`write4: mov [edi+0x88888883], dl`
			`step4: add eax, 0x88888888`
			`vltpitch: add edi, 320`
			`jle near loopit`

			`mov [vplce], ebx`
			`mov [vplce+4], ecx`
			`mov [vplce+8], esi`
			`mov [vplce+12], eax`

			`pop edi`
			`pop esi`
			`pop ebp`
			`pop ebx`

			`ret`

			`ALIGN 16`

			`GLOBAL vlinetallasmathlon4`
			`vlinetallasmathlon4:`
			`push ebx`
			`mov eax, [bufplce+0]`
			`mov ebx, [bufplce+4]`
			`mov ecx, [bufplce+8]`
			`mov edx, [bufplce+12]`
			`mov [source1a+3], eax`
			`mov [source2a+3], ebx`
			`mov [source3a+3], ecx`
			`mov [source4a+3], edx`
			`mov eax, [palookupoffse+0]`
			`mov ebx, [palookupoffse+4]`
			`mov ecx, [palookupoffse+8]`
			`mov edx, [palookupoffse+12]`
			`mov [lookup1a+2], eax`
			`mov [lookup2a+2], ebx`
			`mov [lookup3a+2], ecx`
			`mov [lookup4a+2], edx`
			`mov eax, [vince+0]`
			`mov ebx, [vince+4]`
			`mov ecx, [vince+8]`
			`mov edx, [vince+12]`
			`mov [step1a+2], eax`
			`mov [step2a+2], ebx`
			`mov [step3a+2], ecx`
			`mov [step4a+1], edx`
			`push ebp`
			`push esi`
			`push edi`
			`mov ecx, [dc_count]`
			`mov edi, [dc_dest]`
			`mov eax, dword [ylookup+ecx*4-4]`
			`add eax, edi`
			`sub edi, eax`
			`mov [write1a+2],eax`
			`inc eax`
			`mov [write2a+2],eax`
			`inc eax`
			`mov [write3a+2],eax`
			`inc eax`
			`mov [write4a+2],eax`
			`mov ebp, [vplce]`
			`mov ecx, [vplce+4]`
			`mov esi, [vplce+8]`
			`mov eax, [vplce+12]`
			`jmp loopita`

			`; Unfortunately, this code has not been carefully analyzed to determine`
			`; how well it utilizes the processor's instruction units. Instead, I just`
			`; kept rearranging code, seeing what sped it up and what slowed it down`
			`; until I arrived at this. The is the fastest version I was able to`
			`; manage, but that does not mean it cannot be made faster with careful`
			`; instructing shuffling.`

			`ALIGN 64`

			`loopita: mov edx, ebp`
			`mov ebx, ecx`
			`shifter1a: shr edx, 24`
			`shifter2a: shr ebx, 24`
			`source1a: movzx edx, BYTE [edx+0x88888888]`
			`source2a: movzx ebx, BYTE [ebx+0x88888888]`
			`step1a: add ebp, 0x88888888`
			`step2a: add ecx, 0x88888888`
			`lookup1a: mov dl, [edx+0x88888888]`
			`lookup2a: mov dh, [ebx+0x88888888]`
			`mov ebx, esi`
			`write1a: mov [edi+0x88888880], dl`
			`write2a: mov [edi+0x88888881], dh`
			`shifter3a: shr ebx, 24`
			`mov edx, eax`
			`source3a: movzx ebx, BYTE [ebx+0x88888888]`
			`shifter4a: shr edx, 24`
			`step3a: add esi, 0x88888888`
			`source4a: movzx edx, BYTE [edx+0x88888888]`
			`step4a: add eax, 0x88888888`
			`lookup3a: mov bl, [ebx+0x88888888]`
			`lookup4a: mov dl, [edx+0x88888888]`
			`write3a: mov [edi+0x88888882], bl`
			`write4a: mov [edi+0x88888883], dl`
			`vltpitcha: add edi, 320`
			`jle near loopita`

			`mov [vplce], ebp`
			`mov [vplce+4], ecx`
			`mov [vplce+8], esi`
			`mov [vplce+12], eax`

			`pop edi`
			`pop esi`
			`pop ebp`
			`pop ebx`

			`ret`

			`ALIGN 16`
			`GLOBAL prevlinetallasm1`
			`prevlinetallasm1:`
			`mov ecx, [dc_count]`
			`cmp ecx, 1`
			`ja vlinetallasm1`

			`mov eax, [dc_iscale]`
			`mov edx, [dc_texturefrac]`
			`add eax, edx`
			`mov ecx, [dc_source]`
			`preshift: shr edx, 16`
			`push ebx`
			`push edi`
			`mov edi, [dc_colormap]`
			`movzx ebx, byte [ecx+edx]`
			`mov ecx, [dc_dest]`
			`mov bl, byte [edi+ebx]`
			`pop edi`
			`mov byte [ecx], bl`
			`pop ebx`
			`ret`

			`ALIGN 16`
			`GLOBAL vlinetallasm1`
			`vlinetallasm1:`
			`push ebp`
			`push ebx`
			`push edi`
			`push esi`

			`mov ebp, [dc_count]`
			`mov ebx, [dc_texturefrac] ; ebx = frac`
			`mov edi, [dc_dest]`
			`mov ecx, ebx`
			`shift11: shr ecx, 16`
			`mov esi, [dc_source]`
			`mov edx, [dc_iscale]`
			`vlt1pitch1: sub edi, 0x88888888`
			`mov eax, [dc_colormap]`

			`loop2:`
			`movzx ecx, BYTE [esi+ecx]`
			`add ebx, edx`
			`vlt1pitch2: add edi, 0x88888888`
			`mov cl,[eax+ecx]`
			`mov [edi],cl`
			`mov ecx,ebx`
			`shift12: shr ecx,16`
			`dec ebp`
			`jnz loop2`

			`mov eax,ebx`
			`pop esi`
			`pop edi`
			`pop ebx`
			`pop ebp`
			`ret`