Commits · Xenobd/whisper.cpp

ggml : fix loongson compile warnings (llama/7537)

c1442f3

ggerganov junchao-loongson commited on May 31, 2024

faster avx512 exp implementation (llama/7551)

6dbbbab

chriselrod commited on May 30, 2024

ggml : fix loongarch build (O2 issue) (llama/7636)

133ffbf

junchao-loongson commited on May 30, 2024

metal : remove invalid asserts (llama/7617)

562afce

ggerganov commited on May 29, 2024

metal : add missing asserts (llama/7617)

be552ab

ggerganov commited on May 29, 2024

ggml : fix YARN + add tests + add asserts (llama/7617)

15da5f7

ggerganov commited on May 29, 2024

cuda : non-cont concat support (llama/7610)

64d3007

ggerganov commited on May 29, 2024

llama-bench : add support for the RPC backend (llama/7435)

d460266

rgerganov commited on May 29, 2024

ggml : use atomic_flag for critical section (llama/7598)

68c6582

slaren commited on May 29, 2024

examples : adapt to new ggml_concat (ggml/0)

36af6c5

ggerganov commited on May 29, 2024

ggml : fix typo in ggml.c (llama/7603)

f06f1cb

jeffzhou2000 commited on May 29, 2024

Align GEMM dispatch (llama/7566)

2171dc6

hengyu commited on May 28, 2024

sycl : fix assert (llama/7563)

b4fb287

ggerganov commited on May 28, 2024

vulkan: properly initialize vulkan devices for LLAMA_SPLIT_MODE_NONE (llama/7552)

da90a1e

Adriankhl commited on May 28, 2024

rpc : resource management rework (llama/7562)

7571b13

rgerganov commited on May 28, 2024

fix ggml_sycl_mul_mat_id() to match the change of api (llama/7436)

f0ee71c

Neo Zhang commited on May 28, 2024

ggml : generalize GGML_OP_CONCAT (llama/7563)

8d359ad

ggerganov commited on May 28, 2024

update HIP_UMA #7399 (llama/7414)

7097123

Djip007 slaren commited on May 27, 2024

Allow multiple copy function pointers for CUDA graph kernel param updates (llama/7565)

143f6df

agray3 commited on May 27, 2024

Fix q_xxs using mul_mat_q (llama/7459)

0be4f48

AidanBeltonS commited on May 27, 2024

Add freq factors (llama/7495)

340b830

AidanBeltonS commited on May 27, 2024

metal : add GGML_OP_REPEAT kernels (llama/7557)

0534b5d

ggerganov commited on May 27, 2024

metal : disable FA kernel for HS=256 (llama/7556)

0c32e28

ggerganov commited on May 27, 2024

ggml : restore ggml_rope_xpos_inplace (ggml/0)

0641dee

ggerganov commited on May 26, 2024

ggml: aarch64: SVE kernels for q8_0_q8_0, q4_0_q8_0 vector dot (llama/7433)

51f504f

Masaya, Kato commited on May 25, 2024

ggml : silence UB sanitizer error during iq2_xxs quantization (llama/0)

9f41704

ggerganov commited on May 23, 2024

ggml : remove ggml_flash_attn and ggml_flash_ff (llama/7463)

4005bca

ggerganov commited on May 23, 2024

ggml : drop support for QK_K=64 (llama/7473)

8737d46

ggerganov commited on May 23, 2024

Update vulkan rope implementation to support frequency factors (llama/7475)

be0ec58

OccamRazor commited on May 23, 2024

CUDA: fix FA out-of-bounds reads (llama/7479)

b38d0f9

JohannesGaessler commited on May 22, 2024

CUDA: fix FA out-of-bounds writes (llama/7465)

2e26e3a

JohannesGaessler commited on May 22, 2024

cuda : fix compile warning (llama/7454)

58db6c8

ggerganov commited on May 22, 2024

CUDA: remove incorrect precision check (llama/7454)

eb4b5e0

JohannesGaessler commited on May 22, 2024

cuda : fix rope + add tests (llama/7452)

215ce5c

ggerganov commited on May 22, 2024

llama : add phi3 128K model support (llama/7225)

ef68527

liuwei-git

ggerganov commited on May 21, 2024

metal : handle F16 inf values, fix FA partial offload (llama/7434)

8d153a7

ggerganov commited on May 21, 2024

CUDA: fix unused warning in mmq.cu (llama/7442)

f16510d

JohannesGaessler commited on May 21, 2024

CUDA: deduplicate mmq code (llama/7397)

e7b20b1

JohannesGaessler commited on May 21, 2024

rpc : track allocated buffers (llama/7411)

925eb7a

rgerganov commited on May 20, 2024

Update SYCL upscale operation (llama/7321)

3984ba6

AidanBeltonS commited on May 20, 2024

ggml-opencl, llama: using reserve() if count already known (llama/7272)

8325ed5

germanaizek commited on May 20, 2024

ggml : add loongarch lsx and lasx support (llama/6454)

9794ea7

junchao-loongson Jinyang He commited on May 20, 2024

Add provisions for windows support for BF16 code including CMake provision for enabling AVX512_BF16 (llama/7258)

cf52931

Srihari-mcw commited on May 20, 2024

Vulkan Embedding Fix (llama/7360)

2bfeba3

OccamRazor commited on May 19, 2024

ggml : fix another case of quants nans (llama/7387)

645c367

slaren commited on May 19, 2024

ggml: implement quantized KV cache for FA (llama/7372)

aef1b4b

JohannesGaessler commited on May 19, 2024

cuda : clear error after buffer allocation failure (llama/7376)

b7f6691

slaren commited on May 19, 2024

Capture CUDA logging output (llama/7298)

3519475

fraxy-v slaren commited on May 18, 2024

android : use "ci-android" branch for CI (llama/7341)

ff9d573

ggerganov commited on May 18, 2024

CUDA: deduplicate FlashAttention code (llama/7352)

65ab3e8

JohannesGaessler commited on May 18, 2024

Commit History

ggml : fix loongson compile warnings (llama/7537) c1442f3

faster avx512 exp implementation (llama/7551) 6dbbbab

ggml : fix loongarch build (O2 issue) (llama/7636) 133ffbf

metal : remove invalid asserts (llama/7617) 562afce

metal : add missing asserts (llama/7617) be552ab

ggml : fix YARN + add tests + add asserts (llama/7617) 15da5f7

cuda : non-cont concat support (llama/7610) 64d3007

llama-bench : add support for the RPC backend (llama/7435) d460266

ggml : use atomic_flag for critical section (llama/7598) 68c6582

examples : adapt to new ggml_concat (ggml/0) 36af6c5

ggml : fix typo in ggml.c (llama/7603) f06f1cb

Align GEMM dispatch (llama/7566) 2171dc6

sycl : fix assert (llama/7563) b4fb287

vulkan: properly initialize vulkan devices for LLAMA_SPLIT_MODE_NONE (llama/7552) da90a1e

rpc : resource management rework (llama/7562) 7571b13

fix ggml_sycl_mul_mat_id() to match the change of api (llama/7436) f0ee71c

ggml : generalize GGML_OP_CONCAT (llama/7563) 8d359ad

update HIP_UMA #7399 (llama/7414) 7097123

Allow multiple copy function pointers for CUDA graph kernel param updates (llama/7565) 143f6df

Fix q_xxs using mul_mat_q (llama/7459) 0be4f48

Add freq factors (llama/7495) 340b830

metal : add GGML_OP_REPEAT kernels (llama/7557) 0534b5d

metal : disable FA kernel for HS=256 (llama/7556) 0c32e28

ggml : restore ggml_rope_xpos_inplace (ggml/0) 0641dee

ggml: aarch64: SVE kernels for q8_0_q8_0, q4_0_q8_0 vector dot (llama/7433) 51f504f

ggml : silence UB sanitizer error during iq2_xxs quantization (llama/0) 9f41704

ggml : remove ggml_flash_attn and ggml_flash_ff (llama/7463) 4005bca

ggml : drop support for QK_K=64 (llama/7473) 8737d46

Update vulkan rope implementation to support frequency factors (llama/7475) be0ec58

CUDA: fix FA out-of-bounds reads (llama/7479) b38d0f9

CUDA: fix FA out-of-bounds writes (llama/7465) 2e26e3a

cuda : fix compile warning (llama/7454) 58db6c8

CUDA: remove incorrect precision check (llama/7454) eb4b5e0

cuda : fix rope + add tests (llama/7452) 215ce5c

llama : add phi3 128K model support (llama/7225) ef68527

metal : handle F16 inf values, fix FA partial offload (llama/7434) 8d153a7

CUDA: fix unused warning in mmq.cu (llama/7442) f16510d

CUDA: deduplicate mmq code (llama/7397) e7b20b1

rpc : track allocated buffers (llama/7411) 925eb7a

Update SYCL upscale operation (llama/7321) 3984ba6

ggml-opencl, llama: using reserve() if count already known (llama/7272) 8325ed5

ggml : add loongarch lsx and lasx support (llama/6454) 9794ea7

Add provisions for windows support for BF16 code including CMake provision for enabling AVX512_BF16 (llama/7258) cf52931

Vulkan Embedding Fix (llama/7360) 2bfeba3

ggml : fix another case of quants nans (llama/7387) 645c367

ggml: implement quantized KV cache for FA (llama/7372) aef1b4b

cuda : clear error after buffer allocation failure (llama/7376) b7f6691

Capture CUDA logging output (llama/7298) 3519475

android : use "ci-android" branch for CI (llama/7341) ff9d573

CUDA: deduplicate FlashAttention code (llama/7352) 65ab3e8

ggml : fix loongson compile warnings (llama/7537)

c1442f3

faster avx512 exp implementation (llama/7551)

6dbbbab

ggml : fix loongarch build (O2 issue) (llama/7636)

133ffbf

metal : remove invalid asserts (llama/7617)

562afce

metal : add missing asserts (llama/7617)

be552ab

ggml : fix YARN + add tests + add asserts (llama/7617)

15da5f7

cuda : non-cont concat support (llama/7610)

64d3007

llama-bench : add support for the RPC backend (llama/7435)

d460266

ggml : use atomic_flag for critical section (llama/7598)

68c6582

examples : adapt to new ggml_concat (ggml/0)

36af6c5

ggml : fix typo in ggml.c (llama/7603)

f06f1cb

Align GEMM dispatch (llama/7566)

2171dc6

sycl : fix assert (llama/7563)

b4fb287

vulkan: properly initialize vulkan devices for LLAMA_SPLIT_MODE_NONE (llama/7552)

da90a1e

rpc : resource management rework (llama/7562)

7571b13

fix ggml_sycl_mul_mat_id() to match the change of api (llama/7436)

f0ee71c

ggml : generalize GGML_OP_CONCAT (llama/7563)

8d359ad

update HIP_UMA #7399 (llama/7414)

7097123

Allow multiple copy function pointers for CUDA graph kernel param updates (llama/7565)

143f6df

Fix q_xxs using mul_mat_q (llama/7459)

0be4f48

Add freq factors (llama/7495)

340b830

metal : add GGML_OP_REPEAT kernels (llama/7557)

0534b5d

metal : disable FA kernel for HS=256 (llama/7556)

0c32e28

ggml : restore ggml_rope_xpos_inplace (ggml/0)

0641dee

ggml: aarch64: SVE kernels for q8_0_q8_0, q4_0_q8_0 vector dot (llama/7433)

51f504f

ggml : silence UB sanitizer error during iq2_xxs quantization (llama/0)

9f41704

ggml : remove ggml_flash_attn and ggml_flash_ff (llama/7463)

4005bca

ggml : drop support for QK_K=64 (llama/7473)

8737d46

Update vulkan rope implementation to support frequency factors (llama/7475)

be0ec58

CUDA: fix FA out-of-bounds reads (llama/7479)

b38d0f9

CUDA: fix FA out-of-bounds writes (llama/7465)

2e26e3a

cuda : fix compile warning (llama/7454)

58db6c8

CUDA: remove incorrect precision check (llama/7454)

eb4b5e0

cuda : fix rope + add tests (llama/7452)

215ce5c

llama : add phi3 128K model support (llama/7225)

ef68527

metal : handle F16 inf values, fix FA partial offload (llama/7434)

8d153a7

CUDA: fix unused warning in mmq.cu (llama/7442)

f16510d

CUDA: deduplicate mmq code (llama/7397)

e7b20b1

rpc : track allocated buffers (llama/7411)

925eb7a

Update SYCL upscale operation (llama/7321)

3984ba6

ggml-opencl, llama: using reserve() if count already known (llama/7272)

8325ed5

ggml : add loongarch lsx and lasx support (llama/6454)

9794ea7

Add provisions for windows support for BF16 code including CMake provision for enabling AVX512_BF16 (llama/7258)

cf52931

Vulkan Embedding Fix (llama/7360)

2bfeba3

ggml : fix another case of quants nans (llama/7387)

645c367

ggml: implement quantized KV cache for FA (llama/7372)

aef1b4b

cuda : clear error after buffer allocation failure (llama/7376)

b7f6691

Capture CUDA logging output (llama/7298)

3519475

android : use "ci-android" branch for CI (llama/7341)

ff9d573

CUDA: deduplicate FlashAttention code (llama/7352)

65ab3e8