Commits · Xenobd/whisper.cpp

Reese Levine commited on Aug 18

taronaeo commited on Aug 18

compilade commited on Aug 18

jeffbolznv commited on Aug 18

OccamRazor commited on Aug 17

Dong Won Kim commited on Aug 17

jeffbolznv commited on Aug 17

jeffbolznv commited on Aug 16

jeffbolznv commited on Aug 16

jeffbolznv commited on Aug 16

mrfatso commited on Aug 16

lhez shawngu-quic commited on Aug 15

ggerganov commited on Aug 15

ggerganov commited on Aug 15

taronaeo commited on Aug 15

JohannesGaessler commited on Aug 14

JohannesGaessler commited on Aug 14

jeffbolznv commited on Aug 14

jasonni2 commited on Aug 14

Sigbjørn Skjæret commited on Aug 14

Jonathan Graehl

JohannesGaessler commited on Aug 14

uvos commited on Aug 13

ggerganov commited on Aug 13

ggerganov commited on Aug 13

ORippler commited on Aug 13

aixsatoshi Shinnosuke Takagi commited on Aug 13

uvos commited on Aug 12

Romain Biessy commited on Aug 12

mrfatso commited on Aug 12

am17an commited on Aug 12

Chenguang Li commited on Aug 12

yeahdongcn commited on Aug 12

hipudding commited on Aug 11

Charles Xu commited on Aug 11

David Zhao commited on Aug 9

am17an commited on Aug 9

compilade commited on Aug 8

AN Long commited on Aug 8

lhez commited on Aug 8

jeffbolznv commited on Aug 7

jeffbolznv commited on Aug 7

uvos commited on Aug 7

Christian Kastner commited on Aug 7

mrfatso commited on Aug 6

lhez commited on Aug 6

Diego Devesa commited on Aug 6

Chenguang Li commited on Aug 6

ngxson HF Staff slaren commited on Aug 5

Commit History

ggml: Add initial WebGPU backend (llama/14521) 4b3da1d

ggml : initial zDNN backend (llama/14975) 6dd510c

ggml-quants : fix make_qp_quants NANs and IQ1 assertion errors (llama/15379) a575f57

vulkan: disable spirv-opt for bfloat16 shaders (llama/15352) cf24af7

vulkan: Use larger workgroups for mul_mat_vec when M is small (llama/15355) 054584a

vulkan: support sqrt (llama/15370) e5406c0

vulkan: Optimize argsort (llama/15354) 80a188c

vulkan: fuse adds (llama/15252) ad199b1

vulkan: Support mul_mat_id with f32 accumulators (llama/15337) 41a76e6

vulkan: Add missing bounds checking to scalar/coopmat1 mul_mat_id (llama/15334) a6fa78e

OpenCL: add initial FA support (llama/14987) 8ece1ee

opencl: add initial mxfp4 support via mv (llama/15270) 1a0281c

vulkan : fix out-of-bounds access in argmax kernel (llama/15342) 78a1865

vulkan : fix compile warnings on macos (llama/15340) e3107ff

ggml: initial IBM zDNN backend (llama/14975) 449e1a4

CUDA: fix negative KV_max values in FA (llama/15321) 6e3a7b6

HIP: Cleanup hipification header (llama/15285) 7cdf9cd

vulkan: perf_logger improvements (llama/15246) d48d508

ggml: fix ggml_conv_1d_dw bug (ggml/1323) 4496862

cuda : fix GGML_CUDA_GRAPHS=OFF (llama/15300) 59c694d

finetune: SGD optimizer, more CLI args (llama/13873) f585fe7

HIP: bump requirement to rocm 6.1 (llama/15296) 58a3802

ggml : update `ggml_rope_multi` (llama/12665) b4896dc

ggml : repack block_iq4_nlx8 (llama/14904) db4407f

CUDA: Optimize `reduce_rows_f32` kernel, leading up to 25x perf improvement on kernel-level and 10% perf increase for Gemma3n (llama/15132) c768824

ggml-rpc: chunk send()/recv() to avoid EINVAL for very large tensors over RPC (macOS & others) (llama/15188) c8284f2

HIP: disable sync warp shuffel operators from clr amd_warp_sync_functions.h (llama/15273) 8fca6dd

sycl: Fix and disable more configurations of mul_mat (llama/15151) 7b868ed

opencl: allow mixed f16/f32 `add` (llama/15140) 345810b

CUDA cmake: add `-lineinfo` for easier debug (llama/15260) 008e169

CANN: GGML_OP_CPY optimization (llama/15070) 73e90ff

musa: fix failures in test-backend-ops for mul_mat_id op (llama/15236) 4168dda

CANN: Add broadcast for softmax and FA (llama/15208) db87c9d

kleidiai: fix unsigned overflow bug (llama/15150) 9d5f58c

cuda: refactored ssm_scan and use CUB (llama/13291) 7a187d1

CUDA: add attention sinks for tile and wmma (llama/15178) 46e7c87

gguf-py : add Numpy MXFP4 de/quantization support (llama/15111) 324f3bd

ggml : fix field name when new ggml_backend (llama/14944) 685748d

CUDA: attention sinks for mma FlashAttention (llama/15157) 0ab9aba

opencl: support sink in `soft_max` (attn sinks) (llama/15152) d8664e4

vulkan: support fattn sinks (llama/15126) d7e9115

vulkan: Add env var to disable host visible vidmem (llama/15109) 5ec4382

HIP: add cmake option to enable compiler output of kernel resource usage metrics (llama/15103) 577f7e4

ggml: Skip backend library linking code when GGML_BACKEND_DL=ON (llama/15094) f84562e

CUDA: GEMM for FP32/FP16/BF16 and ne11 <= 16 (llama/15131) 1d24833

fix profiling crash (llama/15072) 67ec576

opencl: add `swiglu_oai` and `add_id` (llama/15121) 1c97db6

ggml : fix fallback to CPU for ununsupported ops (llama/15118) 2b7ae5e

CANN: add support for ACL Graph (llama/15065) 137a0dc

llama : add gpt-oss (llama/15091) bf225d6

ggml: Add initial WebGPU backend (llama/14521)

4b3da1d

ggml : initial zDNN backend (llama/14975)

6dd510c

ggml-quants : fix make_qp_quants NANs and IQ1 assertion errors (llama/15379)

a575f57

vulkan: disable spirv-opt for bfloat16 shaders (llama/15352)

cf24af7

vulkan: Use larger workgroups for mul_mat_vec when M is small (llama/15355)

054584a

vulkan: support sqrt (llama/15370)

e5406c0

vulkan: Optimize argsort (llama/15354)

80a188c

vulkan: fuse adds (llama/15252)

ad199b1

vulkan: Support mul_mat_id with f32 accumulators (llama/15337)

41a76e6

vulkan: Add missing bounds checking to scalar/coopmat1 mul_mat_id (llama/15334)

a6fa78e

OpenCL: add initial FA support (llama/14987)

8ece1ee

opencl: add initial mxfp4 support via mv (llama/15270)

1a0281c

vulkan : fix out-of-bounds access in argmax kernel (llama/15342)

78a1865

vulkan : fix compile warnings on macos (llama/15340)

e3107ff

ggml: initial IBM zDNN backend (llama/14975)

449e1a4

CUDA: fix negative KV_max values in FA (llama/15321)

6e3a7b6

HIP: Cleanup hipification header (llama/15285)

7cdf9cd

vulkan: perf_logger improvements (llama/15246)

d48d508

ggml: fix ggml_conv_1d_dw bug (ggml/1323)

4496862

cuda : fix GGML_CUDA_GRAPHS=OFF (llama/15300)

59c694d

finetune: SGD optimizer, more CLI args (llama/13873)

f585fe7

HIP: bump requirement to rocm 6.1 (llama/15296)

58a3802

ggml : update `ggml_rope_multi` (llama/12665)

b4896dc

ggml : repack block_iq4_nlx8 (llama/14904)

db4407f

CUDA: Optimize `reduce_rows_f32` kernel, leading up to 25x perf improvement on kernel-level and 10% perf increase for Gemma3n (llama/15132)

c768824

ggml-rpc: chunk send()/recv() to avoid EINVAL for very large tensors over RPC (macOS & others) (llama/15188)

c8284f2

HIP: disable sync warp shuffel operators from clr amd_warp_sync_functions.h (llama/15273)

8fca6dd

sycl: Fix and disable more configurations of mul_mat (llama/15151)

7b868ed

opencl: allow mixed f16/f32 `add` (llama/15140)

345810b

CUDA cmake: add `-lineinfo` for easier debug (llama/15260)

008e169

CANN: GGML_OP_CPY optimization (llama/15070)

73e90ff

musa: fix failures in test-backend-ops for mul_mat_id op (llama/15236)

4168dda

CANN: Add broadcast for softmax and FA (llama/15208)

db87c9d

kleidiai: fix unsigned overflow bug (llama/15150)

9d5f58c

cuda: refactored ssm_scan and use CUB (llama/13291)

7a187d1

CUDA: add attention sinks for tile and wmma (llama/15178)

46e7c87

gguf-py : add Numpy MXFP4 de/quantization support (llama/15111)

324f3bd

ggml : fix field name when new ggml_backend (llama/14944)

685748d

CUDA: attention sinks for mma FlashAttention (llama/15157)

0ab9aba

opencl: support sink in `soft_max` (attn sinks) (llama/15152)

d8664e4

vulkan: support fattn sinks (llama/15126)

d7e9115

vulkan: Add env var to disable host visible vidmem (llama/15109)

5ec4382

HIP: add cmake option to enable compiler output of kernel resource usage metrics (llama/15103)

577f7e4

ggml: Skip backend library linking code when GGML_BACKEND_DL=ON (llama/15094)

f84562e

CUDA: GEMM for FP32/FP16/BF16 and ne11 <= 16 (llama/15131)

1d24833

fix profiling crash (llama/15072)

67ec576

opencl: add `swiglu_oai` and `add_id` (llama/15121)

1c97db6

ggml : fix fallback to CPU for ununsupported ops (llama/15118)

2b7ae5e

CANN: add support for ACL Graph (llama/15065)

137a0dc

llama : add gpt-oss (llama/15091)

bf225d6