gpu-optimization

Here are 31 public repositories matching this topic...

GVProf / GVProf

GVProf: A Value Profiler for GPU-based Clusters

machine-learning patterns profiler gpu cuda data-flow instrumentation binary-analysis clusters redundancy gpu-optimization value-profiler

Updated Mar 24, 2024
Python

philtimmes / KeSSie

Star

KeSSie HUGE Context Semantic recall for Large Language Models

Updated Feb 21, 2026
Python

OriginNeuralAI / OriginNeuralAI

Star

Physics-based computation at scale — Hamiltonian dynamics, spectral theory, and statistical mechanics powering optimization, drug discovery, genomics, molecular proof, and agentic commerce.

genomics drug-discovery ising-model post-quantum-cryptography hamiltonian-dynamics gpu-optimization simulated-bifurcation blockchain-verification spectral-theory physics-based-computation

Updated Mar 25, 2026
Python

ZeroKernel798 / Triton-CUDA-Lab

Star

用于复现和优化常见的深度学习算子，基于cuda和triton两种方案，可供学习和参考

triton gpu-optimization cuda-programming

Updated Mar 20, 2026
Python

The GPU Optimizer for ML Models enhances GPU performance for machine learning. It offers advanced scheduling, real-time monitoring, and efficient resource management through a user-friendly web interface and robust API, integrating big data technologies for seamless data processing and model optimization. @NVIDIA

model-management gpu-optimization real-time-monitoring secure-api big-data-integration gpu-scheduling

Updated Dec 28, 2025
Python

JeyaPrakashI / Multi-Cloud-Governance-Ledger-FOCUS-1.3

Star

Executive FinOps dashboard and automated governance engine using FOCUS 1.3 standards for AWS, Azure, and Snowflake.

automation power-bi data-engineering multi-cloud gpu-optimization finops platform-engineering cloud-governance cloud-ops cloud-economics azure-finops aws-finops ai-infrastructure focus-1-3 llmops-finance serverless-governance gcp-finops

Updated Feb 14, 2026
Python

pratheeksha2023 / T2V-Studio-Text_Powered_Video_Generator

Star

Text-to-video generation application that converts natural language (english) prompts into short animated videos using diffusion models and AnimateDiff, with GPU-aware optimization and an interactive Gradio UI that can be executed on Google Colab (T4 GPU).

computer-vision gradio gpu-optimization google-colab diffusion-models text-to-video stable-diffusion generative-ai animatediff

Updated Jan 1, 2026
Python

flickleafy / ollama_consumer

Star

🤖 Ollama Consumer - A Python-based interactive chat interface for Ollama models with advanced model management, comprehensive benchmarking, vision support, and automatic error recovery. Features dynamic model switching, GPU optimization, and intelligent service monitoring for seamless AI model interactions.

python benchmarking machine-learning automation ai chatbot configuration-management language-models error-recovery model-management cli-tool multimodal gpu-optimization service-monitoring interactive-chat vision-models llm ollama-api moe-models

Updated Aug 6, 2025
Python

leap21ai / autospark

Star

DGX Spark (GB10/SM121) platform support for Meta's KernelAgent — auto-detect, hardware constraints, safe Triton configs

cuda nvidia triton gpu-optimization gb10 dgx-spark sm121 kernel-agent

Updated Mar 14, 2026
Python

petroslamb / hardware-friction-scorecard-dataset

Star

Quantitative dataset of 119 neural architectures (2017-2025) scored on hardware compatibility and ecosystem friction. Validates the Transformer Attractor thesis.

machine-learning dataset transformer gpu-optimization production-ml neural-architecture hardware-compatibility

Updated Dec 16, 2025
Python

ikaganacar1 / GPU_FanControl

Star

The NVIDIA driver's fan control logic wasn't doing it for me — too conservative, too opaque — so I built my own. This is a Linux GUI application for independent NVIDIA GPU fan control without requiring Coolbits. Uses pynvml via a root helper subprocess for direct fan management.

gpu nvidia nvidia-gpu cooling-control gpu-optimization gpu-fan

Updated Mar 24, 2026
Python

OriYarden / pytorch_training_optimization_using_tensordict_memory_mapping

Star

Optimizing PyTorch Model Training by Wrapping Memory Mapped Tensors on Nvidia GPUs with TensorDict.

Updated May 27, 2025
Python

ai-infra-curriculum / ai-infra-senior-engineer-learning

Star

AI Infrastructure Senior Engineer Learning Track - Advanced ML infrastructure and technical leadership

kubernetes learning distributed-systems machine-learning performance curriculum advanced gpu-optimization mlops senior-engineer ai-infrastructure

Updated Nov 3, 2025
Python

danindiana / copilot-bridge

Star

Hybrid AI routing: LOCAL Ollama + CLOUD GitHub Copilot

python machine-learning ai prometheus performance-optimization cost-optimization gpu-optimization meta-reasoning smart-routing dual-gpu github-copilot llm local-llm ollama ai-proxy llm-routing

Updated Oct 19, 2025
Python

Kuenoz / pytorch_training_optimization_using_tensordict_memory_mapping

Star

Optimizing PyTorch Model Training by Wrapping Memory Mapped Tensors on an Nvidia GPU with TensorDict.

python ai gpu optimization torch pytorch tensors memory-mapping gpu-optimization pytorch-tensors pytorch-training tensordict memory-mapped-tensors pytorch-training-optimization

Updated Mar 25, 2026
Python

Gane2122 / nanoGPT_1GPU_SPEEDRUN

Star

🚀 Achieve rapid training of NanoGPT (GPT-2 124M) on a single RTX 4090, targeting a validation loss below 3.28 with FineWeb-Edu data.

open-source benchmark machine-learning natural-language-processing deep-learning text-generation pytorch model-training gpu-optimization ai-research transformer-models single-gpu inference-speed nanogpt fast-training

Updated Mar 25, 2026
Python

kuttivicky / Waymo-e2e-profiler

Star

Profile-first ML systems project optimizing a multi-camera end-to-end driving model for hardware efficiency using PyTorch, CUDA streams, NVTX instrumentation, and Nsight Systems.

performance-engineering deep-learning async cuda pytorch gpu-optimization nvtx ml-systems nsight-systems automomous-driving