MIND

A camada de presença entre você e a máquina.

MIND é um agente de desktop open source que vê o que você vê, sabe onde você está apontando o cursor, ouve o que você diz e aprende como você trabalha. Voz, cursor, tela e padrões de uso entram juntos como um único contexto rico para o agente.

Quando você diz "resume isso aqui", o "isso aqui" é resolvido pelo que está sob o cursor + o que está na tela. Cursor + tela + voz = um contexto só.

Por que existe: assistentes comerciais (Copilot, Alexa, Siri) mandam tudo pra nuvem deles, esquecem o contexto a cada turn, e não veem sua tela. MIND vira o oposto disso: roda local, persiste contexto e enxerga o que você está fazendo.

Os 5 pilares

Pilar	O que faz	Tecnologia (Windows)	Status
�� Ouvido	Voz → texto (e intenção)	captura de áudio + VAD + STT em streaming	✅ v0
��️ Visão	Captura + entendimento de tela	screenshot + modelo com visão	�� v1
��️ Foco	Cursor como contexto: elemento sob o cursor, janela ativa, árvore de UI	UI Automation + posição do mouse	�� v1
�� Memória	Padrões de uso, hábitos, contexto persistente	log de eventos + memória do agente	�� v3
✋ Mãos	O agente age: clica, digita, abre, automatiza	controle de mouse/teclado + tool-use	�� v2

Roadmap

v0 — "O Ouvido" (em andamento) Hotkey push-to-talk → captura de microfone → VAD (detecta fala) → STT em streaming → transcrição aparece num overlay, com baixa latência.
v0.5 — Intenção/comandos Classificar o que foi dito → mapear para intenção/ação. Wake word opcional.
v1 — "O Olhar"
- visão (screenshot) + cursor/UI Automation. "O que é isso?" resolve pelo cursor.
v2 — "As Mãos" Ações no PC (abrir, clicar, digitar) com salvaguardas e confirmação humana.
v3 — "A Memória" Padrões de uso persistentes; MIND aprende hábitos e antecipa contexto.

Stack

Tauri (núcleo em Rust + UI web). App nativo leve, overlay elegante.
STT local: whisper.cpp (whisper-rs) — privado, offline, sem chave de API.
VAD: detecção de atividade de voz adaptativa (calibra ao ruído do ambiente do usuário).
TTS: Piper (offline).
Plataforma alvo inicial: Windows. macOS/Linux na sequência.

Como rodar localmente (alpha)

Status: alpha. Funciona em Windows com toolchain Rust GNU. Espere quebrar — mande issue.

Pré-requisitos

Rust via rustup, toolchain GNU (stable-x86_64-pc-windows-gnu)
Node + pnpm
WebView2 (vem com Windows 11; em 10, instale aqui)

MinGW-w64 (WinLibs) para dlltool.exe que o Rust GNU não traz:

winget install BrechtSanders.WinLibs.POSIX.MSVCRT --scope user

Build

git clone https://github.com/aumi-group/MIND.git
cd MIND/app
pnpm install
pnpm tauri dev

Veja PLANO.md e PLANO-MAO-NAVEGADOR.md para detalhes de arquitetura e decisões tomadas.

Diferencial: contexto unificado

A maior parte de "AI Assistant" hoje vê uma coisa: ou texto que você digita, ou imagem que você cola. MIND vê tudo ao mesmo tempo:

Você diz:           "resume isso aqui pra mim"
MIND vê voz:        texto transcrito
MIND vê cursor:     elemento UI sob o cursor (tipo, propriedades, posição)
MIND vê tela:       screenshot da janela ativa
MIND consulta memória: já viu esse aplicativo? padrão de uso?

O modelo recebe tudo isso como um único contexto e responde com referência exata ao que você apontou. Sem ping-pong de "o quê?".

Filosofia

Roda local por padrão. STT, TTS, modelos pequenos — tudo no seu hardware. Cloud só onde você escolhe explicitamente.
Open source AGPL. Você usa, modifica, fork. Quem rodar como serviço comercial precisa liberar as modificações também — disciplina, não vale-tudo.
Spec antes de código. Convenções e decisões versionadas em markdown. Veja PLANO.md.
Gate humano em ações irreversíveis. Quando MIND chegar nas "Mãos" (v2), nada de apagar/transferir/publicar sem confirmação explícita.

Contribuir

Bem-vindo. Antes de PR:

Lê PLANO.md — entende a visão e os pilares
Abre um issue descrevendo o que vai fazer (alinhamento antes de código)
Segue a disciplina: spec → teste → revisão
PR pequeno, descrição honesta

Veja CONTRIBUTING.md.

Quem está por trás

MIND é desenvolvido pela AUMI Group — consultoria AI Native do Brasil. É um experimento aberto da nossa filosofia de operação com agentes em produção.

Discussão sobre AI Native, Agent OS, Brain corporativo e o que separa demo de operação real está em aumi.group/blog.

Licença

GNU AGPL v3 — código livre pra usar, modificar e distribuir. Quem rodar como serviço acessível por rede precisa publicar as modificações sob a mesma licença. AGPL não é "free-for-all" — é open source com reciprocidade.

Status: alpha. Ouvido (v0) funciona; estamos plugando whisper.cpp. Plataforma: Windows. macOS/Linux na sequência. Contato: contato@aumi.group · aumi.group

Name		Name	Last commit message	Last commit date
Latest commit History 3 Commits
.claude		.claude
app		app
.gitignore		.gitignore
AGENTS.md		AGENTS.md
CONTRIBUTING.md		CONTRIBUTING.md
LICENSE		LICENSE
PLANO.md		PLANO.md
README.md		README.md
SECURITY.md		SECURITY.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

MIND

Os 5 pilares

Roadmap

Stack

Como rodar localmente (alpha)

Pré-requisitos

Build

Diferencial: contexto unificado

Filosofia

Contribuir

Quem está por trás

Licença

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Uh oh!

Folders and files

Latest commit

History

Repository files navigation

MIND

Os 5 pilares

Roadmap

Stack

Como rodar localmente (alpha)

Pré-requisitos

Build

Diferencial: contexto unificado

Filosofia

Contribuir

Quem está por trás

Licença

About

Topics

Resources

License

Contributing

Security policy

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages