A camada de presença entre você e a máquina.
MIND é um agente de desktop open source que vê o que você vê, sabe onde você está apontando o cursor, ouve o que você diz e aprende como você trabalha. Voz, cursor, tela e padrões de uso entram juntos como um único contexto rico para o agente.
Quando você diz "resume isso aqui", o "isso aqui" é resolvido pelo que está sob o cursor + o que está na tela. Cursor + tela + voz = um contexto só.
Por que existe: assistentes comerciais (Copilot, Alexa, Siri) mandam tudo pra nuvem deles, esquecem o contexto a cada turn, e não veem sua tela. MIND vira o oposto disso: roda local, persiste contexto e enxerga o que você está fazendo.
| Pilar | O que faz | Tecnologia (Windows) | Status |
|---|---|---|---|
| �� Ouvido | Voz → texto (e intenção) | captura de áudio + VAD + STT em streaming | ✅ v0 |
| ��️ Visão | Captura + entendimento de tela | screenshot + modelo com visão | �� v1 |
| ��️ Foco | Cursor como contexto: elemento sob o cursor, janela ativa, árvore de UI | UI Automation + posição do mouse | �� v1 |
| �� Memória | Padrões de uso, hábitos, contexto persistente | log de eventos + memória do agente | �� v3 |
| ✋ Mãos | O agente age: clica, digita, abre, automatiza | controle de mouse/teclado + tool-use | �� v2 |
- v0 — "O Ouvido" (em andamento) Hotkey push-to-talk → captura de microfone → VAD (detecta fala) → STT em streaming → transcrição aparece num overlay, com baixa latência.
- v0.5 — Intenção/comandos Classificar o que foi dito → mapear para intenção/ação. Wake word opcional.
- v1 — "O Olhar"
- visão (screenshot) + cursor/UI Automation. "O que é isso?" resolve pelo cursor.
- v2 — "As Mãos" Ações no PC (abrir, clicar, digitar) com salvaguardas e confirmação humana.
- v3 — "A Memória" Padrões de uso persistentes; MIND aprende hábitos e antecipa contexto.
- Tauri (núcleo em Rust + UI web). App nativo leve, overlay elegante.
- STT local: whisper.cpp (whisper-rs) — privado, offline, sem chave de API.
- VAD: detecção de atividade de voz adaptativa (calibra ao ruído do ambiente do usuário).
- TTS: Piper (offline).
- Plataforma alvo inicial: Windows. macOS/Linux na sequência.
Status: alpha. Funciona em Windows com toolchain Rust GNU. Espere quebrar — mande issue.
- Rust via rustup, toolchain GNU (
stable-x86_64-pc-windows-gnu) - Node + pnpm
- WebView2 (vem com Windows 11; em 10, instale aqui)
- MinGW-w64 (WinLibs) para
dlltool.exeque o Rust GNU não traz:winget install BrechtSanders.WinLibs.POSIX.MSVCRT --scope user
git clone https://github.com/aumi-group/MIND.git
cd MIND/app
pnpm install
pnpm tauri devVeja PLANO.md e PLANO-MAO-NAVEGADOR.md para detalhes de arquitetura e decisões tomadas.
A maior parte de "AI Assistant" hoje vê uma coisa: ou texto que você digita, ou imagem que você cola. MIND vê tudo ao mesmo tempo:
Você diz: "resume isso aqui pra mim"
MIND vê voz: texto transcrito
MIND vê cursor: elemento UI sob o cursor (tipo, propriedades, posição)
MIND vê tela: screenshot da janela ativa
MIND consulta memória: já viu esse aplicativo? padrão de uso?
O modelo recebe tudo isso como um único contexto e responde com referência exata ao que você apontou. Sem ping-pong de "o quê?".
- Roda local por padrão. STT, TTS, modelos pequenos — tudo no seu hardware. Cloud só onde você escolhe explicitamente.
- Open source AGPL. Você usa, modifica, fork. Quem rodar como serviço comercial precisa liberar as modificações também — disciplina, não vale-tudo.
- Spec antes de código. Convenções e decisões versionadas em markdown. Veja
PLANO.md. - Gate humano em ações irreversíveis. Quando MIND chegar nas "Mãos" (v2), nada de apagar/transferir/publicar sem confirmação explícita.
Bem-vindo. Antes de PR:
- Lê
PLANO.md— entende a visão e os pilares - Abre um issue descrevendo o que vai fazer (alinhamento antes de código)
- Segue a disciplina: spec → teste → revisão
- PR pequeno, descrição honesta
Veja CONTRIBUTING.md.
MIND é desenvolvido pela AUMI Group — consultoria AI Native do Brasil. É um experimento aberto da nossa filosofia de operação com agentes em produção.
Discussão sobre AI Native, Agent OS, Brain corporativo e o que separa demo de operação real está em aumi.group/blog.
GNU AGPL v3 — código livre pra usar, modificar e distribuir. Quem rodar como serviço acessível por rede precisa publicar as modificações sob a mesma licença. AGPL não é "free-for-all" — é open source com reciprocidade.
Status: alpha. Ouvido (v0) funciona; estamos plugando whisper.cpp. Plataforma: Windows. macOS/Linux na sequência. Contato: contato@aumi.group · aumi.group