fünf layer.
ein operating system.
memory, skills, tools, agents, routinen — jeder layer eigenständig wertvoll, jeder geformt vom layer darunter. starte mit memory. ergänze den rest, wenn ihr bereit seid. trust läuft durch alles.
fünf layer, oben nach unten.
was jeder layer freischaltet.
jeder layer kommt mit einer ersten konkreten aktion. ihr wartet nicht sechs monate auf wert — jeder layer verdient seine miete in der ersten woche.
ein souveränes geteiltes memory zwischen deinem team und jedem KI-tool. liest slack, notion, drive, gmail, hubspot, salesforce, meeting-transkripte, voice notes, verträge und decks. extrahiert entitäten, beziehungen, entscheidungen. schreibt jede gute antwort zurück. das, was die website bisher verkauft hat — und es bleibt das fundament für alles darüber.
skills sind die playbooks deines unternehmens, ausführbar gemacht. wie ihr ein deal-review schreibt. wie ihr ein support-ticket triagiert. jeder skill ist eine versionierte einheit, governed, und automatisch abgeleitet aus dem memory-layer plus einem 6-wochen codify-sprint — nicht von hand in einem prompt-fenster geschrieben.
ein einziges, governiertes gateway zu jedem system, das eurer unternehmen läuft — slack, hubspot, salesforce, jira, github, notion, drive, eurem ERP. unterstützt den offenen MCP-standard plus native connectoren. lesen UND schreiben, mit per-aktion approval-policies und vollem audit-log. das ist der moat — die verkabelung ist die arbeit.
agents sind getypt: sales-development, finance-controller, recruiter, support-tier-1, executive-assistant. jeder = ein ausschnitt des memory + ein kuratiertes set skills + die tools, die er nutzen darf + guardrails + ein direkt verantwortlicher mensch. agents sind kollegen, keine assistenten — sie tragen ergebnisse.
routinen orchestrieren agents nach plan oder als reaktion auf ereignisse. montag 6 uhr: pipeline gezogen, weekly-review entworfen, in #revops gepostet, GM getaggt. ticket auf p1 gesetzt: support-tier-1-agent triagiert, reproduziert, schreibt den bug ein — engineering wacht zu einem vollständigen briefing auf. das ist das stück 'autonomes unternehmen'.
souveränität (swiss-hosted, on-prem, air-gapped, eigenes AI-modell). evaluations-harness auf jeden skill, agent, jede routine. volles audit-log. role-based access, kill-switches pro agent. built-in, nicht angeschraubt. unsere default-deny-haltung ist, was regulierte branchen ja sagen lässt.
multimodale fähigkeiten.
multimodale inputs werden nativ verarbeitet. text, bilder, video, audio. verträge, decks, gescannte dokumente und meeting-aufnahmen werden abfragbarer content.
dokumente, notizen, nachrichten
verträge, memos, slack-threads, notion-seiten — alle geparst, verlinkt und zitierbar.
screenshots, diagramme, scans
gescannte dokumente, whiteboard-fotos und produkt-screenshots werden abfragbar.
aufnahmen & demos
aufgenommene calls und produkt-walkthroughs werden transkribiert, zusammengefasst und indiziert.
sprachnotizen & diktat
sprachmemos und podcast-clips fliessen in denselben knowledge-layer wie text.
verträge, decks, reports
layout-aware parsing extrahiert struktur aus pdfs — tabellen, klauseln, abbildungen.
transkripte mit sprechern
wer hat was wann gesagt. entscheidungen und zusagen sichtbar und mit dem account verlinkt.
offen by design.
markdown-repo als source of truth. postgres mit vector-search für retrieval. offene standards für das interface. jeder layer ist offen. kein proprietärer lock-in. du kannst den knowledge-layer mitnehmen, wenn du gehst.
produkt & technik.
wie unterscheidet sich das von einem rag-setup oder einem internen wiki?
rag leitet wissen bei jeder anfrage neu ab. ein wiki liegt rum, bis jemand es aktualisiert. der knowledge-layer kompiliert einmal, bleibt automatisch aktuell, baut querverweise vor, markiert widersprüche beim ingest und wird mit der zeit stärker.
wie sieht die zugrundeliegende architektur aus?
markdown-repo als source of truth, postgres mit vector-search für retrieval, offene standards für das interface. jeder layer ist offen. kein proprietärer lock-in. du kannst den knowledge-layer mitnehmen, wenn du gehst.
kann das pdfs, bilder und meeting-videos lesen?
ja. multimodale inputs werden nativ verarbeitet. text, bilder, video, audio. verträge, decks, gescannte dokumente und meeting-aufnahmen werden abfragbarer content.
wer das nutzt.
das produkt ist dasselbe. der fokus unterscheidet sich danach, wer kauft und was am ersten tag zählt.
sieh es auf deinen quellen.
90 minuten mit deinem leadership-team. wir mappen deine quellen, deine AI-nutzung und die drei queries, die den grössten hebel bringen. du gehst raus mit scope und schriftlichem plan innerhalb von 48 stunden.