blankcollar OS

fünf layer.
ein operating system.

memory, skills, tools, agents, routinen — jeder layer eigenständig wertvoll, jeder geformt vom layer darunter. starte mit memory. ergänze den rest, wenn ihr bereit seid. trust läuft durch alles.

der stack

fünf layer, oben nach unten.

l5 · routinen
wie das unternehmen läuft
geplante, event-getriggerte orchestrierungen
orchestrierung
l4 · agents
wer die arbeit macht
benannte rollen, je verantwortlicher mensch
autonomie
l3 · tools / mcp
worauf wir handeln können
lesen + schreiben über jedes system
aktion
l2 · skills
wie wir dinge machen, auf unsere art
kodifizierte unternehmens-DNA
dna
l1 · memory
was wir wissen
der souveräne shared memory-layer
wissen
l0 · trust planesouveränität · evaluation · audit · governance
layer für layer

was jeder layer freischaltet.

jeder layer kommt mit einer ersten konkreten aktion. ihr wartet nicht sechs monate auf wert — jeder layer verdient seine miete in der ersten woche.

l1 · memory
was wir wissen
das fundament. souverän, multimodal, lebendig.

ein souveränes geteiltes memory zwischen deinem team und jedem KI-tool. liest slack, notion, drive, gmail, hubspot, salesforce, meeting-transkripte, voice notes, verträge und decks. extrahiert entitäten, beziehungen, entscheidungen. schreibt jede gute antwort zurück. das, was die website bisher verkauft hat — und es bleibt das fundament für alles darüber.

tag einsfrag claude oder chatgpt etwas über dein unternehmen und bekomme zitierte antworten — ohne kontext einzufügen.
l2 · skills
wie wir dinge machen, auf unsere art
kodifizierte unternehmens-DNA. versioniert. extrahiert, nicht geschrieben.

skills sind die playbooks deines unternehmens, ausführbar gemacht. wie ihr ein deal-review schreibt. wie ihr ein support-ticket triagiert. jeder skill ist eine versionierte einheit, governed, und automatisch abgeleitet aus dem memory-layer plus einem 6-wochen codify-sprint — nicht von hand in einem prompt-fenster geschrieben.

tag einseure KI hört auf, generisch zu klingen. jeder output folgt eurer stimme und euren entscheidungs-frames.
l3 · tools / mcp
worauf wir handeln können
ein mcp-gateway. lesen UND schreiben. ein audit-log.

ein einziges, governiertes gateway zu jedem system, das eurer unternehmen läuft — slack, hubspot, salesforce, jira, github, notion, drive, eurem ERP. unterstützt den offenen MCP-standard plus native connectoren. lesen UND schreiben, mit per-aktion approval-policies und vollem audit-log. das ist der moat — die verkabelung ist die arbeit.

tag einseure KI postet die slack-nachricht, aktualisiert den deal in salesforce, eröffnet das jira-ticket — nicht nur darüber redet.
l4 · agents
wer die arbeit macht
benannte rollen. jeder mit einem verantwortlichen menschen.

agents sind getypt: sales-development, finance-controller, recruiter, support-tier-1, executive-assistant. jeder = ein ausschnitt des memory + ein kuratiertes set skills + die tools, die er nutzen darf + guardrails + ein direkt verantwortlicher mensch. agents sind kollegen, keine assistenten — sie tragen ergebnisse.

tag einseuer finance-controller-agent postet die monatsabschluss-zahlen um 9 uhr in slack, mit zitaten. der DRI gibt frei.
l5 · routinen
wie das unternehmen läuft
stehende anweisungen. das unternehmen auf autopilot.

routinen orchestrieren agents nach plan oder als reaktion auf ereignisse. montag 6 uhr: pipeline gezogen, weekly-review entworfen, in #revops gepostet, GM getaggt. ticket auf p1 gesetzt: support-tier-1-agent triagiert, reproduziert, schreibt den bug ein — engineering wacht zu einem vollständigen briefing auf. das ist das stück 'autonomes unternehmen'.

tag einsdas montag board-pack liegt schon im posteingang, bevor du wach wirst. du verbringst den morgen mit entscheiden, nicht mit zusammenstellen.
l0 · trust plane
no trust, no right to deploy
läuft horizontal durch jeden layer.

souveränität (swiss-hosted, on-prem, air-gapped, eigenes AI-modell). evaluations-harness auf jeden skill, agent, jede routine. volles audit-log. role-based access, kill-switches pro agent. built-in, nicht angeschraubt. unsere default-deny-haltung ist, was regulierte branchen ja sagen lässt.

tag einsFINMA, DSGVO, DSG, HIPAA-baselines vorgemappt. euer CISO unterschreibt in tagen, nicht quartalen.

alle deployment-optionen ansehen →

fähigkeiten

multimodale fähigkeiten.

multimodale inputs werden nativ verarbeitet. text, bilder, video, audio. verträge, decks, gescannte dokumente und meeting-aufnahmen werden abfragbarer content.

text

dokumente, notizen, nachrichten

verträge, memos, slack-threads, notion-seiten — alle geparst, verlinkt und zitierbar.

bilder

screenshots, diagramme, scans

gescannte dokumente, whiteboard-fotos und produkt-screenshots werden abfragbar.

video

aufnahmen & demos

aufgenommene calls und produkt-walkthroughs werden transkribiert, zusammengefasst und indiziert.

audio

sprachnotizen & diktat

sprachmemos und podcast-clips fliessen in denselben knowledge-layer wie text.

pdf

verträge, decks, reports

layout-aware parsing extrahiert struktur aus pdfs — tabellen, klauseln, abbildungen.

meetings

transkripte mit sprechern

wer hat was wann gesagt. entscheidungen und zusagen sichtbar und mit dem account verlinkt.

offene standards & portabilität

offen by design.

markdown-repo als source of truth. postgres mit vector-search für retrieval. offene standards für das interface. jeder layer ist offen. kein proprietärer lock-in. du kannst den knowledge-layer mitnehmen, wenn du gehst.

faq

produkt & technik.

wie unterscheidet sich das von einem rag-setup oder einem internen wiki?

rag leitet wissen bei jeder anfrage neu ab. ein wiki liegt rum, bis jemand es aktualisiert. der knowledge-layer kompiliert einmal, bleibt automatisch aktuell, baut querverweise vor, markiert widersprüche beim ingest und wird mit der zeit stärker.

wie sieht die zugrundeliegende architektur aus?

markdown-repo als source of truth, postgres mit vector-search für retrieval, offene standards für das interface. jeder layer ist offen. kein proprietärer lock-in. du kannst den knowledge-layer mitnehmen, wenn du gehst.

kann das pdfs, bilder und meeting-videos lesen?

ja. multimodale inputs werden nativ verarbeitet. text, bilder, video, audio. verträge, decks, gescannte dokumente und meeting-aufnahmen werden abfragbarer content.

für wen

wer das nutzt.

das produkt ist dasselbe. der fokus unterscheidet sich danach, wer kauft und was am ersten tag zählt.

sieh es auf deinen quellen.

90 minuten mit deinem leadership-team. wir mappen deine quellen, deine AI-nutzung und die drei queries, die den grössten hebel bringen. du gehst raus mit scope und schriftlichem plan innerhalb von 48 stunden.