Gabriel Denis-Arrue Munes ist Product Manager bei OpenSpace und arbeitet an der Agent Sandbox.
In unseren letzten Blogbeiträgen ging es darum, was KI-Agenten sind und warum das Bauwesen mehr als jede dokumentenlastige Branche Agenten braucht, die sehen können. In diesem Beitrag werden wir konkreter und befassen uns mit Site Search Agents: was sie tun, wie sie funktionieren und was möglich wird, wenn sie im Hintergrund laufen, während Ihr Team sich um alles andere kümmert.
Site Search Agents bei der Arbeit
Ein Site Search Agent nimmt eine Frage entgegen, zum Beispiel: Prüfe Ebene 3 auf fehlende PSA. Finde die Toiletten auf Ebene 10. Markiere alle Räume, in denen die Lüftungskanäle noch nicht begonnen wurden. Anschließend beantwortet der Agent diese Frage anhand der visuellen Dokumentation eines Projekts. Der Agent kann auf Anfrage laufen, wenn ein Projektmanager eine Frage stellt. Er kann starten, sobald eine neue Aufnahme fertig verarbeitet ist. Er kann über Nacht nach einem festen Zeitplan laufen. Oder er kann zu Wochenbeginn über ein gesamtes Portfolio hinweg ausgelöst werden.
Jedes Mitglied eines Projektteams kann mehrere Agenten haben, die rund um die Uhr im Hintergrund arbeiten. Die visuelle Dokumentation der Begehung vom gestrigen Nachmittag wurde zum Beispiel bereits ausgewertet, bevor am nächsten Morgen jemand im Baustellenbüro ankommt. Das verändert komplett, was und wie viel ein Team an einem Arbeitstag leisten kann.
Stellen Sie sich diesen Agenten wie einen unermüdlichen Projektingenieur vor. Einen, den Sie jederzeit und so oft Sie möchten durch Ihr Projekt schicken können.
Wie asynchrone Agenten wie Site Search aussehen können
Es ist 5 Uhr morgens. Die Aufnahme von Ebene 3 vom gestrigen Nachmittag, für die niemand vor Feierabend noch Zeit hatte, wurde wie üblich in etwa 15 Minuten verarbeitet. Damit war sie bereit für asynchrone Site Search Agents. Und bis das Baustellenbüro öffnet, ist bereits einiges passiert:
- Der Safety Agent hat jedes neue Panorama auf Ebene 3 auf ungeschützte Bewehrungsstäbe und offene Absturzkanten geprüft. Er hat genau diese Punkte erkannt, weil Sie ihn darum gebeten haben. Er markiert nicht die 300 anderen potenziellen Sicherheitsprobleme, die ein LLM möglicherweise finden würde, wenn man es allgemein auffordert: „Identifiziere jedes Sicherheitsproblem auf dieser Baustelle.“
- Der Daily Report Agent hat alle Notizen Ihres Bauleiters für den Tag in ein sauberes Bautagebuch überführt, bereit für Ihre Prüfung. Wahrscheinlich war das sogar schon erledigt, bevor Sie am Vorabend zu Hause angekommen sind.
- Der Housekeeping Agent hat drei Punkte beim Reinigungsdienstleister gemeldet, weil Fluchtwege blockiert waren.
- Der Owner Update Agent hat Fortschrittsfotos aus den Aktivitäten dieser Woche in eine Präsentation für das morgige Eigentümermeeting zusammengestellt.
Wenn das Team zum Stand-up zusammenkommt, kann die erste Stunde direkt für Entscheidungen genutzt werden, denn die Vorarbeit ist bereits erledigt. Und das ist nur ein Morgen, auf einer Etage, mit vier Agenten, die im Hintergrund laufen.
Der Vorsprung durch asynchrone Agenten
Eine bessere Suche spart echte Zeit bei echten Problemen: das Foto finden, das verloren gegangen ist; die Vor-Ort-Notiz wieder auftauchen lassen, die man vergessen hatte; die Stelle auf einem Plan vom vergangenen Dienstag lokalisieren. Aber dieser Nutzen hat eine Grenze. Teams haben in der Baugeschichte immer auch ohne perfekte Suche gearbeitet, und jede neue Verbesserung bringt etwas weniger zusätzlichen Nutzen als die vorherige. Die Stunde, die Sie heute bei der Suche sparen, ist eine gesparte Stunde. Aber daraus entsteht nicht automatisch etwas Größeres.
Asynchrone Agenten funktionieren anders. Jede Stunde, in der Ihr Team schläft, in einem Meeting sitzt, im Urlaub ist oder in einem anderen Aufgabenbereich feststeckt, können Ihre Agenten Sicherheitsprüfungen, Fortschrittschecks, Mängellisten-Abschlüsse oder die Vorbereitung für Eigentümermeetings übernehmen. Ein Bauleiter hat acht bis zwölf produktive Stunden am Tag. Ein Agent hat 24. Drei Agenten, die im Auftrag eines Bauleiters arbeiten, entsprechen in ihrer operativen Leistung einem kleinen Team. Wenn zehn Personen auf einem Projekt jeweils drei Agenten nutzen, hängt die effektive Umsetzungskapazität nicht mehr allein von der Teamgröße ab.
Im Alltag zeigt sich dieser Unterschied darin, dass einige Sicherheitsrisiken früher erkannt werden oder eine Mängelliste eine Woche früher abgeschlossen wird. Über die gesamte Laufzeit eines Projekts verändert er das operative Tempo. Und über ähnliche Projektumfänge in einem Portfolio hinweg entscheidet er mit darüber, welche Teams den Maßstab setzen, an dem sich alle anderen orientieren müssen.
Das Harness ist der schwierige Teil
Der schwierige Teil ist das intelligente System rund um das Vision-Modell, das aus der Frage eines Kunden eine verlässliche Antwort macht. Wir nennen das das „Harness“, also der „Gurt“ des Agenten. Man kann es sich wie ein Gerüst vorstellen. Das Modell selbst ist ein sehr kluger Spezialist, der sich jeweils ein einzelnes Foto ansehen kann. Das Gerüst ist alles, was diesen Spezialisten umgibt: Es entscheidet, welche Fotos aus Hunderttausenden überhaupt gezeigt werden. Es stellt sicher, dass diese Fotos gut genug sind, um daraus Schlüsse zu ziehen. Es bezieht Informationen aus anderen Quellen ein, zum Beispiel aus Dokumenten und Modellen. Es greift auf früheres „Meta-Reasoning“ zu Bildern, Ort und Zeit zurück. Es fügt die Antworten zusammen. Und es weiß, wann es sagen muss: „Ich bin mir nicht sicher.“ Ohne dieses Harness hat man eine Demo. Mit ihm hat man etwas, das ein Bauleiter tatsächlich im Hintergrund laufen lässt.
Asynchrone Arbeit wird erst möglich, wenn dieses System funktioniert. Ohne ein zuverlässiges System sind Agenten, die unbeaufsichtigt im Hintergrund laufen, nicht nur nutzlos. Sie werden zum Risiko.
Einen Agenten auf dieses Niveau zu bringen, ist wirklich schwierig und aufwändig. Und der größte Teil dieser Arbeit ist von außen nicht sichtbar. Ich werde hier nicht auf alle Details eingehen, aber kurz gesagt braucht es sehr viele der richtigen visuellen Daten mit präzisem Standortkontext, die sorgfältig über Sampling, Ranking, Reasoning und Evaluation hinweg eingesetzt werden, bevor ein Agent zuverlässig genug ist, um unbeaufsichtigt auf einem Kundenprojekt zu laufen.
Vertrauen entsteht hier mit jedem einzelnen Lauf. Projektmanager und Project Engineers, die sehen, dass ein Agent über mehrere Wochen hinweg zuverlässig richtig liegt, lassen ihn weiterlaufen. Drei falsche Treffer am ersten Morgen, und sie tun es nicht. Ein synchrones Tool muss nützlich sein. Ein asynchrones Tool muss so nützlich sein, dass es niemand ständig überprüfen muss. Das ist ein anderer Maßstab. Und genau diesem Maßstab stellt sich OpenSpace.
Wo wir heute stehen
Ein Site Search Agent läuft bereits in unserer Entwicklungsumgebung. Er akzeptiert Fragen in natürlicher Sprache, findet relevante Bilder zur Beantwortung der Frage, führt die Suche aus und gibt positive Treffer mit Bounding Boxes und Positionen auf dem Plan zurück.
Der Vor-Ort-Notizen Review Agent, der engste Verwandte von Site Search, wird bereits für eine kleine Gruppe von Early-Access-Kunden ausgerollt. Die Erkenntnisse aus dieser Arbeit prägen, wie sich Site Search weiterentwickelt.
Die entscheidenden offenen Punkte betreffen Genauigkeit und Präzision. Über eine wachsende Liste von Kundenanwendungsfällen hinweg (Sicherheitsprüfungen, Fortschrittschecks, Objektsuchen, Vorbereitung von Eigentümermeetings) muss der Agent zuverlässig genug sein, damit Projektmanager, Project Engineers und Bauleiter ihn unbeaufsichtigt laufen lassen. Genau darum geht es in den nächsten Monaten.
Was als Nächstes kommt
Site Search ist der erste Agent, nach dem Kunden uns gefragt haben, und der Agent, den wir aktuell entwickeln. Der Vor-Ort-Notizen Review Agent ist bereits bei Early-Access-Testern im Einsatz. Weitere Agenten sind in Vorbereitung. Unser Ziel ist bei allen dasselbe: leistungsstarke, zuverlässige, asynchrone Vision Agents, die den Kontext jedes Kunden verstehen.
In einem Jahr werden einige Projektteams Dutzende Agenten auf jeder Aufnahme laufen lassen. Wir würden uns freuen, wenn Ihr Team dazugehört. Wenn Sie unsere Arbeit in Aktion sehen oder Teil einer Early-Access-Gruppe werden möchten, wenden Sie sich an Ihre OpenSpace-Ansprechperson.
Erfahren Sie mehr über KI-Agenten in unseren Blog-Artikeln

