आज, एजेंट सॉफ़्टवेयर का उपयोग करते हैं। कल, वे सब कुछ उपयोग करेंगे।

हम एक ऐसी दुनिया बना रहे हैं जहाँ AI सिर्फ स्क्रीन पर बटन नहीं दबाता — यह मशीनें संचालित करता है, भौतिक स्थानों में नेविगेट करता है और वास्तविक दुनिया में इंसानों के साथ काम करता है।

अभी

Computer-use

एजेंट जो स्क्रीन देखते हैं, बटन क्लिक करते हैं और किसी भी सॉफ़्टवेयर को बिल्कुल इंसान की तरह संचालित करते हैं। कोई API नहीं। यही Deck आज है — और यह पहले से ही कंपनियों के काम करने के तरीके को बदल रहा है।

अगला

वर्तमान सीमाओं के भीतर LLMs को अधिकतम करना

वर्तमान मॉडल शक्तिशाली हैं लेकिन सीमित — संदर्भ विंडो, हैलुसिनेशन, लागत। हम शोध कर रहे हैं कि कैसे आगे बढ़ें: मल्टी-एजेंट ऑर्केस्ट्रेशन, लंबी चलने वाली कार्य स्मृति, स्व-उपचार वर्कफ़्लो और 100+ चरणों वाले वर्कफ़्लो में संरचित तर्क।

भविष्य

Robotic-use

वही सिद्धांत जो एक एजेंट को वेबसाइट नेविगेट करने देते हैं, उसे एक गोदाम नेविगेट करने दे सकते हैं। हम खोज रहे हैं कि Computer Use स्क्रीन से परे कैसे विस्तारित होता है — कैमरों, सेंसर, रोबोटिक भुजाओं और भौतिक वातावरण में।

खुले सवाल जिन पर हम काम कर रहे हैं

APIs दुनिया के 1% सॉफ़्टवेयर को कवर करती हैं। बाकी 99% में केवल एक यूज़र इंटरफ़ेस है। आप एक ऐसा एजेंट कैसे बनाते हैं जो यह सब संचालित कर सके — बिना एकीकरण कोड की एक भी पंक्ति के?

अगर वेबसाइट नेविगेट करने का संज्ञानात्मक चक्र गोदाम नेविगेट करने जैसा है — अनुभव करो, निर्णय लो, कार्य करो — तो कौन सा बुनियादी ढांचा डिजिटल और भौतिक वातावरण के बीच की खाई को पाटता है?

200 चरणों वाले वर्कफ़्लो में जहाँ प्रत्येक चरण 98% विश्वसनीय है, एंड-टू-एंड सफलता दर ~2% तक गिर जाती है। आप ऐसी त्रुटि सुधार कैसे डिज़ाइन करते हैं जो द्विघात लागत के बिना विश्वसनीयता 95% से ऊपर रखे?

हर एंटरप्राइज़ के पास हज़ारों क्रेडेंशियल्स हैं और हर एजेंट को एक्सेस चाहिए। आप ऐसी क्रेडेंशियल आर्किटेक्चर कैसे बनाते हैं जहाँ एक VM की भेद्यता पूरे ग्राफ़ को उजागर न करे?

सॉफ़्टवेयर अपना UI किसी भी मॉडल के पुनः प्रशिक्षण से तेज़ बदलता है। आप ऐसे एजेंट कैसे बनाते हैं जो हर इंटरफ़ेस को नया मानें — और फिर भी पहले प्रयास में सही ढंग से संचालित करें?

वह बड़ा सवाल क्या है जिसका आप जवाब खोज रहे हैं?