आज, एजेंट सॉफ़्टवेयर का उपयोग करते हैं। कल, वे सब कुछ उपयोग करेंगे।
हम एक ऐसी दुनिया बना रहे हैं जहाँ AI सिर्फ स्क्रीन पर बटन नहीं दबाता — यह मशीनें संचालित करता है, भौतिक स्थानों में नेविगेट करता है और वास्तविक दुनिया में इंसानों के साथ काम करता है।
Computer-use
एजेंट जो स्क्रीन देखते हैं, बटन क्लिक करते हैं और किसी भी सॉफ़्टवेयर को बिल्कुल इंसान की तरह संचालित करते हैं। कोई API नहीं। यही Deck आज है — और यह पहले से ही कंपनियों के काम करने के तरीके को बदल रहा है।
वर्तमान सीमाओं के भीतर LLMs को अधिकतम करना
वर्तमान मॉडल शक्तिशाली हैं लेकिन सीमित — संदर्भ विंडो, हैलुसिनेशन, लागत। हम शोध कर रहे हैं कि कैसे आगे बढ़ें: मल्टी-एजेंट ऑर्केस्ट्रेशन, लंबी चलने वाली कार्य स्मृति, स्व-उपचार वर्कफ़्लो और 100+ चरणों वाले वर्कफ़्लो में संरचित तर्क।
Robotic-use
वही सिद्धांत जो एक एजेंट को वेबसाइट नेविगेट करने देते हैं, उसे एक गोदाम नेविगेट करने दे सकते हैं। हम खोज रहे हैं कि Computer Use स्क्रीन से परे कैसे विस्तारित होता है — कैमरों, सेंसर, रोबोटिक भुजाओं और भौतिक वातावरण में।
खुले सवाल जिन पर हम काम कर रहे हैं
APIs दुनिया के 1% सॉफ़्टवेयर को कवर करती हैं। बाकी 99% में केवल एक यूज़र इंटरफ़ेस है। आप एक ऐसा एजेंट कैसे बनाते हैं जो यह सब संचालित कर सके — बिना एकीकरण कोड की एक भी पंक्ति के?
अगर वेबसाइट नेविगेट करने का संज्ञानात्मक चक्र गोदाम नेविगेट करने जैसा है — अनुभव करो, निर्णय लो, कार्य करो — तो कौन सा बुनियादी ढांचा डिजिटल और भौतिक वातावरण के बीच की खाई को पाटता है?
200 चरणों वाले वर्कफ़्लो में जहाँ प्रत्येक चरण 98% विश्वसनीय है, एंड-टू-एंड सफलता दर ~2% तक गिर जाती है। आप ऐसी त्रुटि सुधार कैसे डिज़ाइन करते हैं जो द्विघात लागत के बिना विश्वसनीयता 95% से ऊपर रखे?
हर एंटरप्राइज़ के पास हज़ारों क्रेडेंशियल्स हैं और हर एजेंट को एक्सेस चाहिए। आप ऐसी क्रेडेंशियल आर्किटेक्चर कैसे बनाते हैं जहाँ एक VM की भेद्यता पूरे ग्राफ़ को उजागर न करे?
सॉफ़्टवेयर अपना UI किसी भी मॉडल के पुनः प्रशिक्षण से तेज़ बदलता है। आप ऐसे एजेंट कैसे बनाते हैं जो हर इंटरफ़ेस को नया मानें — और फिर भी पहले प्रयास में सही ढंग से संचालित करें?
वह बड़ा सवाल क्या है जिसका आप जवाब खोज रहे हैं?