بینایی یک ورودی حسی قدرتمند انسان است. این کارها و فرآیندهای پیچیده ای را که ما بدیهی می دانیم را قادر می سازد. با افزایش AoT™ (خودمختاری اشیا) در کاربردهای متنوع از حمل و نقل و کشاورزی گرفته تا رباتیک و پزشکی، نقش دوربینها، محاسبات و یادگیری ماشینی در ارائه دید و شناخت انسانمانند قابل توجه است. بینایی کامپیوتر بهعنوان یک رشته دانشگاهی در دهه 1960، عمدتاً در دانشگاههایی که در زمینه نوظهور هوش مصنوعی (AI) و یادگیری ماشین فعالیت داشتند، مطرح شد. در چهار دهه بعد پیشرفت چشمگیری داشت زیرا پیشرفت های چشمگیری در فناوری های نیمه هادی و محاسباتی حاصل شد. پیشرفتهای اخیر در یادگیری عمیق و هوش مصنوعی، کاربرد بینایی رایانه را برای ارائه درک و شناخت در زمان واقعی، با تأخیر کم از محیط، تسریع بیشتر کرده است و امکان استقلال، ایمنی و کارایی را در برنامههای مختلف فراهم میکند. حمل و نقل یکی از حوزه هایی است که سود قابل توجهی داشته است.
لیدار (Light Detection and Ranging) یک رویکرد تصویربرداری نوری فعال است که از لیزر برای تعیین محیط سه بعدی اطراف یک شی استفاده می کند. این یکی از فناوریهایی است که راهحلهای بینایی رایانه (که صرفاً به نور محیط متکی هستند و از لیزر برای ادراک سه بعدی استفاده نمیکنند) سعی در ایجاد اختلال در آن دارند. موضوع رایج این است که رانندگان انسانی برای درک عمق نیازی به LiDAR ندارند، بنابراین ماشینها نیز نباید. ویژگی های فعلی رانندگی خودکار تجاری L3 (استقلال کامل در مناطق جغرافیایی و شرایط آب و هوایی خاص، با راننده آماده برای کنترل در عرض چند ثانیه) محصولات امروزی از LiDAR استفاده کنید. تکنیک های صرفا مبتنی بر بینایی هنوز نتوانسته اند این قابلیت را به صورت تجاری ارائه دهند.
تبلیغات
تسلا
شرکت های دیگری مانند Phiar، Helm.ai و NODAR همچنین در حال پیگیری خیابان بینایی کامپیوتر هستند. هدف NODAR افزایش قابل توجه محدوده تصویربرداری و ادراک سه بعدی سیستم های دوربین استریو با یادگیری تنظیم ناهماهنگی دوربین و اثرات لرزش از طریق الگوریتم های یادگیری ماشینی ثبت شده است. اخیراً 12 میلیون دلار جمع آوری کرده است برای تولید محصول شاخص خود، Hammerhead™، که از دوربینهای کلاس خودرو و پلتفرمهای محاسباتی استاندارد استفاده میکند.
جدای از هزینه و اندازه، یک استدلال رایج علیه استفاده از LiDAR این است که برد و وضوح محدودی نسبت به دوربین ها دارد. به عنوان مثال، LiDAR ها با برد 200 متر و 5-10 M نقطه در ثانیه (PPS شبیه به وضوح) امروزه در دسترس هستند. در 200 متر، موانع کوچک مانند آجر یا زباله های لاستیک نقاط بسیار کمی را ثبت می کنند (شاید 2-3 در عمودی و 3-5 در جهت افقی) که تشخیص اشیا را دشوار می کند. در محدودههای طولانیتر همه چیز خشنتر میشود. در مقایسه، دوربینهای مگاپیکسلی استاندارد که با فرکانس 30 هرتز کار میکنند، میتوانند 30 میلیون پیکسل در ثانیه تولید کنند و تشخیص اشیا را حتی در بردهای طولانی ممکن میسازند. دوربین های پیشرفته تر (12 M پیکسل) می توانند این را حتی بیشتر کنند. مسئله این است که چگونه می توان از این داده های عظیم استفاده کرد و با تأخیرهای سطح میلی ثانیه، مصرف انرژی کم و شرایط نوری ضعیف، درک عملی ایجاد کرد.
تبلیغات
تشخیصیک شرکت مستقر در کالیفرنیا در تلاش برای حل این مشکل است. به گفته مدیرعامل مارک بولیتو، ماموریت آن این است کهارائه ادراک بصری فوق بشری برای وسایل نقلیه کاملاً خودمختار" این شرکت در سال 2017 تاسیس شد، تا به امروز 75 میلیون دلار جمع آوری کرده و 70 کارمند دارد. RK Anand، یکی از بنیانگذاران و مدیر ارشد محصول Juniper Networks است. او معتقد است که استفاده از دوربینهای با وضوح بالاتر، با محدوده دینامیکی بیش از 120 دسیبل، که با نرخ فریم بالا اجرا میشوند (بهعنوان مثال، OnSemi، Sony و Omnivision) دادههای مورد نیاز برای ایجاد اطلاعات سهبعدی با وضوح بالا را فراهم میکند، که برای تحقق AV بسیار مهم است. عوامل توانمند برای این امر عبارتند از:
- ASIC های سفارشی طراحی شده برای پردازش کارآمد داده ها و تولید نقشه های سه بعدی دقیق و با وضوح بالا از محیط خودرو. اینها بر روی یک فرآیند TSMC 3 نانومتری، با اندازه تراشه 7 میلیمتر مربع، با فرکانس 100 گیگاهرتز ساخته شدهاند.
- الگوریتمهای یادگیری ماشینی اختصاصی برای پردازش میلیونها نقطه داده به صورت آفلاین برای ایجاد شبکه عصبی آموزشدیده، که سپس میتواند کارآمد عمل کند و به طور مداوم یاد بگیرد. این شبکه درک را ارائه می دهد و شامل طبقه بندی و تشخیص اشیا، تقسیم بندی معنایی، تشخیص خط، علائم راهنمایی و رانندگی و تشخیص چراغ راهنمایی است.
- به حداقل رساندن ذخیره سازی خارج از تراشه و عملیات ضرب که انرژی زیادی دارند و تأخیر بالایی ایجاد می کنند. طراحی ASIC Recogni برای ریاضیات لگاریتمی بهینه شده است و از جمع استفاده می کند. کارایی های بیشتر با خوشه بندی وزن ها به طور بهینه در شبکه عصبی آموزش دیده محقق می شود.
در طول مرحله آموزش، از یک LiDAR تجاری به عنوان حقیقت زمینی برای آموزش داده های دوربین استریو با وضوح بالا و دامنه دینامیکی بالا استفاده می شود تا اطلاعات عمق را استخراج کند و آن را در برابر ناهماهنگی و اثرات لرزش مقاوم کند. به گفته آقای آناند، پیادهسازی یادگیری ماشینی آنها آنقدر کارآمد است که میتواند تخمینهای عمق را فراتر از محدودههای آموزشی ارائهشده توسط کالیبراسیون LiDAR (که حقیقت زمین را تا برد ۱۰۰ متر ارائه میکند) برونیابی کند.
تبلیغات
دادههای آموزشی بالا در طول روز با یک جفت دوربین استریو 8.3 مگاپیکسلی که با نرخ فریم 30 هرتز (~0.5 بایت پیکسل در ثانیه) کار میکردند، انجام شد. این توانایی شبکه آموزش دیده را برای استخراج اطلاعات سه بعدی در صحنه فراتر از برد 3 متری که با آن آموزش داده شده را نشان می دهد. راه حل Recogni همچنین می تواند یادگیری خود را با داده های روز به عملکرد شبانه تعمیم دهد (شکل 100).
تبلیغات
به گفته آقای آناند، دادههای محدوده تا 5 درصد (در دامنههای بلند) و نزدیک به 2 درصد (در محدودههای کوتاهتر) دقیق هستند. این راه حل 1000 TOPS (تریلیون عملیات در ثانیه) با تأخیر 6 میلی ثانیه و مصرف برق 25 وات (40 TOPS/W) ارائه می دهد که صنعت را پیشرو می کند. رقبای که از ریاضی اعداد صحیح استفاده می کنند در این معیار 10 برابر کمتر هستند. راه حل Recogni در حال حاضر در چندین تامین کننده سطح 1 خودرو در حال آزمایش است.
پیامبر ("پیش بینی و دیدن اینکه عمل کجاست")، مستقر در فرانسه، از دوربین های مبتنی بر رویداد خود برای AV، سیستم های پیشرفته کمک راننده (ADAS)، اتوماسیون صنعتی، برنامه های کاربردی مصرف کننده و مراقبت های بهداشتی استفاده می کند. در سال 2014 تاسیس شد این شرکت اخیراً بودجه 50 میلیون دلاری خود را در دور C بسته است، با مجموع 127 میلیون دلار تا به امروز جمع آوری شده است. شیائومی، تولید کننده پیشرو تلفن های همراه، یکی از سرمایه گذاران است. هدف Prophesee تقلید بینایی انسان است که در آن گیرنده های شبکیه به اطلاعات پویا واکنش نشان می دهند. مغز انسان روی پردازش تغییرات در صحنه (به ویژه برای رانندگی) تمرکز می کند. ایده اصلی استفاده از معماریهای دوربین و پیکسل است که تغییرات شدت نور بالاتر از یک آستانه (یک رویداد) را تشخیص میدهند و فقط این دادهها را برای پردازش بیشتر در پشته محاسباتی فراهم میکنند. پیکسل ها به صورت ناهمزمان کار می کنند (مانند دوربین های CMOS معمولی قاب نمی شوند) و با سرعت های بسیار بالاتری کار می کنند زیرا نیازی به ادغام فوتون ها مانند دوربین های معمولی مبتنی بر فریم ندارند و منتظر بمانند تا کل فریم قبل از بازخوانی داده ها به پایان برسد. مزایا قابل توجه است - پهنای باند داده کمتر، تأخیر تصمیم گیری، ذخیره سازی و مصرف انرژی. اولین سنسور بینایی مبتنی بر رویداد VGA درجه تجاری این شرکت دارای محدوده دینامیکی بالا (> 120 دسی بل)، مصرف انرژی کم (26 مگاوات در سطح سنسور یا 3 nW/رویداد) بود. یک نسخه HD (با وضوح بالا) (به طور مشترک با سونی توسعه یافته)، با اندازه پیکسل پیشرو در صنعت (< 5 میکرومتر) نیز راه اندازی شده است.
تبلیغات
این حسگرها هسته پلتفرم سنجش Metavision را تشکیل میدهند که از هوش مصنوعی برای ارائه درک هوشمندانه و کارآمد برای کاربردهای خودمختاری استفاده میکند و توسط چندین شرکت در فضای حملونقل در دست ارزیابی است. جدا از درک رو به جلو برای AV و ADAS، Prophesee به طور فعال با مشتریان برای نظارت در کابین راننده برای برنامه های L2 و L3 درگیر است، به شکل 4 مراجعه کنید:
فرصتهای خودرویی سودآور هستند، اما چرخههای طراحی طولانی هستند. طی دو سال گذشته، Prophesee علاقه و کشش قابل توجهی در فضای بینایی ماشین برای کاربردهای صنعتی داشته است. اینها شامل شمارش با سرعت بالا، بازرسی سطح و نظارت بر ارتعاش است.
تبلیغات
Prophesee اخیراً همکاری خود را اعلام کرده است با توسعه دهندگان پیشرو سیستم های بینایی ماشین برای بهره برداری از فرصت ها در اتوماسیون صنعتی، رباتیک، خودرو و اینترنت اشیا (اینترنت اشیا). دیگر فرصتهای فوری اصلاح تاری تصویر برای تلفنهای همراه و برنامههای AR/VR است. این سنسورها نسبت به حسگرهایی که برای فرصتهای بلندمدت ADAS/AV استفاده میشوند، از سنسورهای فرمت پایینتری استفاده میکنند، حتی توان کمتری مصرف میکنند و با تأخیر قابل توجهی کمتر کار میکنند.
اسرائیل یک مبتکر پیشرو در فناوری پیشرفته است، با سرمایهگذاریهای مخاطرهآمیز قابل توجه و محیط راهاندازی فعال. از سال 2015، حدود 70 میلیارد دلار سرمایه گذاری در بخش فناوری صورت گرفته است. بخشی از این در حوزه بینایی کامپیوتر است. Mobileye در سال 1999 هنگامی که آمنون شاشوا، محقق برجسته هوش مصنوعی در دانشگاه عبری، این شرکت را برای تمرکز بر درک مبتنی بر دوربین برای ADAS و AV ها تأسیس کرد، این انقلاب را رهبری کرد. این شرکت در سال 2014 برای IPO ثبت نام کرد و توسط اینتل خریداری شد
تبلیغات
Champel Capital، مستقر در اورشلیم، در خط مقدم سرمایه گذاری در شرکت هایی است که محصولات مبتنی بر بینایی کامپیوتری را برای کاربردهای مختلف از حمل و نقل و کشاورزی گرفته تا امنیت و ایمنی توسعه می دهند. امیر ویتمن یکی از بنیانگذاران و شریک مدیریت است و شرکت سرمایه گذاری خود را در سال 2017 راه اندازی کرد. اولین صندوق 20 میلیون دلار در 14 شرکت سرمایه گذاری کرد. یکی از سرمایهگذاریهای آنها در Innoviz بود که از طریق ادغام SPAC در سال 2018 عمومی شد و به LiDAR Unicorn تبدیل شد. به رهبری عمر کیلف (که از واحد فناوری سپاه اطلاعات نیروی دفاعی اسرائیل بود)، این شرکت امروز پیشرو در استقرار LiDAR برای ADAS و AV است، با چندین پیروزی در طراحی در BMW و Volkswagen.
صندوق دوم Champel Capital (Impact Deep Tech Fund II) در ژانویه 2022 راه اندازی شد و تا به امروز 30 میلیون دلار جمع آوری کرده است (هدف تا پایان سال 100 2022 میلیون دلار است). تمرکز اصلی بر روی بینایی کامپیوتر است، با 12 میلیون دلار مستقر در پنج شرکت. سه مورد از اینها از بینایی کامپیوتر برای حمل و نقل و روباتیک استفاده می کنند.
TankU، مستقر در حیفا، فعالیت خود را در سال 2018 آغاز کرد و 10 میلیون دلار سرمایه جذب کرد. دن والدهورن مدیرعامل و فارغ التحصیل واحد 8200 است، یک گروه نخبه با فناوری پیشرفته در نیروی دفاعی اسرائیل که مسئول اطلاعات سیگنال و رمزگشایی کد است. محصولات SaaS (نرمافزار به عنوان سرویس) TankU فرآیندها را در محیطهای پیچیده در فضای باز که به وسایل نقلیه و رانندگان سرویس میدهند، خودکار و ایمن میکنند. این محصولات توسط صاحبان ناوگان خودرو، خودروهای شخصی، جایگاه های سوخت رسانی و شارژ برق برای جلوگیری از سرقت و کلاهبرداری در تراکنش های مالی خودکار استفاده می شود. خدمات سوخت خودرو سالانه حدود 2 تریلیون دلار درآمد جهانی ایجاد می کند که از این میزان، صاحبان ناوگان خودروهای شخصی و تجاری 40٪ یا 800 میلیارد دلار را مصرف می کنند. خرده فروشان و صاحبان ناوگان سالانه حدود 100 میلیارد دلار به دلیل سرقت و کلاهبرداری ضرر می کنند (به عنوان مثال، استفاده از کارت سوخت ناوگان برای وسایل نقلیه شخصی غیرمجاز). CNP (کارت موجود نیست) کلاهبرداری و دستکاری/سرقت سوخت منابع اضافی ضرر هستند، به خصوص در هنگام استفاده از جزئیات کارت دزدیده شده در برنامه های تلفن همراه برای پرداخت.
تبلیغات
محصول TUfuel این شرکت پرداخت امن با یک ضربه را تسهیل می کند، اکثر انواع کلاهبرداری را مسدود می کند و در صورت مشکوک شدن به کلاهبرداری به مشتریان هشدار می دهد. این کار را بر اساس یک موتور هوش مصنوعی انجام میدهد که بر روی دادههای دوربینهای مداربسته موجود در این امکانات و دادههای تراکنش دیجیتال (از جمله POS و سایر دادههای پشتیبان) آموزش دیده است. پارامترهایی مانند مسیر حرکت و دینامیک وسیله نقلیه، شناسه وسیله نقلیه، زمان سفر، مسافت پیموده شده، زمان سوختگیری، مقدار سوخت، سابقه سوخت و رفتار راننده برخی از ویژگیهایی هستند که برای تشخیص تقلب کنترل میشوند. این داده ها همچنین به خرده فروشان کمک می کند تا عملکرد سایت را بهینه کنند، وفاداری مشتری را افزایش دهند و ابزارهای بازاریابی مبتنی بر چشم انداز را به کار گیرند. به گفته مدیر عامل شرکت Dan Valdhorn، راه حل آنها 70٪ از ناوگان، 90٪ از کارت اعتباری و 70٪ از رویدادهای کلاهبرداری مرتبط با دستکاری را شناسایی می کند.
سونول یک شرکت خدمات انرژی است که دارای شبکه ای از 240 ایستگاه و فروشگاه های رفاهی در سراسر اسرائیل است. TUfuel در سایت های آنها مستقر است و امنیت، جلوگیری از تقلب و وفاداری مشتری را افزایش داده است. آزمایشات محصول در ایالات متحده با همکاری یک تامین کننده جهانی پمپ بنزین و تجهیزات فروشگاهی در حال انجام است. ابتکارات مشابهی نیز در آفریقا و اروپا در حال انجام است.
تبلیغات
مستقر در تل آویو ITC در سال 2019 توسط دانشگاهیان یادگیری ماشین از دانشگاه بن گوریون تأسیس شد. ITC محصولات SaaS را ایجاد می کند که "جریان ترافیک را اندازه گیری کنید، تراکم را پیش بینی کنید و از طریق دستکاری هوشمند چراغ های راهنمایی - قبل از شروع راه بندان ها، آن را کاهش دهید." مشابه TankU، از دادههای دوربینهای خارج از قفسه (که قبلاً در تقاطعهای ترافیکی متعدد نصب شدهاند) برای به دست آوردن دادههای ترافیکی زنده استفاده میکند. دادههای هزاران دوربین در سراسر یک شهر تجزیه و تحلیل میشوند و پارامترهایی مانند نوع وسیله نقلیه، سرعت، جهت حرکت و ترتیب انواع خودرو (کامیون در مقابل خودرو) از طریق استفاده از الگوریتمهای اختصاصی هوش مصنوعی استخراج میشوند. شبیهسازیها جریان ترافیک و موقعیتهای بالقوه ترافیک را تا 30 دقیقه قبل پیشبینی میکنند. چراغهای راهنمایی با استفاده از این نتایج تنظیم میشوند تا جریان ترافیک را روان و از انسداد جلوگیری کنند.
آموزش سیستم هوش مصنوعی به یک ماه داده های بصری در یک شهر معمولی نیاز دارد و شامل ترکیبی از یادگیری تحت نظارت و بدون نظارت است. راه حل ITC در حال حاضر در تل آویو (رتبه 25 در شلوغ ترین شهرهای جهان در سال 2020) مستقر شده است، با هزاران دوربین مستقر در صدها تقاطع که توسط چراغ های راهنمایی کنترل می شوند. سیستم ITC در حال حاضر 75 هزار وسیله نقلیه را مدیریت می کند که انتظار می رود به رشد خود ادامه دهد. این شرکت در حال نصب a قابلیت مشابه در لوکزامبورگ و در حال شروع آزمایشی در شهرهای بزرگ ایالات متحده است. در سطح جهانی، راه حل آن 300,000 وسیله نقلیه را با سایت های عملیاتی در اسرائیل، ایالات متحده آمریکا، برزیل و استرالیا مدیریت می کند. Dvir Kenig، CTO، مشتاق حل این مشکل است - برای بازگرداندن وقت شخصی به مردم، کاهش گازهای گلخانه ای، افزایش بهره وری کلی و مهمتر از همه، کاهش تصادفات در تقاطع های شلوغ. به گفته آقای کنیگ، استقرار ما نشان دهنده کاهش 30 درصدی ترافیک، کاهش زمان رانندگی غیرمولد، استرس، مصرف سوخت و آلودگی است.
تبلیغات
رباتیک داخلی بود در 2018 تاسیس و تازه 18 میلیون دلار بودجه جمع آوری کرد. این شرکت که در نزدیکی تلآویو، اسرائیل مستقر است، راهحلهای پهپادهای بدون سرنشین خودران را برای نظارت بر امنیت، ایمنی و نگهداری داخل ساختمان توسعه داده و میفروشد. مدیرعامل و یکی از بنیانگذاران، Doron Ben-David، دارای تجربه قابل توجهی در زمینه رباتیک و هوانوردی است که در IAI انباشته شده است.
Ofir Bar-Levav مدیر ارشد بازرگانی است. او توضیح میدهد که فقدان GPS مانع از بومیسازی پهپادهای داخلی در داخل ساختمانها شده است (معمولاً GPS رد یا نادرست است). علاوه بر این، راهحلهای مناسب و کارآمد اتصال و تغذیه وجود نداشت. Indoor Robotics با چهار دوربین نصب شده بر روی پهپاد (بالا، پایین، چپ، راست) و سنسورهای برد ساده که به طور دقیق فضای داخلی و محتویات آن را ترسیم می کند، این مشکل را برطرف می کند. دادههای دوربین (دوربینها دادههای محلیسازی و نقشهبرداری را ارائه میکنند) و حسگرهای حرارتی (همچنین روی پهپاد نصب شدهاند) توسط یک سیستم هوش مصنوعی تجزیه و تحلیل میشوند تا مسائل امنیتی، ایمنی و نگهداری احتمالی را شناسایی کرده و به مشتری احتیاط کنند. پهپادها خود را از طریق یک "کاشی لنگرگاه" نصب شده در سقف، که باعث صرفه جویی در فضای با ارزش زمین شده و امکان جمع آوری داده ها را در حین شارژ فراهم می کند، تامین می شود. مزایای مالی خودکارسازی این فرآیندهای دنیوی که در آن کار انسانی از نظر استخدام، نگهداری و آموزش پیچیده و گران است، مشهود است. استفاده از پهپادهای هوایی در مقابل ربات های زمینی نیز از نظر سرمایه و هزینه های عملیاتی، استفاده بهتر از فضای کف، آزادی حرکت بدون برخورد با موانع و کارایی ثبت داده های دوربین، مزایای قابل توجهی دارد. به گفته آقای Bar-Levav، تا سال 80، TAM رباتیک داخلی (بازار کل آدرس پذیر) در سیستم های امنیتی هوشمند داخلی 2026 میلیارد دلار خواهد بود. مکان های کلیدی مشتریان امروزه شامل انبارها، مراکز داده و پردیس های اداری شرکت های پیشرو جهانی است.
تبلیغات
بینش کامپیوتری در حال متحول کردن بازی استقلال است - در اتوماسیون حرکت، امنیت، نظارت بر ساختمان هوشمند، تشخیص تقلب و مدیریت ترافیک. قدرت نیمه هادی ها و هوش مصنوعی توانمندسازهای قدرتمندی هستند. هنگامی که کامپیوترها بر این روش حسی باورنکردنی به شیوه ای مقیاس پذیر مسلط شوند، امکانات بی پایان خواهند بود.
منبع: https://www.forbes.com/sites/sabbirrangwala/2022/10/04/advances-in-computer-vision-propel-transportation-autonomy/