چگونه Deep Learning صنعت دوربین مداربسته را متحول خواهد کرد

-
مهر تجارت بام


آخرین تغییرات:1396/03/26

استفاده از قابلیت های فراگیری عمیق در صنعت دوربین مداربسته و ایجاد سیستم های هوشمند حفاظتی و دوربین های مداربسته هوشمند
چگونه Deep Learning صنعت دوربین مداربسته را متحول خواهد کرد
دستگاه های ذخیره سازی در صنعت تجهیزات امنیتی بایستی به صورت معمول اقدام به مدیریت و نگهداری حجم زیادی داده های خام نمایند. به عنوان مثال، در پروژه های شهرهای ایمن که به صورت گسترده در حال توسعه و بهره برداری می باشند، استفاده از تجهیزات امنیتی و دوربین مداربسته به صدها یا هزاران مورد می رسد. همچنین استفاده از تجهیزات و دوربین های مداربسته دارای کیفیت بالا منجر به افزایش قابل ملاحظه داده های تولیدی و تصاویر ویدیویی دوربین های مداربسته می شود. با توجه به موارد ذکر شده نگهداری، تحلیل و کاربرد داده ها و استفاده از قابلیت های هوشمند در این حجم از داده های ایجاد شده بسیار دارای اهمیت شده و ضروری می باشد. باید در نظر داشت که بهینه سازی هوشمندی در سیستم های دوربین مداربسته به عنوان یک امر اجتناب ناپذیر و یک ضرورت غیر قابل انکار پذیرفته شده است.

بهره برداران سیستم های امنیتی امیدوارند تا با استفاده از تجهیزات جدید تولید شده به قابلیت های هوشمند جدیدی در مقایسه با تجهیزات سنتی دست یابند، قابلیت هایی بیش از دنبال کردن و تعقیب یک فرد یا شی. از مزایایی که به آنها به عنوان گذار از سیستم های مداربسته سنتی به سیستم های هوشمند جدید نگاه می گردد می توان به تبدیل سیستم های سنتی قدیمی از ابزارهایی با قابلیت تشخیص انسانی و پس از وقوع حادثه به سیستم هایی هوشمند با توانمندی تشخیص حادثه به صورت خودکار در زمان وقوع آن اشاره نمود، قابلیتی که حتی می توان انتظار داشت که سیستم هوشمند بر اساس آن بتواند پیش از وقوع حادثه رخداد آن را پیش بینی نماید. جهت دستیابی به این خواسته ها نیازمند تولید و بهره برداری از تکنولوژی های جدید می باشیم. سیستم های هوشمند نظارت تصویری سنتی برای مدت های طولانی است که مورد استفاده می باشند. به هر حال بایستی اعتراف نمود که خروجی های تولید شده از آنها چندان قابل قبول نمی باشد. استفاده از "فراگیری عمیق" می تواند خواسته ها و انتظارات از یک سیستم هوشمند را به واقعیت نزدیک تر کند.

تاثیرگذاری الگوریتم های هوشمند سنتی

سیستم های نظارت تصویری و دوربین مداربسته سنتی وابستگی بسیار زیادی به پیش زمینه یک صحنه دارند. در چنین سیستمی دقت تشخیص های هوشمند در تحلیل های مقایسه ای غیر قابل اعتماد خواهد بود. این موضوع پایه ای ترین دلیل بر نقص سیستم های هوشمند سنتی نظارت تصویری می باشد.

در یک قابلیت هوشمند، یک پروسه تحلیلی مانند تشخیص چهره انسان، دو گام کلیدی خواهد داشت: اول آنکه، ویژگی ها استخراج گردند، و دوم آنکه، دسته بندی آموخته ها صورت پذیرد.

درجه دقت در گام اول به صورت مستقیم بر روی دقت الگوریتم تاثیرگذار خواهد بود. در حقیقت، بیشتر محاسبات سیستمی و بار کاری در این بخش صورت می پذیرد. قابلیت ها در سیستم های سنتی و الگوریتم های آنها توسط انسان تولید شده است و همیشه دارای حجم زیادی از پیشفرض های ذهنی می باشند. بیشتر ویژگی های انتزاعی – آنهایی که درک و توصیف آنها برای ذهن انسان مشکل است – به صورت اجتناب ناپذیری نادیده گرفته می شوند. با یک تغییر زاویه یا تغییر نور به ویژه زمانی که اندازه سوژه بزرگ می باشد، تشخیص و یافتن بسیاری از ویژگی ها مشکل می گردد. بنابراین در حالی که سیستم های هوشمند سنتی در یک محیط ویژه می توانند بسیار عالی عمل نماید، با تغییر شرایط محیطی یا تغییر جزییات (نظیر تغییر کیفیت تصویر، محیط یا ...) تاثیرات مخربی بر روی دقت عملکرد الگوریتم رخ خواهد داد.

در گام دوم – دسته بندی آموخته ها – که به صورت ویژه بر روی شناسایی هدف و تشخیص خصوصیت های آن تمرکز می شود، با افزایش دسته بندی ها و طبقه بندی ها سطح سختی کار افزایش می یابد. می توان به صورت مقایسه ای بیان کرد که به عنوان مثال سیستم های سنتی نظارت تصویری هوشمند در حالی که در تشخیص یک وسیله نقلیه بسیار دقیق عمل می نمایند اما در شناسایی انسان یا سایر اشیا دچار مشکلات عدیده می باشند. به عنوان مثال در تشخیص یک وسیله نقلیه می توان دسته بندی را بدین صورت در نظر گرفت: 1) وسیله نقلیه، 2) سایر اشیا. در این حالت سطح سختی تشخیص بسیار کم خواهد بود. در حالی که زمانی که بخواهیم انواع مختلف وسیله نقیله را شناسایی کنیم نیازمند بررسی تمامی ویژگی ها نظیر ابعاد، اشکال، لوگوها و سایر خاصیت های آنها و انجام عملیات دسته بندی خواهیم بود. این امر پیچیدگی زیادی را ایجاد می نماید. به هر حال با توجه به شرایط ذکر شده تعداد دسته بندی های دقیق تولید شده را می توان بسیار کم در نظر گرفت. به عبارت دیگر در زمینه هایی چون شناسایی چهره افراد مختلف، هر فرد را می توان به عنوان یک طبقه و دسته بندی در نظر گرفت، طبقاتی که همپوشانی خصوصیات انسانی آنها دارای تعدد بسیاری می باشد، نتیجه آن است که دستیابی به یک سیستم دقیق شناسایی چهره بسیار مشکل خواهد شد.

الگوریتم های سیستم های هوشمند سنتی به صورت عمومی از روش های دریافت سطحی ای در مدیریت حجم بالای داده های یک طبقه بندی پیچیده استفاده می نمایند. مطمئنا در این شرایط نتیجه بدست آمده بسیار دور از نقطه ایده آل خواهد بود. علاوه بر این، این داده های سطحی بدست آمده وسعت و عمق کاربردهای هوشمندی را محدود نموده و از توسعه آن در زمینه های مختلف جلوگیری می نماید. تمام اینها در حالی است که نیاز به افزایش عمق هوشمندی در داده های حجیم تولید شده توسط سیستم های حفاظتی در حال افزایش است.

مزایای Deep Learning و الگوریتم های آن

الگوریتم های سنتی توسط انسان ها طراحی شده است. این امر که طراحی آنها به صورت درست و صحیح انجام شده است یا نه به تجربه طراحان و یا حتی شانس باز می گردد، همچنین پروسه طراحی این الگوریتم ها توسط انسان و بازبینی و تست آنها امری بسیار زمان بر است. با توجه به این شرایط است که می توان حالتی را در نظر گرفت که در آن خود سیستم و ماشین بتواند به صورت خودکار اقدام به یادگیری برخی از ویژگی ها و بهینه سازی تشخیص آنها بپردازد. این همان مساله ای است که به آن هوش مصنوعی گفته می شود.
Deep Learning

زمینه اصلی فراگیری عمیق از نحوه کارکرد نرون های مغز انسان الهام گرفته شده است. مغز ما می تواند مدل های بسیار پیچیده ای را در تشخیص مسائل مختلف طراحی و بهینه سازی نماید. شبکه نرون های مغز انسان از میلیاردها نرون متصل به یکدیگر تشکیل شده است. Deep Learning ساختاری شبیه به آن را شبیه سازی می کند. این شبکه لایه ای می تواند اطلاعات را جمع آوری کند و مجموعه ای از فعالیت های وابسته را برنامه ریزی نماید. همچنین این شبکه می تواند توانایی مجازی سازی اشیا و باز تولید حالت های مختلف آن را فراهم آورد.

یادگیری عمیق به صورت ذاتی از سایر الگوریتم ها متفاوت است، راه حلی که در آن برای حل کمبودهای الگوریتم های سنتی در نظر گرفته شده است از ابعاد زیر تشکیل می شود.

اول، از عمق کم به زیاد

مدل الگوریتم های Deep Learning دارای عمق بسیار بیشتری از ساختارهای الگوریتمی 2 یا سه لایه الگوریتم های سنتی می باشد. در برخی از مواقع لایه های مختلف آن می تواند تا بیش از یکصد لایه در نظر گرفته شود که الگوریتم را قادر به پردازش حجم بزرگی از داده ها و ایجاد طبقه بندی وسیعی از خواص می نماید. فراگیری عمیق بسیار شبیه به پروسه یادگیری انسان می باشد، و دارای لایه های متعدد تشخیص ویژگی ها است. هر لایه دارای وزن متفاوتی خواهد بود، و این وزن تعیین می نماید که از تصویر چه چیزی تشخیص داده خواهد شد. لایه های بالاتر ویژگی های خاص تر را تعیین می نمایند. همانند مغز انسان، سیگنال اولیه از لایه های مختلف پردازش عبور می نماید و در نهایت فهم ضعیف را تبدیل به یک تشخیص کامل می نماید، جایی که می توان به صورت دقیق شی را شناسایی نمود.
Deep Learning Layers

دوم، از ویژگی های مصنوعی به یادگیری ویژگی ها

فراگیری عمیق به دخالت دستی نیاز ندارد و در مقابل بر پایه استخراج ویژگی ها به صورت کامپیوتری می باشد. در این روش توانایی استخراج تعداد زیادی از ویژگی ها، از جمله ویژگی های انتزاعی که توصیف آنها سخت یا غیر ممکن است فراهم می شود. هرچقدر که ویژگی های بیشتری تشخیص داده شود، تشخیص دقیق تر و دسته بندی صحیح تری ایجاد می شود. برخی از مزایای ایجاد شده توسط فراگیری عمیق عبارتند از دقت برابر یا بالاتر در مقابل پترن های تشخیص انسانی، جلوگیری موثر از قابلیت های تاثیر پذیری و توانایی پردازش و شناسایی هزاران ویژگی.

فاکتورهای کلیدی Deep Learning

به صورت کلی، سه دلیل عمده را می توان برای عدم اقبال به فراگیری عمیق در گذشته و اقبال به آن در سال های اخیر در نظر داشت، اول حجم داده ها که در سال های اخیر افزایش قابل توجه داشته است، دوم قدرت پردازش و محاسبه و سوم معماری شبکه.

بهبودهای صورت پذیرفته در الگوریتم های مبتنی بر داده و بهینه سازی آنها توانسته است تاثیر به سزایی در برنامه های هوشمند داشته باشد. به ویژه آنکه در مقابل افزایش حجم داده ها بهره وری الگوریتم ها رشد قابل ملاحظه ای داشته است.

داده های تصاویر ویدیویی دوربین مداربسته نزدیک به 60 درصد از داده های حجیم را تشکیل می دهند و روند رشد آنها تا 20 درصد در سال در نظر گرفته می شود. این حجم از داده و سرعت رشد آن بیشتر به اقبال عمومی در استفاده از سیستم های مداربسته دارای کیفیت بالا بر می گردد، به صورتی که هم اکنون کیفیت تصویری 1080 بسیار مورد استفاده است و کیفیت های تصویری 4K و کیفیت های بالاتر از آن در بسیاری از زمینه های حفاظتی مورد اهمیت در حال استفاده می باشند.

هایک ویژن سال های زیادی است که در زمینه دوربین های مداربسته و سیستم های نظارت تصویری از تیم توسعه و تحقیق خود استفاده می کند. این شرکت حجم زیادی از داده های ویدیویی و تصاویر ذخیره شده را به عنوان نمونه به کار گرفته است. با استفاده از حجم وسیعی از داده های دارای کیفیت و با به کارگیری صدها تیم متخصص جهت برچسب گذاری تصاویر ویدیویی، میلیون ها تصویر نمونه و دسته بندی مختلف جمع آوری شده است. با این حجم وسیع از داده های با کیفیت، تشخیص ساختارهایی مانند انسان، اتومبیل و صدها شی دیگر فراهم شده است و پترن های مدل سازی و تشخیص دقیقی جهت استفاده در سیستم های نظارت تصویری فراهم آمده است.

سخت افزارهای دارای توانمندی محاسباتی بالا امکان افزایش قدرت محاسباتی را فراهم آورده اند. فراگیری عمیق احتیاج به حجم زیادی از داده ها دارد و این امر حجم زیادی از محاسبات را مطالبه می نماید. در گذشته سخت افزارها توانمندی انجام محاسبات پیچیده لایه های مختلف Deep Learning را نداشتند. در سال 2011 شرکت گوگل در پروژه DeepMind خود از 1.000 سخت افزار دارای 16.000 سی پی یو برای شبیه سازی ساختار نرونی دارای 1 میلیارد نرون استفاده نمود. امروزه تعداد کمی GPU نیاز است تا بتوان همان ساختار طراحی شده را با قدرت پاسخگویی بالاتر ایجاد نمود. رشد سریع و توسعه GPUها، ابر کامپیوترها، محاسبات ابری و سایر سخت افزارهای دارای توانمندی بالا امکان استفاده از فراگیری عمیق را ایجاد نموده است.

در نهایت بایستی به نقش معماری شبکه ها اشاره نمود که وظیفه خود را در فراگیری عمیق به خوبی انجام داده است. با بهینه سازی الگوریتم های فراگیری عمیق، شناسایی بهتر اهداف ممکن می شود. برای کاربردهای پیچیده تر نظیر تشخیص چهره در سناریوهای مختلف نظیر نورهای متفاوت، زوایای مختلف و ... معماری شبکه کامپیوتری می تواند بر دقت تشخیص تاثیر گذار باشد. به عنوان مثال با تعریف لایه های بیشتر در فراگیری عمیق، بهره وری بهتری فراهم می شود.

در سال 2016 هایک ویژن توانست به عنوان اول در دسته Scene Classification و در رخداد ImageNet Large Scale Visual Recognition Challenge 2016 دست یابد. پس از آن تکنولوژی Optical Character Recognition (OCR) هایک ویژن که مبتنی بر فراگیری عمیق طراحی شده بود توانست جایزه اول ICDAR 2016 Robust Reading Competition را کسب نماید.

Deep Learning Process

کاربردهای محصولات Deep Learning

در دو سال گذشته، فراگیری عمیق توانمندی تشخیص صوت، بینایی کامپیوتری، ترجمه صوتی و بسیاری دیگر از زمینه ها را به صورت قابل ملاحظه ای افزایش داده است. حتی می توان گفت که فراگیری عمیق توانسته است فراتر از توانمندی انسان در زمینه هایی چون تشخیص چهره و دسته بندی تصاویر عمل نماید. از همین رو، فراگیری عمیق در صنعت دوربین مداربسته و نظارت تصویری به شدت مورد توجه می باشد.

در برنامه های کاربردی تشخیص هدف در تصاویر ویدیویی، تعقیب هدف و شناسایی آن فراگیری عمیق توانسته است تاثیر به سزایی داشته باشد. وقتی از این سه قابلیت که توسط فراگیری عمیق بهینه شده اند استفاده می کنیم، مشاهده می شود که فراگیری عمیق در بسیاری از موارد کاربرد سیستم های حفاظتی تاثیر گذار می باشد، مواردی چون: تشخیص چهره، تشخیص وسیله نقلیه، تشخیص وسایل نقلیه غیر موتوری، شناسایی چهره و فرد، شناسایی برند وسیله نقلیه، تشخیص عابر، شناسایی خصوصیات بدنی فرد، تشخیص حالات غیر معمول چهره، شناسایی رفتار جمعیت، تعقیب همزمان چندین هدف و ....

این دسته از قابلیت های هوشمند نیازمند سیستم دوربین مداربسته ای در لایه اول می باشند و در لایه پشتی با استفاده از سرورها و سایر ابزارها اقدام به بهره برداری از قابلیت های فراگیری عمیق می نمایند. در اندازه های کوچک همان دوربین مداربسته می تواند اقدام به پردازش تصویر و تشخیص موارد مورد نیاز نماید، به عنوان مثال دوربین مداربسته اقدام به تشخیص چهره می نماید و هزاران تصویر از چهره های مختلف را فراهم می کند و می تواند چهره های مختلف را بررسی و مقایسه کند تا از هزینه های ارتباط با سرور کاسته شود. در اندازه های بزرگتر دوربین مداربسته در لایه جلویی با سرور لایه پشتی همراه و همگام شده تا بتواند ساختار محاسباتی مورد نظر را فراهم کند. به ویژه اگر که ساختارهای عملکرد ویدیویی و وظایف پردازش تصویری توسط دوربین مداربسته صورت پذیرد می توان عملکرد بهتری را در لایه سرور فراهم آورد.

در سال پیش رو Hikvision محصولاتی را با قابلیت Deep Learning معرفی خواهد نمود، محصولاتی چون سری دوربین های مداربسته DeepInview که می توانند به خوبی و با دقت بالا یک انسان، وسیله نقلیه و ویژگی های اشیا را پردازش و تحلیل نمایند. دوربین هایی که می توانند در ساختارهای داخلی و محیط های خارجی استفاده شوند. سری دیگر محصولات با ارزش هایک ویژن در زمینه فراگیری عمیق سری NVRهای DeepInmind خواهند بود که می توانند با استفاده از قابلیت های الگوریتم های Deep Learning تقلیدی از فکر و حافظه انسانی را فراهم آورند. سری محصولات DeepInmind هایک ویژن می توانند قابلیت های خلاقانه ای از ترکیب NVRها با GPU را فراهم کنند که اجازه بهره برداری از قابلیت های NVRهای سنتی را در کنار ایجاد ساختارهای پیچیده تحلیلی فراهم می آورند.

فراگیری عمیق مرحله بعدی در هوش مصنوعی می باشد. مساله ای فراتر از یادگیری ماشین بوده و آنجایی است که دسته بندی، شناسایی ویژگی ها و تولید پترن ها به الگوریتم ها سپرده می شود. هایک ویژن در حال استفاده از این مفاهیم در الگوریتم های محصولات خود می باشد. بهینه سازی دقت عملکرد، حاصل استفاده از یادگیری و ایجاد تجربه مجازی در یک سیستم محاسباتی لایه ای و بهره برداری از حجم وسیع داده ها می باشد. ابزارهای بهره بردار این الگوریتم می توانند در زمینه شناسایی چهره، شناسایی وسیله نقلیه، شناسایی انسان و سایر موارد گامی بسیار بزرگ به جلو بردارند.