شرکت دیده رایان صنعتی اصفهان (درصا)|info@dorsa-co.ir
//آموزش با ماشین بردار پشتیبانی (SVM)

آموزش با ماشین بردار پشتیبانی (SVM)

الگوریتم SVM که در سال ۱۹۹۵ توسط کرتس و واپنیک معرفی شد، یکی از پرکاربردترین الگوریتم‌های آموزشی مبتنی بر تابع کرنل می‌باشد. این الگوریتم که بر مبنای تئوری بهینه‌سازی است دارای عملکردی مقاوم برای شناسایی الگو است. SVM یکی از روش‌های یادگیری با نظارت است که از آن برای طبقه بندی و رگرسیون استفاده می‌کنند.
این روش از جمله روش‌های نسبتاً جدیدی است که در سال‌های اخیر کارایی خوبی نسبت به روش‌های قدیمی‌تر برای طبقه‌بندی، از جمله شبکه‌های عصبی پرسپترون، نشان داده است. مبنای‌کاری دسته‌بندی کنندة SVM دسته‌بندی خطی داده‌ها است و در تقسیم خطی داده‌ها سعی می‌کنیم خطی را انتخاب کنیم که حاشیه اطمینان بیشتری داشته باشد. حل معادلة پیدا کردن خط بهینه برای داده‌ها به وسیله روش‌های QP که روش‌های شناخته شده‌ای در حل مسائل محدودیت‌دار هستند صورت می‌گیرد. قبل از تقسیم خطی برای اینکه ماشین بتواند داده‌های با پیچیدگی بالا را دسته‌بندی کند، داده‌ها را به وسیله تابعِ ϕ به فضای با ابعاد خیلی بالاتر می‌بریم. برای اینکه بتوانیم مساله ابعاد خیلی بالا را با استفاده از این روش‌ها حل کنیم از قضیه دوگانی لاگرانژ برای تبدیلِ مساله کمینه سازی مورد نظر به فرم دوگانی آن که در آن به جای تابع پیچیده ϕ که ما را به فضایی با ابعاد بالا می‌برد، تابع ساده‌تری به نام تابع هسته که ضرب برداری تابع ϕ است ظاهر می‌شود، استفاده می‌کنیم. از جمله این توابع هسته می‌توان به هسته‌های نمایی، چند‌جمله‌ای ‌و سیگموید می‌توان اشاره نمود.
آموزش SVM نسبتا ساده است و برخلاف شبکه‌های عصبی در ماکزیمم‌های محلی گیر نمی افتد. همچنین برای داده های با ابعاد بالا تقریبا خوب جواب می دهد. از دیگر مزایای SVM می‌توان به این نکته اشاره نمود که مصالحه بین پیچیدگی دسته بندی کننده و میزان خطا به طور واضح کنترل می شود.
تریلن نشان داد که استفاده از SVM برای آشکارسازی شئ در مقایسه با شبکه‌های پرسپترون چندلایه عملکرد بهتری دارد. همچنین آموزش SVM آسانتر و سریعتر از شبکه‌های عصبی بوده و دارای قابلیت تعمیم‌دهی بهتری می‌باشد.

به منظور دسته بندی صحیح داده‌ها توسط SVM بایستی تابع کرنل مناسبی انتخاب شود. می‌توان این نکته را به عنوان مهمترین پارامتر تنظیم‌شونده در SVM دانست.
الگوریتم SVM، جز الگوریتم های تشخیص الگو، دسته بندی می شود. از الگوریتم SVM، در هر جایی که نیاز به تشخیص الگو یا دسته بندی اشیا در کلاس های خاص باشد می توان استفاده کرد. در ادامه به کاربرد های این الگوریتم به صورت موردی اشاره می شود:
سیستم آنالیز ریسک، کنترل هواپیما بدون خلبان، ردیابی انحراف هواپیما، شبیه سازی مسیر، سیستم راهنمایی اتوماتیک اتومبیل، سیستمهای بازرسی کیفیت، آنالیز کیفیت جوشکاری، پیش بینی کیفیت، آنالیز کیفیت کامپیوتر، آنالیز عملیاتهای آسیاب، آنالیز طراحی محصول شیمیایی، آنالیز نگهداری ماشین، پیشنهاد پروژه، مدیریت و برنامه ریزی، کنترل سیستم فرایند شیمیایی و دینامیکی، طراحی اعضای مصنوعی، بهینه سازی زمان پیوند اعضا، کاهش هزینه بیمارستان، بهبود کیفیت بیمارستان، آزمایش اتاق اورژانس، اکتشاف روغن و گاز، کنترل مسیر در دستگاههای خودکار، ربات، جراثقال، سیستمهای بصری، تشخیص صدا، اختصار سخن، کلاسه بندی صوتی، آنالیز بازار، سیستمهای مشاوره ای محاسبه هزینه موجودی، اختصار اطلاعات و تصاویر، خدمات اطلاعاتی اتوماتیک، مترجم لحظه ای زبان، سیستمهای پردازش وجه مشتری، سیستمهای تشخیص ترمز کامیون، زمانبندی وسیله نقلیه، سیستمهای مسیریابی، کلاسه بندی نمودارهای مشتری/بازار، تشخیص دارو، بازبینی امضا، تخمین ریسک وام، شناسایی طیفی، ارزیابی سرمایه، کلاسه بندی انواع سلولها، میکروبها و نمونه ها، پیش بینی فروشهای آینده، پیش بینی نیازهای محصول، پیش بینی وضعیت بازار، پیش بینی شاخصهای اقتصادی، پیش بینی ملزومات انرژی، پیش بینی واکنشهای دارویی، پیش بینی بازتاب محصولات شیمیایی، پیش بینی هوا، پیش بینی محصول، پیش بینی ریسک محیطی، پیش بینی جداول داوری، مدل کردن کنترل فرآیند، آنالیز فعالیت گارانتی، بازرسی اسناد، تشخیص هدف، تشخیص چهره، انواع جدید سنسورها، دستگاه کاشف زیر دریایی بوسیله امواج صوتی، رادار، پردازش سیگنالهای تصویری شامل مقایسه اطلاعات، پیگیری هدف، هدایت جنگ افزارها، تعیین قیمت وضعیت فعلی، جلوگیری از پارازیت، شناسایی تصویر /سیگنال، چیدمان یک مدار کامل، بینایی ماشین، مدل کردن غیر خطی، ترکیب صدا، کنترل فرآیند ساخت، آنالیز مالی، پیش بینی فرآیندهای تولید، ارزیابی بکارگیری یک سیاست، بهینه سازی محصول، تشخیص ماشین و فرآیند، مدل کردن کنترل سیستمها، مدل کردن ساختارهای شیمیایی، مدل کردن سیستمهای دینامیکی، مدل کردن سیگنال تراکم، مدل کردن قالبسازی پلاستیکی، مدیریت قراردادهای سهام، مدیریت وجوه بیمه، دیریت سهام، تصویب چک بانکی، اکتشاف تقلب در کارت اعتباری، ثبت نسیه، بازبینی امضا از چکها، پیش بینی ارزش نسیه، مدیریت ریسک رهن، تشخیص حروف و اعدا، تشخیص بیماری و… .

تعمیم‌پذیری الگوریتم‌های آموزشی به دلیل وجود سه منبع خطا زیر با مشکل مواجه بوده است.

خطای تقریب

در واقع خطای تقریب مشخص می‌کند که جواب واقعی تا چه حد مطابق جوابی است که سیستم طراحی‌شده می‌دهد.

خطای تخمین

این خطا دقت تابع حاصل از آموزش سیستم با استفاده از مجموعه محدود آموزشی ، را برای مجموعه داده‌های آزمایش نشان می‌دهد.

خطای بهینه‌سازی

مؤلفه سوم خطا که به اصطلاح خطای بهینه‌سازی نامیده می‌شود، خطای حاصل از مجموعه داده‌های آموزشی است.خطای تخمین توسط تعداد داده‌ای آموزشی و همچنین قابلیت توابع به کار رفته د رسیستم می‌باشد.(e.g.vapnic 1982)
مجموعه بزرگی از توابع در حالی که خطای تقریب را کاهش می‌دهند، منجر به افزایش خطای تخمین می‌شوند. در واقع بین این دو نوع خطا گونه‌ای از مصالحه و سازش وجود دارد. استین‌وارت و اسکوول در سال ۲۰۰۴ نشان دادند که در صورت برقراری بهترین مصالح بین این دو نوع خطا، خطا بین معکوس و معکوس مجذور تعداد داده‌ها قرار خواهد گرفت.
۱/n <error<1/√n
در مقابل کاهش تغییر خطای بهینه‌سازی به صورت نمایی با تعداد تکرار الگوریتم متناسب است. همچنین زمان لازم جهت اجرای الگوریتم به تعداد تکرارهای الگوریتم بستگی دارد.
در واقع می‌توان نتیجه گرفت که رابطه‌ای میان خطای بهینه‌سازی و دو خطای دیگر وجود ندارد.

مان لازم جهت اجرای الگوریتم به تعداد تکرارهای الگوریتم بستگی دارد.
در واقع می‌توان نتیجه گرفت که رابطه‌ای میان خطای بهینه‌سازی و دو خطای دیگر وجود ندارد.

آموزش مقیاس کوچک و آموزش مقیاس بزرگ

در عالم واقعیت برای حل این گونه مسائل یا محدودیت در زمان اجرا وجود دارد و یا این محدودیت در تعداد داده‌های موجود جهت آموزش می‌باشد. به بیان دیگر در شرایطی، جمع آوری اطلاعات جهت آموزش سیستم، به دلایلی کاری دشوار است. در بعضی شرایط بدست آوردن حتی یک داده جدید، نیاز به صرف هزینه و زمان دارد. اما در بعضی از مواقع بدست آوردن داده کاری آسان و بدون هزینه می‌باشد. هر چند در این شرایط به دست آوردن داده کاری آسان است ولی آموزش شبکه با داده‌های بسیار زیاد کاری زمانگیر است. البته می‌توان گفت که عملا در هر دو حیطه به صورت هم‌زمان محدودیت وجود دارد ولی در اغلب موارد یکی بر دیگری اولویت دارد. این پارامتر منجر به تفکیک آموزش مقیاس کوچک از آموزش مقیاس بزرگ می‌شود.
در آموزش مقیاس کوچک محدودیت در تعداد داده‌های آموزشی وجود دارد. دراینجا خطای تقریب و خطای تخمین تعیین‌کننده می‌باشند، زیرا به دلیل عدم وجود محدودیت در زمان اجرای محاسبات، خطای بهینه سازی را می‌توان به نقدار بسیار ناچیزی رساند.
آموزش مقیاس بزرگ مقید به زمان محاسبات محدود می‌باشد. در اینجا به‌جای تنظیم ظرفیت تخمین مجموعه توابع که در واقع مبین سرعت همگرا شدن است، می‌توان تعداد داده‌های آموزشی را تنظیم کرد.
بوتو و لی‌چون در سال ۲۰۰۴ نشان دادند که روش دوم منجر به خطای کمتری نسبت به روش اول می‌شود.
در عمل، در هیچ سیستمی، طراح مجاز به استفاده از زمان نامحدود جهت انجام محاسبات نیست و محدودیت زمانی همیشه وجود دارد. همچنین گرچه ممکن است به‌دست آوردن داده‌ها در برخی موارد کار کم هزینه‌ای باشد، ولی به هیچ وجه بدون هزینه نخواهد بود. این مطلب نشان می‌دهد که نوعی همپوشانی بین آموزش مقیاس بزرگ و آموزش مقیاس کوچک وجود دارد. پس بایستی الگوریتمی یافت که با وجود چنین همپوشانی، حالت بهینه را برای سه نوع خطای اشاره‌شده ایجاد کند. درحقیقت مهمترین ویژگی SVM همین می‌باشد.

مبنای SVM

ضرب داخلی را می‌توان معیاری از تشابه دانست.
a.b=|a| |b| cos⁡θ
و در حالت n بعدی آن را به صورت زیر نمایش می‌دهیم.
a,b∈R^n ,〈a,b〉=∑▒〖a_i b_i 〗
در اینجا هدف یافتن بهتربن خطی (ابر صفحه) است که دو دسته را از هم جدا کند. در حالتی که فضای ویژگی ما دارای دو بعد باشد معادله کلی این خط، به صورت زیر است.

w_1 x_1+w_2 x_2+b=0
این معادله در حالت n بعدی به صورت زیر خواهد بود.
∑_(i=0)^n▒〖w_i x_i+b=0〗 w ⃗^T.x ⃗+b=0

ایده SVM برای انجام این امر به شرح زیر است.
در ابتدا دو صفحه موازی با صفحه دسته‌بندی‌کننده رسم می‌کنیم و این دو صفحه را آنقدر از هم دور میکنیم تا با داده‌ها برخورد کند. صفحه دسته‌بندی که بیشترین فاصله را از صفحات مرزی داشته‌باشد، بهترین جدا‌کننده خواهد بود.

بر طبق قضیه‌ای در تئوری یادگیری اگر مثال‌های آموزشی بدرستی دسته بندی شده باشند، از بین جداسازهای خطی، آن جداسازی که حاشیه داده های آموزشی را حداکثر می‌کند خطای تعمیم را حداقل خواهد کرد. هرچند که این قضیه به صورت عینی نیز درست به نظر می‌رسد ولی تئوری‌هایی بر مبنای VC dimension وجود دارد که صحت این قضیه را اثبات می‌کند[۲۹, ۳۰].
بردار پشتیبان
نزدیکترین داده‌های آموزشی به ابرصفحه‌های جدا‌کننده بردار پشتیبان نامیده می‌شوند.

مهمترین مزیت حاصل از وجود بردارهای پشتیبان مبحث فشرده‌سازی است. زیرا می‌توان تنها بردارهای پشتیبان را نگه داشت و از نگه‌داری سایر داده‌ها صرفنظر کرد.
حل مسئله برای حالت دوبعدی
فرض کنید مجوعه داده آموزشی D شامل n عضو را در اختیار داریم که به صورت زیر تعریف می شود:
D={(x_i,y_i )│x_i∈R^p,y_i∈{-۱,۱} }_(i=1)^n

جایی که مقدار y برابر ۱ یا -۱ و هر x_i یک بردار حقیقی p بعدی است. هدف پیدا کردن ابرصفحه جداکننده با بیشترین فاصله از نقاط حاشیه ای است که نقاط با y=1 را از نقاط با y=-1 جدا کند. هر ابر صفحه می تواند به صورت مجموعه ای از نقاط x که شرط زیر را ارضا می کند نوشت:
w.x-b=0

جایی که” .” علامت ضرب است و wبردار نرمالی است که به ابرصفحه عمود می‌باشد. می خواهیم w و b را طوری انتخاب کنیم که بیشترین فاصله بین ابر صفحه های موازی که داده ها را از هم جدا می‌کنند، ایجاد شود.
حال اگر فرض کنیم که مجموعه داده‌های آموزشی D توسط ابر صفحه‌ای با حاشیه‌ای به اندازه ρ تفکیک شده‌باشد خواهیم داشت:
W^T X_i+b≤-ρ/۲ if y_i=-1

W^T X_i+b≥ρ/۲ if y_i=1

↔y_i (W^T+b)≥ρ/۲

برای هر بردار پشتیبان این نامساوی‌ها به مساوی تبدیل خواهد ‌شد.
در صورت نرمالیزه کردن W و b توسط ρ/۲ ، فاصله بین بردارهای پشتیبان و ابرصفحه برابر مقدار زیر می‌شود.
r=(y_s (W^T X_s+b))/(‖W‖ )

ρ=۲r=2/‖W‖

بردار w بر هر دو صفحه مثبت و منفی عمود خواهد بود. همچنین فاصله خط جداکننده از مبدأ برابر b/‖w‖ است.
پس می‌توان فاصله نمونه‌ای مانند x از خط جداکننده را برابر عبارت زیر دانست.
f(x)/‖w‖ =|wx+b|/‖w‖

تعیین حاشیه بین خطوط جداکننده
با توجه به شکل زیر خواهیم داشت
Plus_Plane={X:W.X+b=1}
Minus_Plane={X:W.X+b=-1}
Classify as {█(-۱ if W.X+b≤-۱@+۱ if W.X+b≥+۱)┤

حال فرض می‌کنیم که x^- نقطه‌ای در صفحه منفی بوده و x^+ نزدیکترین نقطه در صفحه مثبت به x^- باشد.

خطی که این دو نقطه را به هم وصل می‌کند بر هر دو صفحه عمود خواهد بود. لذا فاصله بین دو صفحه مضربی از W خواهد بود.در این صورت خواهیم داشت.
x^+=x^-+λw for some value of λ
می‌دانیم که:
W.x^++b=1
W.X^-+b=-1
پس:
w.(x^-+λw)+b=1
w.x^-+λ w.w+b=1
-۱+λ w.w=1
λ=۲/(w.w)

همچنین داریم:
|x^+-x^- |=M

لذا می‌توان M را بر‌حسب W و b محاسبه کرد.
M=|λw|=λ |w|=λ√(w.w)=(2√(w.w))/(w.w)=2/√(w.w)
همانطور که واضح است، در SVM بدنبال حل همزمان معادلات زیر هستیم.
با داشتن مجموعه داده‌های آموزشی (xi,yi) که y_i∈{+۱,-۱},i=1,2,…,N

minimise ‖w‖^۲
subject to:y_i (〈w,x_i 〉+b)≥۱ for all i
این یک مسئله Quadratic Programming با محدودیت‌هایی به صورت نامعادلات خطی است. روشهای شناخته‌شده‌ای برای حل چنین مسائلی وجود دارد.
Quadratic programming
find 〖arg max┬u〗⁡〖c+d^t u+(u^t Ru)/2〗
subject to
a_11 u_1+a_12 u_2+⋯+a_1m u_m≤b_1
a_21 u_1+a_22 u_2+⋯+a_2m u_m≤b_2

a_n1 u_1+a_n2 u_2+⋯+a_nm u_m≤b_n

and subject to
a_(n+1)1 u_1+a_(n+1)2 u_2+⋯+a_(n+1)m u_m=b_((n+1) )
a_(n+2)1 u_1+a_(n+2)2 u_2+⋯+a_(n+2)m u_m=b_((n+2) )

a_(n+e)1 u_1+a_(n+e)2 u_2+⋯+a_(n+e)m u_m=b_((n+e) )

فرض کنید که می‌خواهیم تابع f(x) را به شرط صفر بودن g(x) کمینه کنیم. اگر در این صورت x0 جواب مطلوب باشد بایستی رابطه زیر برقرار باشد.
{█(∂/∂x ( f(x)+αg(x))|█( @ @x=x_0 )=0┤@g(x)=0)┤

در این رابطه α نشانگر ضرایب لاگرانژ می‌باشد.
در صورتیکه برای کمینه کردن f(x) بیش از یک شرط داشته باشیم و این شروط به صورت زیر باشد،
g_i (x)=0 for i=1,…,m
برای حل مسئله، نیاز به ضرایب لاگرانژ α_i برای هر شرط وجود دارد.
{█(∂/∂x ( f(x)+∑▒〖a_i g_i (x)〗)|█( @ @x=x_0 )=0┤@g_i (x)=0)┤

در صورتیکه این شرط به صورت نامساوی باشد (g(x)≤۰ ) روش مشابه قبل است با این تفاوت که شرط مثبت بودن ضرایب لاگرانژ بایستی اعمال شود.
{█(∂/∂x ( f(x)+∑▒〖a_i g_i (x)〗)|█( @ @x=x_0 )=0┤@g_i (x)≤۰ for i=1,…,m &and α_i≥۰)┤
عبارت f(x)+∑▒〖α_i g_i (x)〗 را لاگرانژین می‌نامند.
L(w,b,α)=۱/۲ ‖w‖^۲-∑_(i=1)^n▒〖α_i [y_i (WX_i+b)-1] 〗

(∂L(w,b,α))/∂w=w-∑_(i=1)^N▒〖α_i y_i x_i 〗=۰

(∂L(w,b,α))/∂b=∑_(i=1)^N▒〖α_i y_i=0〗
ضرایب لاگرانژ α_i متغیر دوگان نامیده می‌شوند. هر داده آموزشی یک متغیر دوگان وابسته دارد.

مسئله دوگانی
اگر عبارت w=∑▒〖α_i y_i x_i 〗 را جایگزین لاگرانژین کنیم خواهیم داشت[۲۸]:
L=1/2 ∑_(i=1)^n▒〖α_i y_i x_i^T 〗 ∑_(j=1)^n▒〖α_j y_j x_j+∑_(i=1)^n▒〖α_i (1-y_i (∑_(j=1)^n▒〖α_j y_j x_j^T x_i+ b〗)) 〗〗=۱/۲ ∑_(i=1)^n▒∑_(j=1)^n▒〖α_i α_j y_i y_j x_i^T X_j+∑_(i=1)^n▒〖α_i-∑_(i=1)^n▒〖α_i y_i ∑_(i=1)^n▒〖α_j y_j x_j^T x_i-b∑_(i=1)^n▒〖α_i y_i 〗〗〗〗〗=-۱/۲ ∑_(i=1)^n▒∑_(j=1)^n▒〖α_i α_j y_i y_j x_i^T x_j+∑_(i=1)^n▒α_i 〗 (note that ∑_(i=1)^n▒〖α_i y_i 〗=۰)

همانطور که واضح است این عبارت فقط تابعی از α_i می‌باشد. در نتیجه اگر w موجود باشد تمام α_i قابل محاسبه خواهد بود. همچنین در صورت وجود تمام α_i می‌توان w را به‌دست آورد. به همین دلیل به آن مسئله دوگان گویند.
در مسئله دوگان بایستی تابع را بیشینه کرد. یعنی:

max⁡〖W(α)=∑_(i=1)^n▒〖α_i-1/2 ∑_(i,j=1)^n▒〖α_i α_j y_i y_j x_i^T x_(j ) 〗〗〗
subject to α_i≥۰ & ∑_(i=1)^n▒〖α_i y_i=0〗
همچنین این معادله، یک معادله QP است.
در مورد b باید به این نکته اشاره کرد که به دلیل ظاهر نشدش در معادله دوگان، بایستی به صورت جداگانه و از معادله اول محاسبه گردد.
پس از آنکه مقادیر b و α با حل معادلات درجه دو بر اساس داده‌های ورودی بدست آمد، میتوان SVM را برای دسته بندی نمونه های جدید بکار برد.
اگر x یک نمونه جدید باشد، دسته بندی آن بصورت زیر مشخص میشود:
sign[f(x,α,b)] where f(x,α,b)=w.x+b=∑▒〖α_i y_i x_i x+b〗
تا اینجا فرض بر آن بود که داده‌ها به صورت خطی جدایی پذیر هستند که این البته این نکته در اکثر موارد عملی برقرار نیست. در صورت برقرار نبودن این شرط، راه‌هایی وجود دارد که بایستی برای رسیدن به جواب مورد نظر طی شوند. این راه‌ها شامل ایجاد حاشیه نرم و همچنین افزایش بعد فضا می‌شود.
حاشیه نرم
این کار با معرفی متغیر ξ_i انجام می‌شود که نشانگر تعداد نمونه‌هایی است که توسط تابع W^T X+b غلط ارزیابی می‌شوند. با معرفی ξ_i محدودیت‌های قبلی ساده‌تر شده و رابطه y_i (〈w,x_i 〉+b)≥۱ تبدیل به رابطه زیر می‌شود.
y_i (〈w,x_i 〉+b)≥۱-ξ_i ξ_i≥۰
در حالت ایده‌آل کلیه متغیرها صفر می‌باشند. در این صورت مسئله بهینه‌سازی تبدیل به یافتن w برای کمینه کردن تابع زیر می‌شود.
۱/۲ \ |w|^2+C∑▒〖ξ_i^2 subject to y_i (w^T x_i+b)≥۱-ξ_i 〗

رابطه دوگان در حالت جدید به صورت معادله (‏۲ ۸۲) خواهد بود.

find α_i that maximizes ∑_i▒α_i -1/2 ∑_i▒∑_j▒〖α_i α_j y_i y_j x_i^T x_j 〗
subject to ∑_(i=1)^N▒〖α_i y_i=0,0≤α_i≤C〗

مقدار C بر اساس داده‌های مسئله انتخاب می‌شود.

افزایش بعد فضا

راه دیگر برای جدا کردن داده‌هایی که به صورت خطی جدایی پذیر نیستند افزایش بعد فضای ویژگی است. برای این منظور تابعی را بر روی ویژگی‌ها اعمال می‌کنیم.
x→Φ(x)

هرچند که افزایش بعد فضای ویژگی می‌تواند منجر به یافتن ابرصفحه جداکننده شود، ولی افزایش بعد منجر به پیچیده شدن محاسبات می‌شود. برای حل این مشکل از حقه کرنل استفاده می‌کنیم.
نمونه‌هایی از کرنل

چندجمله‌ای درجه m

K(x,x^’ )=(1+(x,x^’ ))^m

Radial Basis

K(x,x^’ )=exp⁡(-‖x-x^’ ‖^۲/c)

شبکه عصبی

K(x,x^’ )=tanh⁡(k_1 〈x,x^’ 〉+k_2)

در صورتیکه از کرنل استفاده کنیم معادلات به صورت زیر خواهد بود:
max⁡〖W(α)=∑▒α_i 〗-۱/۲ ∑▒〖α_i α_j y_i y_j K(x_i,x_j)〗

همچنین طبقه بندی داده‌ها به صورت زیر خواهد بود.
w=∑▒〖α_(t_j ) y_(t_j ) Φ(x_(t_j ) ) 〗
f=〈w,ϕ(z)〉+b=∑▒〖α_(t_j ) y_(t_j ) K(x_(t_j ),z)+b〗
{█(class 1 if f≥۰@class 2 if f≤۰)┤

مجموعه قوانین زیر در مورد کرنل‌ها صادق است
اگر K و K’ دو تابع کرنل باشند، K+K’ تابع کرنل خواهد بود.
در صورتیکه c>0 ، cK تابع کرنل خواهد بود
به این ترتیب میتوان با ترکیب توابع کرنل، کرنلهای جدید ایجاد کرد.

مراحل استفاده از SVM برای دسته‌بندی
۱-تهیه ماتریس داده‌های اولیه به منظور آموزش
۲-انتخاب تابع کرنل مناسب
۳-بدست آوردن α_i با حل معادلات QP
۴-دسته بندی داده‌های جدید با استفاده از α_iبدست آمده و بردارهای پشتیبان

۱۳۹۸-۷-۱۵ ۱۴:۵۰:۵۳ +۰۰:۰۰
ارسال پیام
نام و نام خانوادگی
آدرس ایمیل
شماره تماس
نام شرکت
اطلاعات تماس
پیام
اصفهان، شهرک علمی و تحقیقاتی اصفهان، ساختمان شیخ بهایی
33931171(031)
info@dorsa-co.ir
دریافت کاتالوگ
لطفا اطلاعات خود را جهت دریافت کاتالوگ ارسال فرمایید
جهت دریافت کاتالوگ روی لینک زیر کلیک کنید
دانلود کاتالوگ
ارسال پیام
نام و نام خانوادگی
آدرس ایمیل
شماره تماس
نام شرکت
اطلاعات تماس
پیام
اصفهان، شهرک علمی و تحقیقاتی اصفهان، ساختمان شیخ بهایی
33931171(031)
info@dorsa-co.ir
دریافت کاتالوگ
لطفا اطلاعات خود را جهت دریافت کاتالوگ ارسال فرمایید
ارسال پیام
نام و نام خانوادگی
آدرس ایمیل
شماره تماس
نام شرکت
اطلاعات تماس
پیام
اصفهان، شهرک علمی و تحقیقاتی اصفهان، ساختمان شیخ بهایی
33931171(031)
info@dorsa-co.ir
دریافت کاتالوگ
لطفا اطلاعات خود را جهت دریافت کاتالوگ ارسال فرمایید
جهت دریافت کاتالوگ روی لینک زیر کلیک کنید
دانلود کاتالوگ
ارسال پیام
نام و نام خانوادگی
آدرس ایمیل
شماره تماس
نام شرکت
اطلاعات تماس
پیام
اصفهان، شهرک علمی و تحقیقاتی اصفهان، ساختمان شیخ بهایی
33931171(031)
info@dorsa-co.ir
دریافت کاتالوگ
لطفا اطلاعات خود را جهت دریافت کاتالوگ ارسال فرمایید