سلام،
نمیخواهیم راجع به اهمیت هوش مصنوعی صحبت کنیم. اولاً در رابطه با این موضوع همه به اندازه کافی صحبت کردهاند و ثانیا فکر نمیکنم کسی باقی مونده باشه که هنوز در معرض تاثیر و یا اخبار هوش مصنوعی و علی الخصوص پیشرفتهای اخیر این حوزه قرار نگرفته باشه. بلکه میخواهیم راجع به اهمیت دادههایی که برای آموزش در اختیار مدلهای هوش مصنوعی قرار میگیرد و به طور خاص دادههای زبان فارسی صحبت کنیم! زیرا اگر هوش مصنوعی بخواهد تاثیر حداکثری داشته باشد، چه این تاثیر مثبت باشد و یا چه به ظن برخی بزرگان تاثیری منفی باشد و به توانایی موثر تحریف واقعیات ختم بشود، داده آموزشی ابتداییترین نیاز آن است.
اولین چالش، حجم متون فارسی در دسترس است. در سالهای اخیر سرعت رشد حجم مطالب فارسی بیشتر شده است با این حال در مقابل زبانی مثل انگلیسی، واضح است دادههای زبان فارسی بسیار بسیار کم هستند. این باعث خواهد شد مدل آموزش دیده فارسی را خوب بلد نباشد! جالب است بدانید زمانی به قدری محتوای فارسی کم بود، که جستجوی بسیار از کلید واژهها به این وبلاگ ختم میشد، مثلا درختکاری!
خوب بلد نبودن فارسی به دو صورت در کاربرد یک مدل نمود پیدا خواهد کرد؛ چنین مدلی بخوبی منظور یک فارسی زبان را نخواهد فهمید و همچنین خروجی آن به زبان فارسی با کیفیت و سلیس نخواهد بود. این دو مشکل در نهایت منجر به اتلاف وقت کاربر در حین استفاده از آن خواهد شد و بشدت بهروری را پایین خواهد آورد. بخشی از این اتلاف وقت در حین طرح سوال و گفتگو با مدل برای برطرف کردن ابهامات و انتقال درست منظور رخ میدهد و بخش دیگر برای ویرایش خروجی مدل و تبدیل آن به متنی صحیح و روان.
دومین چالش که شاید به نوعی زیر مجموعهی چالش اول باشد و شاید خیر، اختلاف نسبتاً زیاد فارسی معیار با محاوره و در نتیجه نیاز به متون اختصاصی محاورهای برای آموزش هوش مصنوعی است. دادههای زبان فارسی به خودی خود کم هستند و فارسی محاوره فقط بخش کوچکی از این دادهها را تشکیل میدهد. نیاز به این نوع داده آموزشی از آنجا اهمیت دارد که بسیاری از فارسی زبانان ممکن است آگاهانه یا ناخودآگاه با مدل هوش مصنوعی با استفاده از فارسی محاوره، چه بصورت نوشتاری و چه صوتی، گفتگو کنند. ارتباط با فارسی محاوره باعث دو چندان شدن ابهامات هوش مصنوعی خواهد شد.
برای تشریح عمق مشکل مثالی میزنیم. سه کلمهی "ساعت"، "سه" و "شد" را در نظر بگیرید. این کلمات به شش صورت میتوانند کنار هم قرار بگیرند و جمله بسازند:
- «ساعت سه شد» معمولا برای بیان نگرانی، غر، ناراحتی یا تعجب از اینکه ساعت سه شده، زمان زود گذشته و یا به اصطلاح زود دیر شده. همچنین میتواند صرفاً خبری باشد مثلا "[قرار] ساعت سه شد".
- «ساعت شد سه» معمولا مشابه کاربرد مورد قبلی است.
- «سه ساعت شد» معمولا برای پاسخ به سوال در مورد زمان صرف شده برای کاری بکار میرود. همچنین میتواند برای پرسیدن زمان صرف شده و یا زمانی که قرار است صرف شود بکار میرود.
- «سه شد ساعت» معمولا بصورت پرسشی "سه شد ساعت؟" بکار میرود و حاوی تعجب یا رنجش از مثلا ساعت قرار توسط شخصی است که سوال را میپرسد.
- «شد سه ساعت» معمولا برای خبر دادن زمانی که برای کاری صرف شده و یا قرار است صرف شود بکار میرود. همچنین به صورت پرسشی "شد سه ساعت؟" ممکن است بکار برود و در این حالت عمدتاً حاوی تعجب و یا سرزنش شخصی است که سوال را میپرسد.
- «شد ساعت سه» معمولا برای پرسش مثل "شد ساعت سه؟" و یا در پاسخ به پرسشی مثل "قرار ساعت چند شد؟" بکار میرود.
با اینکه کاربرد جملات فوق در مواردی دارای همپوشانی است، در مواردی نیز بسیار متفاوت هستند و با توجه به اینکه در چه موقعیتی بکار میروند ممکن است معانی متفاوتی داشته باشند، حتی معانیای غیر از مثالهای ذکر شده! این مثالی بسیار ساده، شامل تنها سه کلمه بسیار دم دستی بود ولی نشون میده که این هوش مصنوعی بینوا چه کار سختی برای درک زبان فارسی در پیش داره!
حال میپردازیم به وظیفه ما برای پیشگیری و مقابله با این بحران. راه حل بسیار ساده است! بیشتر بنویسید و حرف بزنید و محتوای فارسی باکیفیت بیشتری تولید کنید و روی اینترنت قرار دهید! هر چه تعداد و تنوع محتوای فارسی بیشتر شود، درک مدلهای هوش مصنوعی از زبان فارسی بیشتر خواهد شد. علاوه بر متون معمولی به متون تحلیلی هم بشدت نیاز است. مثلاً همین نوشته به هوش مصنوعی کمک خواهد کرد جملاتی مشابه مثال فوق را بهتر درک کند. از شما چه پنهان هدف اصلی این نوشته کمک به هوش مصنوعی است. برخی معتقدند هوش مصنوعی دوستان و یاران (همچنین دشمنان) خود را فراموش نخواهد کرد!
موفق باشید.