ベンチャー体験工房4
機械学習とディープラーニングによる自然言語処理システム
テキストマイニング、TFIDF、NLTK、機械学習、ディープラーニングの各手法、Word Embeddingの手法などを学ぶ。その後、この記述を利用して、文書分類(ウェブ文書、Twitterなどソーシャルメディアのデータ)システムの構築と性能改良のプロジェクトを実施する。シラバス詳細

2021年5月

5月10日
授業内容:TFIDFを用いて文章分類に必要な特徴量を獲得する。Cosine類似度により文章同士の類似度を計算する。Web上のテキストを収集し、TFIDFを用いて類似度計算をする。

/files/FacotryReport-2021-May%20%281%29.jpg

5月17日
授業内容:体験工房では普段の授業では体験できないような内容なので他の授業に比べて面白いです。まだ授業は機械学習やディープラーニングの触り程度ですが、これから学ぶことは楽しみです。

/files/FacotryReport-2021-May%20%282%29.jpg

5月24日
授業内容:実際にwebスクレイピングして、それらのテキストを動詞・形容詞・名詞に分け、それぞれの文のコサインシミラリティを求めたりしました。それによって、それらの文のベクトル方向の類似性が知れたりして、とても面白いです。

/files/FacotryReport-2021-May%20%283%29.jpg

2021年6月

6月14日
活動:今まで学んだことを使いつつ、自分で考えながらプログラムの実装を行なっています。実装を通して、Web スクレイピング、テキスト処理、機械学習についての理解を深めることができます。

kobo4_6_1.png

6月21日
感想:私は、ディープラーニングに興味があり、今回の授業に参加しました。私は今後研究として、ディープラーニングを使っていきたいと考えているので、それに向けての基礎的な理論及び実装方法を理解することができました。

kobo4_6_2.png.jpg

6月28日
感想:私は自然言語処理や機械学習に興味を持っていたので、この授業に参加しました。授業内では白先生による講義を聴くだけではなく、実際に手を動かし演習するので、学んだことが身につきやすいと感じました。また、プログラミング言語を Java または Python から選べるので、自分のより慣れた方を使って、演習をスム ーズに進めることが出来ました。

kobo4_6_3.png.jpg

2021年10月

10月4日
授業内容:Course introduction : Introduction to data mining and text mining.

/assets_c/2021/12/kobo4_Oct-26221.html

2021年11月

11月1日
授業内容:Fundamentals of text mining 1 and introduction to the Term frequency-inverse document frequency (TF-IDF). This meant to provide the student the ability to understand the basics of documents representation with vectors.

/assets_c/2021/12/kobo4_Nov_1-26224.html

11月8日
授業内容:Fundamentals of text mining 2 and introduction to cosine similarity. Class activity on contents of TFIDF. This aims to introduce a use of document vectorization step.

/assets_c/2021/12/kobo4_Nov_2-26225.html

11月15日
授業内容:Class activity: Calculation of TFIDF and cosine similarity. This exercise involves text retrieval, mining, and processing before applying any calculation algorithms.

/assets_c/2021/12/kobo4_Nov_3-26226.html

11月22日
授業内容:Tagging of natural language sentences using natural language toolkit NLTK. This library has comprehensive tools for text mining and provides high end skills to be used in the future.

/assets_c/2021/12/kobo4_Nov_4-26227.html

11月25日
授業内容:Stanford natural language library POS tagging in Java.This exercise provides experience on natural language processing using libraries in Java

/assets_c/2021/12/kobo4_Nov_5-26228.html

11月29日
授業内容:SVM example from Sklearn library Document classification using SVM and SVM light. This neural network model is a good introduction for students who want to apply machine learning on an NLP task such as classification.

/assets_c/2021/12/kobo4_Nov_6-26229.html

2021年12月

12月6日
授業内容:Evaluation and classification: This session aims to give to the student an intuitive understanding of how machine learning models performance is evaluated through a basic example of calculating Precision and Recall metrics

kobo4_12_1.jpg

12月13日
授業内容:Start of the First Term project

kobo4_12_2.png.jpg

12月20日
授業内容:Continue with the term project II: TFIDF calculation with filtering by Stanford NLP library in Java

kobo4_12_3.jpg

2022年1月

1月4日
授業内容:Third Term project:Data crowling and processing,Word embedding using TFIDF

kobo4_1_4.jpg

1月17日
授業内容:Fourth Term Project:Document classification using SVM algorithm

kobo4_1_17.png

1月24日
授業内容:5th Term project:Data augmention to improve the classification model accuracy

kobo4_1_24.png

1月31日
授業内容:Final Evaluation:Filtering entities like nouns, adjectives and apply TFIDF

kobo4_1_31.png