對於計算機相關專業我們在迷茫什麼

2020-05-122020-05-12 admin

計算機相關專業初識–對於計算機相關專業我們在迷茫什麼

前言

由於種種原因，迫使我寫下這篇博客，我相信，初入計算機相關專業的萌新肯定很迷茫，我該學什麼，我該如何去學，我該如何學好等等問題纏繞心頭。有很多學弟學妹問我該如何去學計算機相關專業，作為過來人，我決定將我的所知所得寫下來，讓初入計算機相關專業的萌新的學習之路走得更順暢一些。

一、什麼是計算機

對於剛學習計算機相關專業的萌新來說，了解一下計算機的工作原理是十分必要的，但是在這裏我們不過多闡述，讓大家簡單了解一下就好。

讓我們先來看一下對於計算機名詞的解釋：

計算機（computer）俗稱電腦，是現代一種用於高速計算的电子計算機器，可以進行數值計算，又可以進行邏輯計算，還具有存儲記憶功能。是能夠按照程序運行，自動、高速處理海量數據的現代化智能电子設備。

划重點：

我們注意到，計算機就是一種用於進行數值計算的現代化智能电子設備。需要理解的是為什麼是進行數值計算，在這裏，你會疑惑，為什麼是數值計算呢，我輸入的明明不是数字呀？這個問題很容易解釋清楚，因為計算機只是一種电子設備，它不具有人類獨立思考和不斷學習的能力，它的所有功能都是事先設定好的，所以當計算機面對輸入字符的時候，會將它統一按照ASCII（計算機編碼系統）規則轉換為數值“0”和“1”（二進制數值），所以，在計算機里，數據存儲都是用“0”和“1”（即二進制數值）來實現。
還有一點值得注意，按照程序運行，那麼問題來了，程序是什麼？程序就是一組計算機能識別和執行的指令，它以某些程序設計語言編寫，運行於某種目標結構體繫上。舉個例子，程序就像是用英語（程序設計語言，例如c，c++）寫的文章，要讓一個懂的英語的人（編譯器，如C的編譯器gcc，這裏要注意編譯器和IDE的區別，通常IDE包含編譯器）同時也會閱讀這篇文章的人（結構體系）來閱讀、理解、標記這篇文章。

有學妹問過我，為什麼簡單的代碼，能實現豐富的效果。其實這取決於編譯器的強大能力。下面來簡單介紹一下，編輯器，編譯器，IDE（集成開發環境）的區別。

編輯器：編輯器就是用來編輯的軟件，比如windows自帶的記事本就是一個編輯器，記事本沒有語法高亮，不显示行號，當一段可執行代碼寫完后無法通過內置環境執行，必須手動輸入命令執行編譯等等一些弊端，所以很少有程序員會用記事本去寫代碼，寫代碼比較好用的編輯器軟件有vscode，vim，sublime，notepad++，emacs，atom等等，雖然編輯器原始功能不足，但是開發人員為了使編輯器更加友好，所以有很多內置插件可供使用，完全可以手動打造一個IDE。
編譯器：簡單來說，編譯器就是將“一種語言（一般為高級語言，如c,c++,java,python等，計算機不可直接識別和執行）”翻譯為“另一種語言（一般為低級語言，低級語言即機器語言，機器語言是用二進制代碼錶示的計算機能直接識別和執行的一種機器指令的集合）”的程序。舉個例子，用Dev-C++寫好一段可執行"hello,world!"C語言代碼之後，我們要讓它在屏幕打印出來我們想要它輸出的"hello,world!"，就需要通過gcc編譯器執行編譯后才能显示。其他語言同理。
IDE：集成開發環境，用於程序開發環境的應用程序，一般包含代碼編輯器、編譯器、調試器、圖像用戶界面等工具。集成了代碼編寫、程序分析、程序編譯、程序調試等功能。如 jetbrains 的用於Java開發的 IntelliJ IDEA 、用於JavaScript開發的WebStorm、用於Python開發Pycharm，微軟的 Visual Studio系列，IBM的Eclipse。

二、我們該學什麼

很多初入計算機相關專業的萌新，總是很迷茫，不知道自己該學什麼，通常是他們知道如何去學好學校開設的每一門課程，就是不知道自己該向哪些方向學習，這些方向指的是專業技能和就業方向，諸如web開發、Android/IOS開發、數據分析、人工智能、網絡安全、遊戲開發、軟件測試等等。有這種疑惑很正常，迷茫也是正常的，但我們總要讓自己了解自己所需，然後腳踏實地，一步一步去充實自己的能力。而我想做的也很簡單，就是幫助大家解除心裏的疑惑。那麼，我們開始進入正題。

1. 我們該如何選擇適合自己的方向

對於這個問題，其實是很難回答清楚的，因為每個人的興趣都不相同，所以就很難去站在自己的角度去回答疑問者的問題。但是，原理都是想通的，我相信我的經驗會幫助到你們。

通常，學校每學期都會開設一門或多門語言（程序設計語言，下文同），那麼，喜歡一門語言，首先要愛上它的語言風格，諸如Java的嚴謹，Python的自由，總有一款適合你；其次，在學習語言的過程中，一定要了解它能幹什麼，市場環境如何，工作崗位多少等綜合因素，再決定要不要去深入這門語言，並且主攻自己感興趣的那個方向。
對於學校沒有開設，但是自己又想學習的語言而言，該如何去選擇。首先，學校開設的語言基本是市場比較流行的語言，也符合市場需求，所以，完全可以在學校開設的語言中去選擇自己想要了解並學習的語言。此外，我們可以藉助 TIOBE （ TIOBE 編程社區指數是編程語言流行度的指標，該榜單每月更新一次，指數基於全球技術工程師、課程和第三方供應商的數量。包括流行的搜索引擎，如谷歌、必應、雅虎、維基百科、亞馬遜、YouTube 和百度都用於指數計算。）去了解語言的流行程度，流行程度決定市場需求，以此來參考自己想要了解並學習的語言，在此附上2019年11月語言排名。

2. 主流編程語言主要應用場景

Java
1. 企業級應用開發：大到全國聯網的系統，小到中小企業的應用解決方案，Java都佔有極為重要的地位。
2. web後端開發： JSP+Servlet+JavaBean 是一種比較流行的開發模式。
3. 移動領域：手機遊戲。
4. Android App開發： android 開發只用到了JAVA的語法和JAVA SE的一小部分API。
C

C語言是一門基礎語言，是其他一些語言的基礎，例如MATLAB，Object-C，Lua等.同時也是學習來比較難的語言，達到精通的程度沒有3-10年左右很難，C語言沒有比較完善的開發框架，是面向過程的一門語言，講究算法跟邏輯。
1. 科研
2. 服務器：網絡核心設備，如路由器、交換機、防火牆。
3. 操作系統：類unix系統（Linux/freebsd）
4. 嵌入式開發：在一個特定的硬件環境上開發與構建特定的可編程軟件系統的綜合技術。
5. 自動化控制
Python
1. 圖形處理
2. 數學處理
3. 文本處理
4. 數據庫編程
5. 網絡編程
6. 多媒體應用
7. pymo引擎：運行於Symbian S60V3,Symbian S60V5,Symbian 3,Android，Windows，Linux，Mac Os，Maemo,MeeGo系統上的AVG遊戲引擎。
8. 黑客編程
9. 網絡安全
C++
1. 遊戲開發
2. 科學計算
3. 網絡軟件
4. 操作系統
5. 設備驅動程序
6. 移動設備
7. 嵌入式開發
8. 科研
9. 編譯器
C#
1. web後端開發
2. 桌面軟件開發
3. 人工智能
4. 遊戲開發
JavaScript
唯一能用於前後端開發的語言web前端開發
1. web前端開發
2. node web後端開發
3. 操作系統
4. 後台
5. 桌面軟件開發
6. 混合App
7. 小程序
PHP
1. web後端開發
2. 桌面軟件開發
3. 命令行腳本
SQL
1. 操作數據庫
Swift
1. 蘋果生態系統應用開發
Ruby
1. web開發
R

數據科學闖天下，左手Python右手R
1. 機器學習
2. 數據分析
3. 科學計算
Go
1. web後端開發
2. 高性能服務器應用

3. 主流編程語言學習路徑（將持續更新，僅供參考）

JavaScript

4. 主流編程語言入門學習書籍推薦

語言	書籍
C	《嗨翻C語言》
C++	《C++權威教程》
Java	《Java輕鬆學》
Python	《Python編程從入門到實戰》
JavaScript	《JavaScript入門經典》
PHP	《PHP編程實戰》
SQL	《SQL基礎教程》
Swift	《Swift編程權威指南》
Ruby	《Ruby從入門到精通》
R	《R語言實戰》
Go	《Go語言聖經》

5. 編程學習網站推薦

網站	網址
菜鳥教程
W3School
實驗樓
猿學
慕課網
SegmentFault
博客園
GitHub
掘金
學習數據科學
易百教程
看雲

三、總結

通篇寫完，感覺自己也重新學到了很多，學習就是一個反覆複習的過程，每次學習都能帶給自己不一樣的收穫。希望以上內容可以給初入計算機相關專業的萌新帶來一些幫助，後面我會不斷更新和優化本文，請大家持續關注。

本站聲明:網站內容來源於博客園,如有侵權,請聯繫我們,我們將及時處理

【其他文章推薦】

※想知道網站建置、網站改版該如何進行嗎?將由專業工程師為您規劃客製化網頁設計及後台網頁設計

※不管是台北網頁設計公司、台中網頁設計公司，全省皆有專員為您服務

※Google地圖已可更新顯示潭子電動車充電站設置地點!!

※帶您來看台北網站建置，台北網頁設計，各種案例分享

【自然語言處理】利用LDA對希拉里郵件進行主題分析

2020-05-122020-05-12 admin

首先是讀取數據集，並將csv中ExtractedBodyText為空的給去除掉

import pandas as pd
import re
import os

dir_path=os.path.dirname(os.path.abspath(__file__))
data_path=dir_path+"/Database/HillaryEmails.csv"
df=pd.read_csv(data_path)
df=df[['Id','ExtractedBodyText']].dropna()

對於這些郵件信息，並不是所有的詞都是有意義的，也就是先要去除掉一些噪聲數據：

def clean_email_text(text):
    text = text.replace('\n'," ") #新行，我們是不需要的
    text = re.sub(r"-", " ", text) #把 "-" 的兩個單詞，分開。（比如：july-edu ==> july edu）
    text = re.sub(r"\d+/\d+/\d+", "", text) #日期，對主體模型沒什麼意義
    text = re.sub(r"[0-2]?[0-9]:[0-6][0-9]", "", text) #時間，沒意義
    text = re.sub(r"[\w]+@[\.\w]+", "", text) #郵件地址，沒意義
    text = re.sub(r"/[a-zA-Z]*[:\//\]*[A-Za-z0-9\-_]+\.+[A-Za-z0-9\.\/%&=\?\-_]+/i", "", text) #網址，沒意義
    pure_text = ''
    # 以防還有其他特殊字符（数字）等等，我們直接把他們loop一遍，過濾掉
    for letter in text:
        # 只留下字母和空格
        if letter.isalpha() or letter==' ':
            pure_text += letter
    # 再把那些去除特殊字符后落單的單詞，直接排除。
    # 我們就只剩下有意義的單詞了。
    text = ' '.join(word for word in pure_text.split() if len(word)>1)
    return text

然後取出ExtractedBodyText的那一列，對每一行email進行噪聲過濾，並返回一個對象：

docs = df['ExtractedBodyText']
docs = docs.apply(lambda s: clean_email_text(s))

然後我們呢把裏面的email提取出來：

doclist=docs.values

接下來，我們使用gensim庫來進行LDA模型的構建，gensim可用指令pip install -U gensim安裝。但是，要注意輸入到模型中的數據的格式。例如：將[[一條郵件字符串]，[另一條郵件字符串], ...]轉換成[[一，條，郵件，在，這裏],[第，二，條，郵件，在，這裏],[今天，天氣，腫么，樣],...]。對於英文的分詞，只需要對空白處分割即可。同時，有些詞語（不同於噪聲）是沒有意義的，我們要過濾掉那些沒有意義的詞語，這裏簡單的寫一個停止詞列表：

stoplist = ['very', 'ourselves', 'am', 'doesn', 'through', 'me', 'against', 'up', 'just', 'her', 'ours',
            'couldn', 'because', 'is', 'isn', 'it', 'only', 'in', 'such', 'too', 'mustn', 'under', 'their',
            'if', 'to', 'my', 'himself', 'after', 'why', 'while', 'can', 'each', 'itself', 'his', 'all', 'once',
            'herself', 'more', 'our', 'they', 'hasn', 'on', 'ma', 'them', 'its', 'where', 'did', 'll', 'you',
            'didn', 'nor', 'as', 'now', 'before', 'those', 'yours', 'from', 'who', 'was', 'm', 'been', 'will',
            'into', 'same', 'how', 'some', 'of', 'out', 'with', 's', 'being', 't', 'mightn', 'she', 'again', 'be',
            'by', 'shan', 'have', 'yourselves', 'needn', 'and', 'are', 'o', 'these', 'further', 'most', 'yourself',
            'having', 'aren', 'here', 'he', 'were', 'but', 'this', 'myself', 'own', 'we', 'so', 'i', 'does', 'both',
            'when', 'between', 'd', 'had', 'the', 'y', 'has', 'down', 'off', 'than', 'haven', 'whom', 'wouldn',
            'should', 've', 'over', 'themselves', 'few', 'then', 'hadn', 'what', 'until', 'won', 'no', 'about',
            'any', 'that', 'for', 'shouldn', 'don', 'do', 'there', 'doing', 'an', 'or', 'ain', 'hers', 'wasn',
            'weren', 'above', 'a', 'at', 'your', 'theirs', 'below', 'other', 'not', 're', 'him', 'during', 'which']

然後我們將輸入轉換成gensim所需的格式，並過濾掉停用詞：

texts = [[word for word in doc.lower().split() if word not in stoplist] for doc in doclist]

再將這所有的單詞放入到一個詞袋中，把每個單詞用一個数字index指代：

from gensim import corpora, models, similarities
import gensim
dictionary = corpora.Dictionary(texts)

再分別統計每一篇email中每個詞語在這個詞袋中出現的次數，並返回一個列表：

corpus = [dictionary.doc2bow(text) for text in texts]

這個列表告訴我們，第14（從0開始是第一）個郵件中，一共6個有意義的單詞（經過我們的文本預處理，並去除了停止詞后）其中，51號單詞出現1次，505號單詞出現1次，以此類推。。。

最後，就可以開始構建我們的模型了：

lda = gensim.models.ldamodel.LdaModel(corpus=corpus, id2word=dictionary, num_topics=20)
print(lda.print_topic(10, topn=5))

可以看到，第11個主題最常用的單詞，接下來，我們看下所有的主題：

for i in lda.print_topics(num_topics=20, num_words=5):
    print(i)

我們再看下第一篇email屬於哪一個主題：

print(lda.get_document_topics(corpus[0]))

屬於第四個主題的概率是0.95

相關代碼和數據：鏈接: https://pan.baidu.com/s/1sl1I5IeQFDHjVwf2a0C89g 提取碼: xqqf

本站聲明:網站內容來源於博客園,如有侵權,請聯繫我們,我們將及時處理

【其他文章推薦】

※網頁設計公司推薦更多不同的設計風格，搶佔消費者視覺第一線

※廣告預算用在刀口上，網站設計公司幫您達到更多曝光效益

※自行創業缺乏曝光? 下一步"網站設計"幫您第一時間規劃公司的門面形象

※南投搬家前需注意的眉眉角角，別等搬了再說!

SQlALchemy session詳解

2020-05-122020-05-12 admin

系列文章：

概念

session用於創建程序和數據庫之間的會話，所有對象的載入和保存都需通過session對象。

通過sessionmaker調用創建一個工廠，並關聯Engine以確保每個session都可以使用該Engine連接資源：

from sqlalchemy.orm import sessionmaker

# 創建session
DbSession = sessionmaker(bind=engine)
session = DbSession()

操作

session的常見操作方法包括：

flush：預提交，提交到數據庫文件，還未寫入數據庫文件中
commit：提交了一個事務，把內存的數據直接寫入數據庫
rollback：回滾
close：關閉

在事務處理時，需注意一下兩點：

在事務處理過程發生異常時，進行rollback操作，否則會在下次操作時報錯：

Can’t reconnect until invalid transaction is rolled back

一般情況下，在一個事務處理完成之後要關閉session，以確保數據操作的準確性。

建議封裝上下文方法：

from contextlib import contextmanager

@contextmanager
def session_maker(session=session):
    try:
        yield session
        session.commit()
    except:
        session.rollback()
        raise
    finally:
        session.close()

調用：

def update_user():
    with session_maker() as db_session:
        db_session.query(Users).filter_by(name='test2').update({'email': 'test2@qq.com'})

線程安全

session不是線程安全的，並且我們一般session對象都是全局的，那麼在多線程情況下，當多個線程共享一個session時，數據處理就會發生錯誤。

為了保證線程安全，需使用scoped_session方法:

db_session = scoped_session(sessionmaker(bind=engine))

內部原理

session對象包含了三個重要的部分：

標識映射（Identity Map）
對象的狀態 / 狀態跟蹤
事務

標識映射

標識映射是與ORM關聯的集合，通過標識映射保證了數據庫操作的準確性。

具體的實現原理是：維護一個Python字典（IdentityMap），關聯這個Session對象到數據庫ID的映射，當應用程序想要獲取一個session對象時，若該對象不存在，標識映射會加載該對象並緩存，若該對象已存在，則直接獲取。這樣的好處是：

已經被請求過的session對象緩存下來，不需要連接加載多次，造成額外的開銷；
避免了數據不一致

狀態跟蹤

一個Session對象從創建到銷毀，依次經歷四種狀態，分別是：

Transient：剛new出來的對象，還不在會話中，也沒有保存到數據庫。
Pending：transient的對象調用add后，就會變成pending狀態，這時會加入sqlalchemy的監管範圍，數據並未更新到數據庫。
Persistent：該狀態表明數據庫里已經記錄了該對象，在兩種情況下對象處於該狀態：一是通過flush()方法刷新pending對象，二是從數據庫query()得到對象。
Detached：在會話中的事務提交之後，所有的對象都將是Detached狀態。

所謂的狀態跟蹤，就是跟蹤以上四個狀態，保證數據的準確性並在合理的時機丟棄對象以保證合理開銷，那麼具體是怎麼實現的呢?

我們可以看到，只有在pending狀態時，對象的內存數據和數據庫中的數據不一致，在Persistent狀態時，內存數據和數據庫數據已經一致，那麼此後任意時刻丟棄該對象數據都是可以的，這時就需要找個合適的時機丟棄對象，過早或過晚都有其缺陷。於是，就讓垃圾回收器來做決定，在內存不夠的時候釋放對象，回收內存。

Session對象採用了弱引用機制，所謂弱引用，就是說，在保存了對象的引用的情況下，對象仍然可能被垃圾回收器回收。在某一時刻通過引用訪問對象時，對象可能存在也可能不存在，如果對象不存在，就重新從數據庫中加載對象。而如果不希望對象被回收，只需要另外保存一個對象的強引用即可。

session對象包括三個屬性：

new：剛加入會話的對象
dirty：剛被修改的對象
deleted：在會話中被刪除的對象

三個屬性共同的特點就是內存的數據和數據庫數據不一致，也就是對象處於pending狀態，這也就表明了session保存了所有對象處於pending狀態的強引用。

以上。

代碼可參照：

本站聲明:網站內容來源於博客園,如有侵權,請聯繫我們,我們將及時處理

【其他文章推薦】

※如何讓商品強力曝光呢? 網頁設計公司幫您建置最吸引人的網站，提高曝光率!!

※網頁設計一頭霧水??該從何著手呢? 找到專業技術的網頁設計公司，幫您輕鬆架站!

※想知道最厲害的台北網頁設計公司推薦、台中網頁設計公司推薦專業設計師”嚨底家”!!

從演奏家的新年大膽願望一窺日本都市蜂害問題

2020-05-082020-05-08 admin

文：宋瑞文

本站聲明:網站內容來源環境資訊中心https://e-info.org.tw/,如有侵權,請聯繫我們,我們將及時處理

【其他文章推薦】

※帶您來了解什麼是 USB CONNECTOR ?

※自行創業缺乏曝光? 下一步"網站設計"幫您第一時間規劃公司的門面形象

※如何讓商品強力曝光呢? 網頁設計公司幫您建置最吸引人的網站，提高曝光率!!

※綠能、環保無空污,成為電動車最新代名詞，目前市場使用率逐漸普及化

※廣告預算用在刀口上，網站設計公司幫您達到更多曝光效益

巴西東南部暴雨成災總統視察下令撥款救援

2020-05-082020-05-08 admin

摘錄自2020年1月31日中央社報導

巴西東南部米納斯吉拉斯、聖埃斯皮里圖和里約熱內盧三州本月遭暴雨侵襲，巴西總統波索納洛今（30日）視察受災最嚴重的城市之一好景市，宣布聯邦政府將撥款巴西幣9億元賑災。

1889年建城的好景市層獲聯合國評為「環境模範市」，同時被譽為「花園城」，1980年代市內綠地範圍和居民人口比例一度高達32平方公尺比1，但現在卻到處都是不透水的柏油路面，暴雨襲擊不僅引發嚴重淹水，道路更慘遭摧毀，出現坑洞、隆起現象。

聖保羅大學（USP）氣象學家安布里茲（Tercio Ambrizzi）指出，今年夏天南大西洋海水變暖，使得南極上來的冷氣團在巴西東南部停留更長時間，加上熱帶低壓帶來強烈雨勢，特別是米納斯吉拉斯、聖埃斯皮里圖和里約熱內盧三州持續多雨，土壤和岩層沒有足夠時間吸收水分，也容易引發土石流。

24日迄今，包括好景市在內，米納斯吉拉斯州已有101個城市處於緊急狀態，另外五個城市宣布進入公共災難狀態，超過5萬人流離失所，55人死亡。

本站聲明:網站內容來源環境資訊中心https://e-info.org.tw/,如有侵權,請聯繫我們,我們將及時處理

【其他文章推薦】

※為什麼 USB CONNECTOR 是電子產業重要的元件?

※網頁設計一頭霧水??該從何著手呢? 找到專業技術的網頁設計公司，幫您輕鬆架站!

※想要讓你的商品成為最夯、最多人討論的話題?網頁設計公司讓你強力曝光

※想知道最厲害的台北網頁設計公司推薦、台中網頁設計公司推薦專業設計師”嚨底家”!!

巧克力與雨林共生亞馬遜部落重返「可可之地」靠它驅逐非法淘金

2020-05-082020-05-08 admin

環境資訊中心綜合外電；姜唯編譯；林大利審校

本站聲明:網站內容來源環境資訊中心https://e-info.org.tw/,如有侵權,請聯繫我們,我們將及時處理

【其他文章推薦】

※USB CONNECTOR掌控什麼技術要點? 帶您認識其相關發展及效能

※評比前十大台北網頁設計、台北網站設計公司知名案例作品心得分享

※智慧手機時代的來臨，RWD網頁設計已成為網頁設計推薦首選

※評比南投搬家公司費用收費行情懶人包大公開

森林大火逼近坎培拉進入緊急狀態

2020-05-082020-05-08 admin

摘錄自2020年1月31日Yahoo新聞報導

澳洲森林大火逼近首都坎培拉，坎培拉今天（31日）宣布進入緊急狀態，這是近20年來的首次。

有40萬人口的坎培拉宣布進入緊急狀態，主要是考量天氣預報近日將有熱浪來襲，預測森林大火可能延燒到坎培拉南部郊區。澳洲首都特區首席部長巴爾（Andrew Barr）警告：「情勢可能演變到無法控制的地步…進入緊急狀態，是我們能對首都特區民眾發布的最強烈警示，民眾必須為自己和家人做好準備。」

南澳州（South Australia）昨天氣溫達攝氏40度以上，氣象單位對州內數處容易發生大火的地區發布危險大火警示，並預測今天稍晚熱浪將襲擊墨爾本與坎培拉，而雪梨部分地區週末氣溫將達攝氏45度高溫。

當局表示，灼熱高溫伴隨乾燥熱風，將為新南威爾斯州（New South Wales）與維多利亞州（Victoria）部分地區創造嚴重森林大火的良好條件，而這兩州目前還有80多處有大火在延燒。

本站聲明:網站內容來源環境資訊中心https://e-info.org.tw/,如有侵權,請聯繫我們,我們將及時處理

【其他文章推薦】

※台北網頁設計公司這麼多，該如何挑選?? 網頁設計報價省錢懶人包"嚨底家"

※網頁設計公司推薦更多不同的設計風格，搶佔消費者視覺第一線

※想知道購買電動車哪裡補助最多?台中電動車補助資訊懶人包彙整

※南投搬家費用,距離,噸數怎麼算?達人教你簡易估價知識!

原來JS是這樣的 – 原型鏈

2020-05-072020-05-07 admin

提到屬性描述符 [[Get]] 和 [[Put]] 以及提到了訪問描述符 [[Prototype]]，看它們的特性就會很容易的讓人想到經典的面向對象風格體系中對類操作要做的事情，但帶一些 introspector 的味道。回想到之前所寫來自用的辣雞應用中所附帶了一個簡易的類似 jQuery 的簡易常用功能實現，就用到了簡單的 [[Prototype]] 特性。但我們前幾篇都沒有詳細的提及 js 的原型鏈相關的內容，本篇就將討論 js 的 [[Prototype]] 屬性和相關的內容。

注：ES6 的 Proxy 和 class 的概念不在本篇討論範圍內。

`[[Prototype]]`

JavaScript 中的特殊對象屬性除了 [[Get]] 和 [[Put]] 外，還有一個很重要的特殊內置屬性就是 [[Prototype]] 了。

[[Prototype]] 是一個幾乎所有對象在創建時都會被賦予一個非空值的屬性，還記得在之前提到 new 操作符的行為嗎？其中的行為之一就是把其 [[Prototype]] 關聯指向到對應的內置對象上。通常 [[Prototype]] 所指向的即為創建此對象時所使用的對象了。

來看下面一個例子

var macat = { a: 1 };

var codingcat = macat; // 和 macat 指向的內容相同
codingcat.b = 2;
console.log(macat.b); // 2

var pineapple = Object.create( macat ); // 新對象，但其 [[Prototype]] 鏈向 macat
pineapple.c = 3; // 新對象的屬性
console.log(macat.c); // undefined
codingcat.d = 4;
console.log(pineapple.d) // 4;

上例中，變量 codingcat 顯然是指向和 macat 相同的內容，實質完全一致，而 pineapple 則是通過創建的變量。顯然 pineapple 和 macat 是不同的兩個對象。不過我們會發現我們依然可以通過 pineapple.d 訪問 macat.d 的值，這就是因為在 Object.create() 中，會把 pineapple 的 [[Prototype]] 指向我們的原型對象 macat 了。

那 [[Prototype]] 引用的作用是什麼呢？看上去這是一個確定這種像 fallback 一樣的取值操作應該 fallback 到誰的屬性標記，而準確的說，這種 pineapple.d 形式的屬性引用會觸發 [[Get]] 操作（上篇的內容），而默認的 [[Get]] 則會在對象本身沒有此屬性時會去查找 [[Prototype]] 引用的變量了。這樣的引用成為了鏈狀，故被稱作原型鏈。

當然，這個行為其實我們已經“用過”很多次了，比如 .toString()、 .valueOf()、hasOwnProperty()，我們 Object.create() 等形式構建的新對象顯然並沒有附帶一份這些函數的副本，而是因為普通的 [[Prototype]] 鏈最終都會指向內置的 Object.prototype，而它提供了這些功能。

屬性設置和屏蔽

不過上例中有個有趣的坑，我們考慮在上例的基礎上做如下操作：

...
pineapple.a++; // 交互式終端會輸出 1
console.log(pineapple.a); // 2
console.log(macat.a); // 1

pineapple.a++ 看上去是進行了變量自增的操作，但這一行后，我們發現 pineapple.a 不再等於 macat.a 了，這是因為實際上 pineapple.a 本來並不存在，但可以通過原型鏈找到 macat.a，而 pineapple.a++ （相當於 pineapple.a = pineapple.a + 1）最終進行的賦值操作創建了 pineapple.a ，故最終這兩個變量的值自然不再相等。

這個例子來看，如果本身即通過對 pineapple 的屬性（a）進行訪問操作，那麼不同情況下訪問得到的結果可能是不同的甚至是出人意料的。無意中創建的屬性“阻止”了原型鏈上查找這個屬性的行為，我們稱之為屬性屏蔽。

屬性屏蔽根據變量本身情況的不同會有很多不同的狀態表現，例如原型鏈上層變量的數據訪問屬性標記為只讀的情況，（如果不是嚴格模式下）嘗試進行的賦值操作會被忽略等。

類（迫真）

我們早已知道 JavaScript 中不存在“類”的概念，而為了能夠“寫着爽”，很多開發者都在想盡辦法在 JavaScript 中模仿其它 OO 語言中“類”的行為。其中很常見的做法類似下面這樣：

function Person(name) {
    console.log("I'm " + name + "!");
    this.name = name;
}

Person.prototype.getName = function() {
    return this.name;
}

var chris = new Person("Chris"); // I'm Chris
var sophie = new Person("Sophie"); // I'm Sophie
chris.getName(); // "Chris"

看上去我們的 Person 像極了一個包含 name 成員變量和 getName() 方法的類，並且在其“構造函數”中會輸出 “I’m xxx”。不過在之前的文章中我們已經講過了，並不存在所謂的構造函數，new 只是把 Person() 函數作為構造對象所需調用的函數進行了一次調用而已。不過你可能還會比較奇怪為什麼 .getName() 是可以使用的，既然我們在原型鏈這一章提起這件事，顯然是因為原型鏈，於是回顧之前第二章我們含糊提到的一句話是（之一是）“對這個新對象執行 [[Prototype]] 鏈接”，實際上，這裏我們被 new 出來的對象的 [[Prototype]] 被關聯到了 Person.prototype 上，於是當我們嘗試進行屬性訪問的時候，自然就可以訪問到 Person.prototype.getName() 上了。

不過這個過程還是可能會引起一些蛋疼的誤會，比如假設我們在上面例子的基礎上：

...
sophie.constructor === Person; // true
sophie.constructor === Person.prototype.constructor; // true
Person.prototype = {};
var koishi = new Person("Koishi");  // I'm Koishi
koishi.constructor === Person; // false
koishi.constructor === Object; // true
sophie.constructor === Person; // true
sophie.constructor === Person.prototype.constructor; // false

由於“構造函數”這種表現形式的理解，我們有時候會認為 變量名.constructor 實際就總是構造調用時指向的函數，甚至 sophie.constructor === Person 返回也是 true ，但實際並不是這樣，這裏返回為真，僅僅是因為 Person.prototype.constructor 默認指向的就是 Person 罷了。於是我們嘗試替換 Person.prototype 之後創建了變量 koishi，再檢查 koishi.constructor === Person 就不再為真了，在原型鏈的查找過程最終找到了 Object.prototype，然後 Object.prototype.constructor 其實指向了 Object。

不過，後面我們接着嘗試檢查了 sophie.constructor 卻發現似乎它並未受到影響，這個就不要往原型鏈方面想了，這裏的原因僅僅是 sophie 的原型鏈指向的是曾經 Person.prototype 所指向的東西上，而我們 Person.prototype = {} 的操作只是讓 Person.prototype 指向了新的東西，舊的東西並沒有改變，所以 sophie 自然看上去“沒有受到影響”了。當然，koishi 這個變量被構造時所被調用的函數仍然是 Person()，這和 koishi.constructor 或者 Person.prototype.constructor 的指向沒有什麼關係。

對象實例關係

當然我們還有一點需要重新強調的是，[[Prototype]] 和 .prototype 不是一回事，[[Prototype]] 是描述對象實例關係的屬性描述符，而 .prototype 只是 Function 對象的一個屬性而已。new 操作符會把新建的對象的 [[Prototype]] 指向原對象的 .prototype 屬性上，僅此而已。

既然 [[Prototype]] 實際描述了對象之間的實例關係，那麼我們自然就可以想到 instanceof 的實際作用了，其所做的事情就是告訴你在 a instanceof Foo 中， a 的整個原型鏈中是否有指向 Foo.prototype 的對象。

絕大多數瀏覽器支持一個 .__proto__ 屬性（實際位於 Object.__proto__）指向了 [[Prototype]] ，這對於我們調試時希望直接訪問內部的 [[Prototype]] 提供了便利，不過它並不是標準，所以除了調試便利之外還是不要使用它比較好。

最後

於是關於原型鏈相關的簡單討論就到此結束了。和上篇一樣，如果你對這些內容仍然感興趣，不妨去讀一讀《You don’t know JS – this & object prototypes》一書。這是一本開源書，你可以在這裡在線閱讀這本書，或者購買這本書的电子版或實體版。這本書的中文譯本涵蓋在《你所不知道的 JavaScript 上卷》中，你也可以考慮看中文版。

由於近期工作過於繁忙的精力佔用緣故，“原來JS是這樣的”系列可能就暫時告一段落了。最後，儘管我會盡可能仔細的檢查文章內容是否有問題，但也不保證這篇文章中一定不會有錯誤，如果您發現文章哪裡有問題，請在下面留言指正，或通過任何你找得到的方式聯繫我指正。感激不盡～

本站聲明:網站內容來源於博客園,如有侵權,請聯繫我們,我們將及時處理
【其他文章推薦】

※帶您來了解什麼是 USB CONNECTOR ?

※自行創業缺乏曝光? 下一步"網站設計"幫您第一時間規劃公司的門面形象

※如何讓商品強力曝光呢? 網頁設計公司幫您建置最吸引人的網站，提高曝光率!!

※綠能、環保無空污,成為電動車最新代名詞，目前市場使用率逐漸普及化

※廣告預算用在刀口上，網站設計公司幫您達到更多曝光效益

中介者模式

2020-05-072020-05-07 admin

2019年11月11日08:45:25

中介者模式（mediator pattern）

定義

從前的日色變得慢

車，馬，郵件都慢

一生只夠愛一個人

中介者模式（mediator pattern），用一个中介對象來封裝一系列的對象交互。中介者使各對象不需要顯式地互相引用，從而使其耦合鬆散，而且可以獨立地改變它們的交互。————《設計模式：可復用面向對象軟件的基礎》

中介者模式是一種對象行為型模式。

從木心這首小詩中的“郵件”中，討論一下中介者模式。

很久很久以前，你和她住在一個很大很大的村子裏面，你住在村的東邊，她住在村的西邊。

那年你才十八，她也正值青春年華，正月十五元宵節，你賞燈之時，她回首處，你一見鍾情。

往後的日子里，你每天都到她家送情書。送了99天，你想這不是辦法，每天大半天浪費在路上，沒時間賺錢。於是你想了一個辦法，創辦郵局，每天替村東邊的人送信件給村西邊的人，一舉兩得。慢慢郵局越來越大，南邊的人通過郵局來給北邊的人送信件，你找了幾個夥計，從南到北，從北到南送信。

多年後，你富甲一方，也娶了當年的她。

“郵局”就是中介者模式中的中介者，“你”和“她”就是中介者中的同事。

圖示

中介者模式結構圖：

角色

從中介者模式結構圖中可知，有以下4個角色：

（1）抽象中介者：定義了中介者
（2）具體中介者：實現了抽象中介者的方法，它需要知道所有具體同事對象，並從具體同事對象接收消息，向具體同事對象發出命令。
（3）抽象同事類：定義同事類
（4）具體同事類：實現抽象同事類，每個具體同事對象只知道自己的行為，而不了解其他同事對象的情況，但它們都認識中介者。

代碼示例

這是一個悲傷的故事，住在村東邊的你通過郵局給村西邊的她表白，她說，她已經有男朋友了。

類圖：

抽象中介者角色：

public interface PostOffice {
    /**
     * 送信
     */
    void deliverLetters(String letters, String receiver);

    /**
     * 添加收信人
     */
    void addPeople(Villager villager);
}

具體中介者角色：

public class PostOfficeImpl implements PostOffice {
    /**
     * 收信人信息
     */
    private HashMap villagerMap = new HashMap<String, Villager>();

    @Override
    public void addPeople(Villager villager) {
        villagerMap.put(villager.getClass().getSimpleName(), villager);
    }

    @Override
    public void deliverLetters(String letters, String receiver) {
        System.out.println("=>收信：郵局收到要寄的信");
        Villager villager = (Villager) villagerMap.get(receiver);
        System.out.println("=>送信：拿出地址本查詢收信人地址是：" + villager.getAddress() + "，送信");
        System.out.println("=>收信人看信：");
        villager.receiveLetter(letters);
    }
}

抽象同事類角色：

public abstract class Villager {
    protected PostOffice postOffice;
    protected String address;

    Villager(PostOffice postOffice, String address) {
        this.postOffice = postOffice;
        this.address = address;
    }

    public void receiveLetter(String letter) {
        System.out.println(letter);
    }

    public void sendLetter(String letter, String receiver) {
        postOffice.deliverLetters(letter, receiver);
    }

    public String getAddress() {
        return address;
    }
}

具體同事類角色：

// 她
public class She extends Villager {

    She(PostOffice postOffice, String address) {
        super(postOffice, address);
    }
}
// 你
public class You extends Villager {
    public You(PostOffice postOffice, String address) {
        super(postOffice, address);
    }
}

中介者模式測試類：

public class MediatorPatternTest {
    public static void main(String[] args) {
        PostOffice postOffice = new PostOfficeImpl();
        She she = new She(postOffice, "村西邊");
        You you = new You(postOffice, "村東邊");

        postOffice.addPeople(she);
        postOffice.addPeople(you);

        you.sendLetter("正月十五，元宵之夜，一見傾心", "She");
        she.sendLetter("對不起，我已經有男朋友了", "You");
    }
}

測試結果：

使用場景

村子很大，人很多，關係很複雜：系統中存在很多對象，對象之間存在複雜的引用關係，產生的相互依賴關係結構混亂且難以理解，使得對象無法重用

人與人之間書信交流：對象間存在某種共性交互行為，用中介者封裝這種行為

在這個很大的村子裏面，每個人要給不同人的送信，這種關係成網狀結構，錯綜複雜。

加入郵局中介者之後，成星狀結構，每個人只和郵局有關係。

總結：系統中存在很多對象，對象間存在複雜的關係，在複雜的關係中存在共性交互行為，封裝共性交互行為就是中介者。

中介者模式很容易在系統中應用，也很容易在系統中無用。當系統出現了“多對多”交互複雜的對象群是，不要急於使用中介者模式，而要先反思你的系統在設計上是不是合理。

實例有：聯合國，聊天室等。

中介者模式與迪米特法則

中介者模式是應用迪米特法則的典型。

迪米特法則：只與你最直接的朋友交流（Only talk to you immediate friends.）參考

優點

解耦：使同事類對象耦合性降低，可以獨立變化和復用同事類
把對象如何協作進行了抽象，將中介作為一個獨立的概念並將其封裝在一個對象中，這樣關注的對象就從對象各自本身的行為轉移到它們之間的交互上來，也就是在一個更宏觀的角度看待系統。

缺點

在具體中介者類中包含了同事之間的交互細節，可能會導致具體中介者類非常複雜，不利於維護，後期可能有牽一發而動全身的危險。

總結

中介者模式，用一个中介對象來封裝一系列的對象交互。中介者使各對象不需要顯式地互相引用，從而使其耦合鬆散，而且可以獨立地改變它們的交互。

完

2019年11月17日16:32:36

本站聲明:網站內容來源於博客園,如有侵權,請聯繫我們,我們將及時處理

【其他文章推薦】

※為什麼 USB CONNECTOR 是電子產業重要的元件?

※網頁設計一頭霧水??該從何著手呢? 找到專業技術的網頁設計公司，幫您輕鬆架站!

※想要讓你的商品成為最夯、最多人討論的話題?網頁設計公司讓你強力曝光

※想知道最厲害的台北網頁設計公司推薦、台中網頁設計公司推薦專業設計師”嚨底家”!!

Convolutional Sequence to Sequence Learning 論文筆記

2020-05-072020-05-07 admin

簡介

寫這篇博客主要是為了進一步了解如何將CNN當作Encoder結構來使用，同時這篇論文也是必看的論文之一。該論文證明了使用CNN作為特徵抽取結構實現Seq2Seq，可以達到與 RNN 相接近甚至更好的效果，並且CNN的高并行能力能夠大大減少我們的模型訓練時間（本文對原文中不清晰的部分做了梳理，建議與原文搭配服用）

原文鏈接：

模型結構如下圖所示：

下面對模型的每個部分進行分塊介紹：

Position Embeddings

卷積網絡和Transformer一樣，不是類似於RNN的時序模型，因此需要加入位置編碼來體現詞與詞之間的位置關係

樣本輸入的詞向量：\(w = (w_1, w_2, …, w_n)\)
樣本位置編碼：\(p = (p_1, p_2, …, p_n)\)
最終詞向量表徵：\(e = (w_1 + p_1, w_2 + p_2, …, w_n + p_n)\)

GLU or GRU

GLU和GTU是在同一篇論文中提出的，其中，GLU也是CNN Seq2Seq的主要結構。可以直接將其當作激活函數來看待，其將某以卷積核的輸出輸入到兩個結構相同的卷積網絡，令其中一個的輸出為\(A\)，另一個為\(B\)。
GLU與GRU的區別就在於A輸出的激活函數不同：
\[GLU：H_0=A \otimes \sigma (B)\]

\[GTU：H_0=tanh(A) \otimes \sigma (B)\]

而CNN Seq2Seq就採用了GLU作為模型的激活函數

原文鏈接：

Convolutional Block Structure

編碼器與解碼器都是由多個卷積層構成的(原文中稱為block，實際上就是layer)，每一層包含一個1維卷積核以及一個門控線性單元(Gated linear units, GLU)。假設單詞數即輸入長度為\(m\)，kernel大小為\(k\)，pad為\(p\)，那麼計算輸出sequence長度的公式為\((m+2p-k)/stride+1\)，只要適當的設置卷積核的kernel大小、pad以及步長參數，即可使得輸出序列與輸入序列的維度保持一致。在文中，輸入為25，kernel為5，則輸出序列長度為\((25+2*2-5)/1+1=25\)。

另外，為了充分讓輸出節點跟整個sequence單詞有聯繫，必須使用多個卷積層，這樣才能使得最後一個卷積核有足夠大得感受野以感受整個句子的特徵，同時也能捕捉局部句子的特徵。

來看一下整個編碼器的前向傳播方式：

每次輸入到卷積核的句子的大小為\(X \in R^{k\times d}\)，表明每次卷積核能夠讀取的序列長度為\(k\)，也就是卷積核的寬度為\(k\)，詞向量維度為\(d\)
卷積核的權重矩陣大小為\(W^{2d \times k \times d}\)，偏置向量為\(b_W \in R^{2d}\)，表明每一層有\(2d\)個卷積核，因此輸出序列的維度為\(2d\)，而由於事先的設計，使得輸入序列與輸出序列的長度是相同的，因此經過卷積之後，得到的序列的矩陣大小為\(Y \in R^{k \times 2d}\)。
我們將上面的\(2d\)個卷積核分為兩個部分，這兩個部分的卷積核尺寸與個數完全相同，輸出維度也完全相同，則可以將其當作\(GLU\)的兩個輸入，輸入到GLU整合過後，輸出的序列維度又變為了\(\hat{Y} \in R^{k \times d}\)
為了能夠實現深層次的網絡，在每一層的輸入和輸出之間採用了殘差結構
對於解碼序列來說，我們需要提取解碼序列的隱藏表徵，但是解碼序列的解碼過程是時序遞歸的，即我們無法觀測到當前預測對象之後的序列，因此論文作者將輸入的decoder序列

這樣的卷積策略保證了每一層的輸入與輸出序列的一一對應，並且能夠將其看作簡單的編碼器單元，多層堆疊以實現更深層次的編碼。

Multi-step Attention

對於Attention的計算，關鍵就是找到 Query、Key 和 Value。下圖為計算Attention且解碼的示意圖

Attention的計算過程如下：

Query由decoder的最後一個卷積層的輸出\(h_i^l\)以及上一時刻decoder最終的生成的目標\(g_i\)共同決定，\(W^l_d\)與\(b_d^l\)為線性映射的參數。
\[d_i^l = W^l_dh^l_i+b_d^l+g_i\]
Key 則採用 Encoder 的輸出\(z_j^u\)，典型的二維匹配模型，將 Query 與 Key 一一對齊，計算 dot attention分數：
\[a_{ij}^l = \frac{exp(d^l_i \cdot z^u_j)}{\sum_{t=1}^mexp(z_j^u+e_j)}\]
Value 的值則取編碼器的輸出\(z_j^u\)以及詞向量表徵\(e_j\)之和，目的是為編碼器的輸出加上位置表徵信息。得到對應的 Value 值 \(c_i^l\) 之後，直接與當前時刻的 Decoder 輸出 \(h_i^l\) 相加，再輸入分類器進行分類。
\[c_i^l = \sum_{j=1}^ma_{ij}^l(z_j^u + e_j)\]

Normalization Strategy

模型還通過歸一化策略來保證通過每一層模型的方差變化不會太大，這裏先簡單的記錄一下，具體的操作細節需要回去仔細琢磨代碼。歸一化的主要策略如下：

對殘差網絡的輸入和輸出乘以 \(\sqrt{0.5}\) 來保證輸入和輸出的方差減半（這假設兩側的方差是相等的，雖然這不是總是正確的，但是實驗證明這樣做是有效的）
由於注意力模塊的輸出向量為 m 個向量的加權和，因此將其乘以 \(m \sqrt{m}\) 來抵消方差的變化，其中，乘以 \(m\) 是為了將向量放大到原始的大小（實際中通常不會這麼做，但是這麼做的效果良好）
由於採用了多重注意力機制的卷積解碼器，作者根據注意力機制的數量來對反向傳播到編碼器的梯度進行壓縮，這可以避免編碼器接收過多的梯度信息，使得訓練變得更加平穩。

Initialization

初始化的目的與歸一化是一致的，即都是為了保證前向與後項傳播的數據方差能夠保持在一個較穩定的水準，模型初始化的策略如下：

此前如層都由平均值為0以及標準差為0.1的正太分佈進行初始化。
對於其輸出未直接輸入門控線性單元的層，我們以正態分佈 \(N(0, \sqrt{1/n_l})\) 來初始化權重，其中 \(n_l\) 是每個神經元的輸入連接個數。這樣可以確保正太分佈的輸入的方差得以保留
對於輸出與GLU相連的層，我們採取不同的策略。如果GLU的輸入的均值為0且方差足夠小，則輸出方差可以近似等於輸入方差的1/4。因此，需要初始化權重使得GLU激活的輸入具有該層輸入方差的4倍，即該層的初始化分佈為 \(N(0, \sqrt{4/n_l})\)。
此外，每一層的偏置 \(b\) 統一設置為0
另外，考慮到 dropout 也會影響數據的方差分佈，假設dropout的保留概率為p，則方差將放大為 \(1/p\) 倍，因此上述提到的初始化策略需要修正為： \(N(0, \sqrt{p/n_l})\) 以及 \(N(0, \sqrt{4p/n_l})\)

最後的實驗部分就不記錄了，有興趣的同學可以去原文里看看。

本站聲明:網站內容來源於博客園,如有侵權,請聯繫我們,我們將及時處理

【其他文章推薦】

※USB CONNECTOR掌控什麼技術要點? 帶您認識其相關發展及效能

※評比前十大台北網頁設計、台北網站設計公司知名案例作品心得分享

※智慧手機時代的來臨，RWD網頁設計已成為網頁設計推薦首選

※評比南投搬家公司費用收費行情懶人包大公開

計算機相關專業初識–對於計算機相關專業我們在迷茫什麼

前言

一、什麼是計算機

二、我們該學什麼

1. 我們該如何選擇適合自己的方向

2. 主流編程語言主要應用場景

3. 主流編程語言學習路徑（將持續更新，僅供參考）

4. 主流編程語言入門學習書籍推薦

5. 編程學習網站推薦

三、總結

概念

操作

線程安全

內部原理

標識映射

狀態跟蹤

[[Prototype]]

屬性設置和屏蔽

類 （迫真）

對象實例關係

最後

中介者模式（mediator pattern）

定義

圖示

角色

代碼示例

使用場景

中介者模式與迪米特法則

優點

缺點

總結

完

簡介

Position Embeddings

GLU or GRU

Convolutional Block Structure

Multi-step Attention

Normalization Strategy

Initialization

`[[Prototype]]`

類（迫真）