Linux中國

用 NodeJS 進行 Twitter 情感分析

如果你想知道大家對某件事情的看法,Twitter 是最好的地方了。Twitter 是觀點持續不斷的湧現出來的地方,每秒鐘大概有 6000 條新 Twitter 發送出來。網際網路上的發展很快,如果你想與時俱進或者跟上潮流,Twitter 就是你要去的地方。

現在,我們生活在一個數據為王的時代,很多公司都善於運用 Twitter 上的數據。根據測量到的他們新產品的人氣,嘗試預測之後的市場趨勢,分析 Twitter 上的數據有很多用處。通過數據,商人把產品賣給合適的用戶,收集關於他們品牌和改進的反饋,或者獲取他們產品或促銷活動失敗的原因。不僅僅是商人,很多政治和經濟上的決定是在觀察人們意見的基礎上所作的。今天,我會試著讓你感受下關於 Twitter 的簡單 情感分析,判斷這個 Twitter 是正能量、負能量還是中性的。這不會像專業人士所用的那麼複雜,但至少,它會讓你知道挖掘觀念的想法。

我們將使用 NodeJs,因為 JavaScript 太常用了,而且它還是最容易入門的語言。

前置條件:

  • 安裝了 NodeJs 和 NPM
  • 有 NodeJs 和 NPM 包的經驗
  • 熟悉命令行。

好了,就是這樣。開始吧。

開始

為了你的項目新建一個目錄,進入這個目錄下面。打開終端(或是命令行)。進入剛創建的目錄下面,運行命令 npm init -y。這會在這個目錄下創建一個 package.json 文件。現在我們可以安裝需要的 npm 包了。只需要創建一個新文件,命名為 index.js 然後我們就完成了初始的編碼。

獲取推文

好了,我們想要分析 Twitter ,為了實現這個目的,我們需要以編程的方式訪問 Twitter。為此,我們要用到 twit 包。因此,先用 npm i wit 命令安裝它。我們還需要註冊一個 App,以通過我們的賬戶來訪問 Twitter 的 API。點擊這個 鏈接,填寫所有項目,從 「Keys and Access Token」 標籤頁中複製 「Consumer Key」、「Consumer Secret」、「Access token」 和 「Access Token Secret」 這幾項到一個 .env 文件中,就像這樣:

# .env
# replace the stars with values you copied
CONSUMER_KEY=************
CONSUMER_SECRET=************
ACCESS_TOKEN=************
ACCESS_TOKEN_SECRET=************

現在開始。

用你最喜歡的代碼編輯器打開 index.js。我們需要用 npm i dotenv 命令安裝 dotenv 包來讀取 .env 文件。好了,創建一個 API 實例。

const Twit = require('twit');
const dotenv = require('dotenv');

dotenv.config();

const { CONSUMER_KEY
      , CONSUMER_SECRET
      , ACCESS_TOKEN
      , ACCESS_TOKEN_SECRET
      } = process.env;

const config_twitter = {
    consumer_key: CONSUMER_KEY,
    consumer_secret: CONSUMER_SECRET,
    access_token: ACCESS_TOKEN,
    access_token_secret: ACCESS_TOKEN_SECRET,
    timeout_ms: 60*1000
};

let api = new Twit(config_twitter);

這裡已經用所需的配置文件建立了到 Twitter 上的連接。但我們什麼事情都沒做。先定義個獲取推文的函數:

async function get_tweets(q, count) {
    let tweets = await api.get('search/tweets', {q, count, tweet_mode: 'extended'});
    return tweets.data.statuses.map(tweet => tweet.full_text);
}

這是個 async 函數,因為 api.get 函數返回一個 promise 對象,而不是 then 鏈,我想通過這種簡單的方式獲取推文。它接收兩個參數 qcountq 是查詢或者我們想要搜索的關鍵字,count 是讓這個 api 返回的推文數量。

目前為止我們擁有了一個從 Twitter 上獲取完整文本的簡單方法。不過這裡有個問題,現在我們要獲取的文本中可能包含某些連接或者由於轉推而被截斷了。所以我們會編寫另一個函數,拆解並返回推文的文本,即便是轉發的推文,並且其中有鏈接的話就刪除。

function get_text(tweet) {
    let txt = tweet.retweeted_status ? tweet.retweeted_status.full_text : tweet.full_text;
    return txt.split(/ |n/).filter(v => !v.startsWith('http')).join(' ');
 }

async function get_tweets(q, count) {
    let tweets = await api.get('search/tweets', {q, count, 'tweet_mode': 'extended'});
    return tweets.data.statuses.map(get_text);
}

現在我們拿到了文本。下一步是從文本中獲取情感。為此我們會使用 npm 中的另一個包 —— sentiment。讓我們像安裝其他包那樣安裝 sentiment,添加到腳本中。

const sentiment = require('sentiment')

sentiment 用起來很簡單。我們只用把 sentiment 函數用在我們想要分析的文本上,它就能返迴文本的相對分數。如果分數小於 0,它表達的就是消極情感,大於 0 的分數是積極情感,而 0,如你所料,表示中性的情感。基於此,我們將會把推文列印成不同的顏色 —— 綠色表示積極,紅色表示消極,藍色表示中性。為此,我們會用到 colors 包。先安裝這個包,然後添加到腳本中。

const colors = require('colors/safe');

好了,現在把所有東西都整合到 main 函數中。

async function main() {
    let keyword = * define the keyword that you want to search for *;
    let count = * define the count of tweets you want *;
    let tweets = await get_tweets(keyword, count);
    for (tweet of tweets) {
        let score = sentiment(tweet).comparative;
        tweet = `${tweet}n`;
        if (score > 0) {
            tweet = colors.green(tweet);
        } else if (score < 0) {
            tweet = colors.red(tweet);
        } else {
            tweet = colors.blue(tweet);
        }
        console.log(tweet);
    }
}

最後,執行 main 函數。

main();

就是這樣,一個簡單的分析推文中的基本情感的腳本。

\ full script
const Twit = require(&apos;twit&apos;);
const dotenv = require(&apos;dotenv&apos;);
const sentiment = require(&apos;sentiment&apos;);
const colors = require(&apos;colors/safe&apos;);

dotenv.config();

const { CONSUMER_KEY
      , CONSUMER_SECRET
      , ACCESS_TOKEN
      , ACCESS_TOKEN_SECRET
      } = process.env;

const config_twitter = {
    consumer_key: CONSUMER_KEY,
    consumer_secret: CONSUMER_SECRET,
    access_token: ACCESS_TOKEN,
    access_token_secret: ACCESS_TOKEN_SECRET,
    timeout_ms: 60*1000
};

let api = new Twit(config_twitter);

function get_text(tweet) {
    let txt = tweet.retweeted_status ? tweet.retweeted_status.full_text : tweet.full_text;
    return txt.split(/ |n/).filter(v => !v.startsWith(&apos;http&apos;)).join(&apos; &apos;);
 }

async function get_tweets(q, count) {
    let tweets = await api.get(&apos;search/tweets&apos;, {q, count, &apos;tweet_mode&apos;: &apos;extended&apos;});
    return tweets.data.statuses.map(get_text);
}

async function main() {
    let keyword = &apos;avengers&apos;;
    let count = 100;
    let tweets = await get_tweets(keyword, count);
    for (tweet of tweets) {
        let score = sentiment(tweet).comparative;
        tweet = `${tweet}n`;
        if (score > 0) {
            tweet = colors.green(tweet);
        } else if (score < 0) {
            tweet = colors.red(tweet);
        } else {
            tweet = colors.blue(tweet)
        }
        console.log(tweet)
    }
}

main();

via: https://boostlog.io/@anshulc95/twitter-sentiment-analysis-using-nodejs-5ad1331247018500491f3b6a

作者:Anshul Chauhan 譯者:BriFuture 校對:wxy

本文由 LCTT 原創編譯,Linux中國 榮譽推出


本文轉載來自 Linux 中國: https://github.com/Linux-CN/archive

對這篇文章感覺如何?

太棒了
0
不錯
0
愛死了
0
不太好
0
感覺很糟
0
雨落清風。心向陽

    You may also like

    Leave a reply

    您的郵箱地址不會被公開。 必填項已用 * 標註

    此站點使用Akismet來減少垃圾評論。了解我們如何處理您的評論數據

    More in:Linux中國